RT från vilken (eller vilka) frekvens / sannolikhet för ordet?

2015-10-29

Det finns en lång rad fenomen relaterade hur vi upplever och använder (åtminstone) ord som vi kan beskriva på formen:


a / ( b + c * n (rank ) )K

Jag fick för mig kanske mest praktiskt nära relaterat "komplexitet" för att läsa eller skriva ett ord att försöka ta samman dem på formen ovan (d.v.s. om nödvändigt som förväntat tillåta varierade konstanter).


Det var varken min tro eller icke-tro att jag utan att behöva känna till någon algoritm skulle kunna utan svårighet skatta parametrarna men kunde konstatera att jag inte kom riktigt fram till något (eller egentligen ens så långt här).


Emellertid under processen av att försöka få klart för mig hur man gör sådant bra använda jag data för RT (cirka 55 000 ord) och beräknade hur mycket rank i genomsnitt avvek mot denna rank för bl.a. frekvens ord som i SUBTlEX (korrekt var det US snarare än UK men det har knappast betydelse här och kan enkelt hittas), min frekvens från mycket större corpus (men tycks det saknande ord jfr vad jag hade RT värden för: Ev. någon defekt byggande databas-filerna senast), och intressantare en sannolikhet beräknad från sphinx representationen som kommer med CMU dict. Sphinx har färre symboler än den normala representationen i CMU dict (d.v.s. ljudsymboler för orden).


Sannolikheten för ljud-symbolerna skattade jag ej från något relaterat förekomst av själva ordet utan resp. ljudsymbol givet positionen i ordet utan hänsyn till föregående eller framförvarande ljudsymbol (vilket man ev. kanske vinner på givet att de åtminstone i tal flyter samman något). En egentligen inte alls spännande fråga är hur storleken på alfabetet för ljuden inverkar här: Jag har ej ett bra svar här.


Rörande SUBTlEX CD mått en relativt trolig användning myckenhet finns publicerad om har jag en använt den för komplexitet tidigare men sett relevant likhet för hur inverse document frequency används för att bygga index i sökmotorn och skapade ett mått ej riktigt CD eller IDF men funktionellt bättre anpassad för mitt behov. Därav bildade jag dessutom:


  • f ( CD ) * log ( freq ) / log ( 2 )
  • f ( CD ) * sqrt ( 1 + freq )

Jag prövade f ( CD ) enligt uppenbara: log ( frekvens av the som har störst CD / CD för aktuellt ord ) / log ( 2 ). Men kom troligen av någon anledning att använda log ( CD för aktuellt ord ) / log ( 2 ).


Linjär kombination av log ljud-sannolikhet tillsammans med f ( CD ) * log ( freq ) / log ( 2 ) var något lite bättre än f ( CD ) * sqrt ( freq ) / log ( 2 ) (men minskande så om man skär höga värden vilket eventuellt också för den första gav något bättre resultat). D.v.s. bättre i mening genomsnittligt rank-fel. Och ordentligt mycket bättre än alla kombinationer av CD och frekvens.


Jag trodde fenomenet kanske hade något att göra med att frekvens och/eller CD kommer fel för korta ord där ljud-sannolikheten kanske tänkte jag mig kompenserande det hela på något sätt. Men jag klarade ej ut att se var effekten kommer sig av.


Inte heller klarade jag att kombinera det hela på sådant sätt att jag faktiskt fick konkreta värden som är meningsfulla att använda. Bara själva rank-felet som hamnade neråt 4000 för totalt cirka 55 000 ord. Huruvida rank-felet är lågt eller högt jämfört med en vettigt skattad funktion som Zipf-Mandelbrot kan jag ej heller säga men det tycks troligt för mig att om man kastar största och minsta värden för RT (kanske 50 på vardera sidan eller ev. fler) går det nog att för resp. eller tillsammans frekvens och CD komma bättre också i rank-position fel (men å andra sidan kanske det också gäller ljud-sannolikheten).


Jag undrar egentligen mest vad effekten kom sig av. Själva kombinationen med f ( CD )... var inte mer avancerad än addition efter viss normalisering. Därav att jag funderade om det var korta ord som var förklaringen.


Det tråkiga med RT-värden är att...

Om vi söker beräkna förändringen av dem som funktion av föregående värde d.v.s. enkelt försöka skatta exponten i funktionen tidigt ligger de högt för de lägsta resp. högsta RT med ett minimum "mot mitten" (i väldigt grov mening).


Det kanske har att göra med hur jag laborerade med beräkningen. Men kändes kanske också som något man även kände igen från en del annat.


Jag vill egentligen inte säga för mycket om det här åtminstone innan jag skaffat fram varifrån jag fick RT värdena från början och ladda ner dem igen med all meta-information om dem.