Frekvenser: Smoothing

Jag har prövat ett fåtal av de mer välkända algoritmerna för smoothing av sannolikheter för förekomst fler-gram och kan hålla med om en del i:

Dealing with zero word frequencies: A review of the existing rules of thumb and a suggestion for an evidence-based choice

Också att i den mån smoothing ej sker eller så har skett befintligt för vad känt och något nytt upptäcks att vi kan se det som en förekomst och därefter börja spåra sannolikhet fortsatt.

Emellertid började jag små räkna lite i dagarna för att räkna om min Bluelight intensity till samma generation som andra viktsystem och därmed enklare jämförbar och samtidigt använd som dessa. Här utgick jag initialt för några tester från frekvens för koncept resp. sannolikheten för ett koncept givet ett annat koncept som också har en fast relation i Bluelight till det första konceptet (övrig P ( A | B ) sparade jag ej uppgifter för då det blev väldigt utrymmeskrävande och betungande).

En intressant egenskap här är att för vissa ord har frekvenser i stora delar av corpus ej räknats bl.a. the och of delvis också från ärvda sannolikheterna från föregående version. Medan dessa i absolut sista underversion av Bluelight gavs vänner fullt ut när jag såg att Berkley DB ej gav något problem krävande att jag ej kunde använda det (d.v.s. vid problem hade jag behövt kunna ha hela Bluelight i minne vilket kräver givet övrigt en gräns helst under 300 MB).

Frekvensen för the kommer därför ordentligt långt ner och befinner sig ej topp 10 000.

Säg nu att vi gör smoothing genom att göra något ganska enkelt som att över alla vänner en relationer finns för summera resp.

P ( the | relation ( i ) ) * frekvens ( relation ( i ) )

Den andra delen av uttrycket går som jag vet av erfarenhet att göra ordentligt bättre genom att utgå från relationerna för det konceptet och räkna framåt.

Värdet som detta gavs när ingen värdering alls till resp. koncept's uppmätta frekvens "korrigerade" positioner för åtminstone mycket vanliga ord som ex. the och of. Jag gjorde ingen mer exakt kontroll av det mer än att notera att jag mycket möjligt för beräkning av okända sannolikheterna hade en såväl enklare som eventuellt bättre algoritm än den jag just nu använder (som är similarity baserad och inte troligt presterar bättre än denna inom forskning m.m. tydligt ämnes-nära jfr om frekvens cognitive psychology är okänt).

Mitt intryck var emellertid att korrigeringen var mycket god för 1-gram (ord) åtminstone för alla ej ovanliga (jag tittade bara en bit högt upp). Mycket god bedömt från rank-ordningen. Effekten på fler-gram betraktade jag föga om alls men noterade en del tecken på att man troligt om alls utnyttjande detta behöver kontrollera det mycket noggrant. En del organisationer (United Nations, länder och en stad (New York) tycks korrekt gynnas men jag har en känsla här för att vi här inte längre får frekvenserna korrigerade eller skattade så mycket som att få motsvarande Bluelight intensity. P.s.s. som att frekvensen vi utgår från är mer eller mindre korrekt p.g.a. stop gäller tänkbart att ev. värdering av den behöver påverkas av faktorer kanske svåra för fler-gram anta är samma för allt.

Jag var här också intresserad av att få magnitud på det hela för att värdera vad känt såväl som frekvens och kontext på hur lätt vi processar data d.v.s. grundvikter utan hänsyn till det lokala kontext (kontext i bredare mening). Någon trivial vikt utnyttjande resp. frekvens och "smooth-frekvens" tillsammans presenterade sig emellertid inte.

Inte otrolig är mina frekvenser från start mycket nära vad jag sökte ovan eftersom de är baserade med en ganska kraftig andel titlar. I titlar har vi ofta 1 förekomst av resp. koncept och ger därför något motsvarande en kontextuell beräkning: Jämför gärna med mått vanliga i bibliotekssystem resp. sökmotorer för antalet dokument ett koncept förekommer jämfört med antal förekomster vi samlat har.

Detta är ett annat sätt att se på och göra smoothing även om det inte var målsättningen med vad jag gjorde här. Och tänkbart är den subjektiva vikt man kan få ut görlig att få närmare contextual diversity:

Jag kan tänka mig att sådana subjektiva sannolikheter kanske kan ge en förklaring till effekt som frekvens för chunk vs. frekvens för kortare chunks eller bara orden kan ha hastighet vi processar meningar med.