Hans-faktor i smoothing konverger Eulers-konstant som funktion av antalet typer

Lätt irrterad såg jag en lösning på problemet jag inte fann i färdig algoritm föranledande Snabb och mycket acceptabel smoothing för särskilda användningsområden inom natural language processing (2013-09-27) skapelsen när jag sökte rörande nästa steg sättande värde-typ-beroendet (där det tycks fungera väl med log antal av dessa typer utan att behöva blanda in antal för första och sista typen i storleksordning) i:

Zipf and Type-Token rules for the English, Spanish, Irish and Latin
languages

Där vad refererat "This is called Smith-Devine prediction (1985)." i formel (7) när utvecklad i uttryck (8) i avsnitt "Enhancement of Smith-Devine law" ger oss att vad "Hans-faktor" konvergerar mot - som man också ser ganska tydligt som funktion av sample-storleken - är Eulers-konstant. Notera för hur Hans-faktor används att vi beräknar ett minus faktorn (den konvergerar just ett minus Eulers).

När sample expanderar tender som den samplings-metod och identifikation av koncept bestående av flera ord, ord o.s.v. allt mer approximera väl utan behov annan hänsyn än endast antalet typer enligt formel och blir på det sättet en allt bättre approximation. För Hans-konstant var ju dock ett delbehov att värdera upp mindre samples något mer varande oftare utvalda därför att det ansetts viktiga varande expert på något eller balanserande en annars möjligen likartad världsbild från stora mycket kvalitativa färdiga data (likt Biomedcentral.com alla artiklar med dess journaler färdigt för nedladdning i stora xml-filer med ett antal mindre journal-hus också med öppen publicering som ett begränsat cirka 40 MB sample från Mdpi.com).

Jag är väl egentligen ej klar över ännu om viktning med värde-ranking om funktionell räcker förutom normalisering [0,1]. Eventuellt kanske omräkning som funktion för P(A,B) som funktion av P(A) och P(B) tvingas till (vilka jag om så ogillar precis som den omfattande stopp-listan men knappast heller där att något direkt tydligt omedelbart problem ges av det). Men jag gissar att det nog ej krävs (och om så kanske snaare som funktion av P(A) resp. P(B) alt. mindre troligt men kanske tillräckligt reducerande problem med små-värden för antingen A eller B maximum om division känns som ett mer tidseffektiv alternativ än här kanske lite bättre lösningar givet att vi antagligen har "ett antal" fall där varken A eller B förekommer förutom i ett P(A,B) givet att vi nu såg A med B sorterade som typen snarare än mängden av alla hittade typer A och B. Men verkligen att det ofta nog fungerar bättre för mig tycker jag att pröva lite erkännande att jag inte så mycket härledde Hans-konstant som att notera den när jag sorterade några små-filer i en Excell-liknande applikation i Star office: en osund färdighet som kommer efter några år tagande in diverse liknande data för att sortera från max till min för att upptäcka ev. problem och reflektera hur man normaliserar det).

Även om det kan tyckas lite långsökt bara från detta tror jag med diverse annat från annat att det uttrycker när vi här ser det i språket hur vi organsierar våra biologiska neuronnät där i många delar överföring svåäl som topologiska-relationer exponentiellt avtagande förhållanden finns. Och vi noterar också dess användning inom bildanalysen ex. i COSINE INTEGRAL IMAGES FOR FAST SPATIAL AND RANGE FILTERING. Jag har väl också sedan något år eller så egentligen accepterat att det snarast troligare handlar om cosinus-transformationerna (ex. snabba approximationer av vourier) än wavelet dr de senare kanske snarare är en omväg (jag var ganska övertygad om waveletäs innan det: varande upplevde jag elegantare för rum- och tidsberoende men vid den tiden hade jag heller inte prövat dem på större datamängder).

Och Laplace transform där ev. om jag minns rätt egentligen inte behövt plåga mig med dem på väldigt många år praktiskt att vi kanske kan se kopplingen till exponentiella fördelningar inom sannolikhet.

Intressant är givetvis också användning inom extremvärdesteori (och där aktuella fördelningar). Det är ju vad vi har när mängden typer som för språk fortsätter att växa ju mer vi samplar och troligt med fler tidigare aldrig sedda kombinationer tillkommande dagligen i vad dom humana-språk-genererings-noderna skapar på Twitter, Plos m.m. vi kan läsa in för att förbättra våra modeller. Ej väldigt otroligt alls har jag nod-språkgenererande här gjort just det.

Därmed inte sagt att jag just tror att något särskilt i naturen grundläggande finns just med Eulers-konstant. Den återkommande här har nog mer med våra approximationer eller ideal för sett att avbilda. Även om jag relaterat det egentligen själv alltid upplevt dom logaritmiska uttrycken - ex. relaterat dopamin-decay i våra biologiska neuronnät - som troligare (utan att själv försökt skatta det från verkligt data rörande belöning, inlärning, prediktion runt det från alla ap-försök med josbildningar m..m. utan edast språk) snarare än dom hyperbola-funktionerna. Inlärningsbias från att alltid ha använt dem och säkert aldrig en hyperbol sedan universitet kan ha inverkat där misstänker jag också (i någon mening bör det väl ändå tycker jag komma ner till nedbrytning av dom kemiska substanserna via enzym-system och det är ju domäner man också precis som informationsteori och språkanalys ligger i uttryck nära dom logaritmiska decay-funktionerna).

P.s.s. noterar vi citateet "The information entropy of the Weibull and Lévy distributions, and, implicitly, of the chi-squared distribution for one or two degrees of freedom." i Wikipedia. Och ytterst relevant här gäller - med viss risk att jag något mindre eller större fel i detalj - att betraktar vi uttrycket (jämför gärna den ev. skalning mot P(A) och P(B) att skillnaden mellan information rörande dessa och P(A,B) ex. användande Shannons-uttryck för information med:

H(A) + H(B) - H(A,B)

, där vi när vi multicerar värdet med antalet utfall samt ungefär 1.386 får vi Chi2-värdet för att avgöra om hypotesen att A och B är oberoende är rätt eller fel. Gamma distribution är förövrigt anpassningsbar skattande mänsklig-inlärning även om jag prövande fördelningsfunktioner på värden skattade med olika former av vikter (mina upp och ner m.m. görande det mer noggrant på de tio viktigaste) finns flera andra fungerande ungefär lika bra. Men kopplingen informationsteori gör det ganska tydligare såväl som att rent visuellt kan se hur vi kan forma både inlärningskurvan och sigmoid-kruva såväl som mängden typer när sample-storlek växter.