Do - Describe från forskning under första halvan av 1900-talet

2014-06-21

I domän av att söka praktiskt fungerande algoritmer för textanalys fångande både praktiskt fungerande i hastighet och exakthet såväl som människans natur är en tror jag ofta mindre vanlig egenskap av och till uppträdande där man kan vinna inom särskilt flera delområden på att betrakta äldre forskning.


En (men inte ända) orsak är att i vissa delområden har man längre bak i tiden - ibland praktiskt styrande konkret för vilka projekt och idéer som orkar vidare styrande åtminstone fram till och med 1980-talet - haft bra idéer som utgångspunkt men ej dataresurser för att verifiera dem praktiskt. Faktiskt gäller att en hel del vi sett publicerat sista tre åren rörande vissa områden inom sociala media såväl som natural language processing och sociologi har utgångspunkter likartat vad som finns publicerat med början 1950-talet och till och med cirka 1970-talet men där det förr egentligen utanför en bra idé inte nådde till något givet att både data i tillräcklig mängd såväl som möjlighet till god hastighet analys på data som fanns saknades: Inget internet med människoflockar som självorganiserat uttrycker sin sociala dynamik förenklat och heller inga datorer att analysera sådant data med.


Ett till område där något av samma fenomen finns är data- och statistiskanalys av språk. Chomsky's koncept lugnande ned övriga angreppsvägar för språkförståelse och det gör att man utanför större idéer som jag tror normalt överlevt uppvaknande efter att den i allt praktiskt (givet dagens datorer) mycket kraftfullare statistiska utgångspunkten till språkföreståelse vaknade upp under 1980- och 1990-talet - också kan hitta enstaka tämligen intressanta studier noterande ett fenomen man i modernare referenslitteratur ej hittar. Bortglömt men intressant.


Jag känner ett fåtal sådana berörande delvis kan man argumentera vad diskuterat i Log-dynamik i hjärnans nätverk: Fördelning, interferens och inlärning och föregående inlägg jag skrev när jag refreshade upp ett viktigt delområde för mig inför att det ska gå in i interaktion med nya versionen ganska snart med ev. nödvändiga eller önskvärda uppdateringar i subsystemet.


Föga förvånande är det i en av de sista referensböckerna kraftigt kulturnära den databaserade och statistiska metoden som gjordes i bleeding edge position innan Chomsky-kulturen började gjorde området sämre prioritera. Och trots från 1969 faktiskt delvis diskuterande just hur man gör databaserad textanalys (inkl. skisser på hålkort) och refererande inte sämre kunskapssystem än jag noterade att Jurafsky författare till en mycket modernare referensbok (min favorit) inom statistiska metoder (Speech and Language Processing) använt det nyligen i en publicerad studie (delvis utgår jag från i brist på bättre då jag själv för samma område Jurafsky använde det förvisso utnyttjade ramverket som en av flera utgångspunkter men heller inte menar ens med flera riktigt håller hela vägen utan en försvarlig manuell kvalitetskontroll av fler än ett tusentals ord).


Boken är givetvis Content Analysis for the Social Sciences and Humanities. Letande efter sidan med refererade studier hamnade jag förövrigt på en metod som jag delvis såg som intressant för praktiskt värde och som jag nu senare efter att också sett över samma område i modernare studier och referensböcker inom lingivistik vet har tagits upp igen (delvis tror jag oberoende eftersom Osgood är mindre känd inom lingivstiken) i området av att bygga upp common sense från vetskap man extraherar ur text. Jag föredrar fortfarande hur Osgood formulerade det som indirekt uttryckt av Holst:


"An 'atomic' approach to coding for intensity, 'evaluativ assertion analysis', was developed by Osgood, Saporta, and Nunnally (1956, Osgood, 1959). The initial step is to translate all sentences into one of two common thematic structures:

  1. Attitude object / verbal connector / common meaning term.
  2. Attitude object1 / verbal connector / attitude object2

For example, the sentence 'An aggressive Soviet Union threatens the United States," is translated to read:

The Soviet Union / is / aggressive.
The Soviet Union / threatens / United States."

Intressant med systemet ovan jämfört med mycket jag sett i senare system för textanalys för att ta ut common sense nära enkla korta fakta av typen a is b är att man här inser åtminstone indirekt samma egenskap verb i allmänhet (både tror jag engelskan och bredare alla språk med eller utan specifikt avseende verb) att vi har ett tillståndsberoende såväl som vad som faktiskt sker förändrande eller pågående. I ex. ovan finns en implicit natur eller tillstånd antaget som givet för entitet Soviet Union där första meningen separerar ut något av hur handlandet endast bedömt från threatens bedömt från underförstått av verbet bör verka upparbetande mot detta bedömda totala tillstånd.


Type-token ratio

Vi minns från Subadditive reward discounting särskilt referensen till divergent tänkande. D.v.s. att konvergens ej sker på samma nivå som vid ett lugnare mindre ångest-drivet tillståndet utan i större mängd expanderar ut till mindre troliga lösningar existerande samtidigt med de troligaste vi ändå slutligen (om ej i psykos åtminstone) konvergerar till men där konvergensen givet fler starkare såväl som svagare lösningar samtidiga konvergerar med mer brus.


Boken refererar relevant detta en för tiden inte ovanligt så liten studie att man knappt vet om man alls kan bedömda något av den (åtminstone när nu mindre efterföljande finns). 12 patienter med schizofreni resp. 12 antaget friska studienter slattade man type-token ratio för med lägre värde för de med schizofreni.


D.v.s. tänker vi oss nu att vi modulerar intensitet bl.a. av brus i något steg. Jämför som välkända lösningar för att ta diskriminanter för att översätta språk i ljud till språk i text där avstånd från förväntat medelvärde dividerat variansen är kärnan i flera algoritmer och lösningar som är ytterst funktionella (ett exempel Mahalanobis distance). Kan vi tänka oss att vi omvänt till ett potentiellt värde i kreativt divergent tänkande när meningsfulla nya lösningar kan upptäckas en kostnad när det mer allmänt irrationellt pågår:


  • Expansion sker till tänkbart fler typer för samma indata.
  • Detta motsvarar kreativt tänkande.
  • När det mer allmänt sker kommer samma typer från annars kreativt tänkande tendera att dyka upp i allt fler lokala samman irrationellt.
  • Variansen för sammanhang resp. typ förekommer ökar ständigt så länge de abnorm association i bred alltid fortgår.

Och fenomen jag upplever mig sett i text utskrivna av schizofrena från andra studier där underliga associationer hoppar irrationellt från lokalt meningsfullt till något annat men ändå med konvergens påverkan från övergripande kontext ej rationellt faktiska för sammanhanget sker.


Det vill säga även om jag tror att resultaten från studien kan stämma tror jag att beroende på hur man mäter, i vilka sammanhang och hur man avgränsar fönster på enheter för text att man också kan få resultat som visar på att type-token ratio istället är högre än normalt:


  • Motsvarande associerande från ett litet kontext som indata kan det bli större.
  • Beskrivande samma dagliga fenomen dagligen kan det bli mindre därför övergripande kontext ej rationellt del av vad som beskrivs ändå kommer in påverkande beskrivning (samt också tror jag del av den kognitiva kostnaden brus allmänt innebär reducerande allmän förmåga).
  • ¨

Mer brus allmänt gör att fler ord krävs för att säga samma sak.


DO - DESCRIBE

Citatet med evaluativ assertion analysis såväl en studie liknande den refererad för type-token ratio fångar något av mening jag lägger i DO och DESCRIBE. I denna studie - också farligt liten - såg man att schizofrena använde färre adjektiv per verb jämfört med antaget friska.


Utgår vi från den förenklade förklaring jag försökte ge till fenomenet rörande type-token ratio kan vi se DESCRIBE för ett realiserat DO i mening av konvergens som det allmänna tillstånd denna konvergens sker från. D.v.s. vad som vid schizofeni kan tänkas inkludera mycket mer aktiverat föregripande ökande mängden brus. Att söka beskriva ett DESCRIBE meningsfullt kanske också blir jämförbart svårare motsvarande den större komplexiteten från fler underliggande typer man hade kunnat konvergera till med viss sannolikhet resp. kostnaden helt enkelt från mer brus.


Har vi resonerar fel? Eller infört ett felaktigt antagande?

Idéen med likhet mellan divergent tänkande och schizofreni är gammal när jag sökt sätta funktionella algoritmer djupt ner användbara.


En alternativ förklaring som praktiskt som jag åtminstone förr resonerat är tror jag samma sak finns:


  • Det är inte just divergent tänkande som sker vid schizofreni.
  • Utan helt enkelt konvergens från mer brus regelmässigt.
  • Diskriminerbarhet accepterar helt enkelt mer brus som påverkande.

I någon mening vad vi kanske kan se som att perceptionen uttrycker högre brus än vad kognitionen och förmåga att ex. i språkförståelse tolka ut typer från är inlärd för att förvänta.