Att skatta komplexitet för NP är svårare än ofta föreslaget

2015-03-27

Jag skulle behöva en bättre complexity gör godtyckliga noun phrases för att balansera upparbetning av ex. emotionell intensitet mot named entity eller andra noun compounds mot slutet. Detta förslag med en mängd liknande går dock inte att använda:


"Noun Phrase Complexity (Ravid & Berman, 2010)
1. Mean length of NP in words
2. Mean number of modifier tokens
3. Mean number of modifier types
4. Mean number of subordinated lexical nouns
5. Head noun concreteness (Coltheart, 1981; Nippold, et al. 1999)"

Från: Language Proficiency and Linguistic Complexity Craig Lambert, Ph.D. December 19th 2014 Vrije Universiteit, Brussel

Feltänket är antagandet att fler av resp. ökar komplexitet men det stämmer inte. Har vi en modifier av adjektiv-typ modifierande noun och till den lägger en modifier varande adverb modifierande adjektiv gäller att vi nu har en mening lättare att processa. Går vi ner i åldrarna hos barn (men inte uteslutande bedömt från vad känt från studier där) kan rent av adverb föregripande adjektiv modifierande den varan förutsättning för att förstå och klara ut adjektivet.


Av samma anledning är längden av NP i ord ej tillförlitlig att använda. Fler ord kan öka komplexitet men kan också minska ord för såväl tillägg av adverb, adjektiv och noun (noun berördes lite längre fram medan jag utelämnande adjektiv vara tämligen självklart: Direkt nära adjektiv kan vara förutsättning för att efterföljande noun compound alls kan tolkas medan tidigt evaluativt-adjektiv kan vara motivationen som gör att vi överhuvudtaget läser resten av meningen).


Vidare finns chunks intränade till välkända ofta sedda koncept i sig själv som ex. Carl Bildt eller Hans Husman är identifikationen av detta som chunk effektivt och kommer med lägre komplexitet för åtminstone vissa former av adjektiv och föregripande noun ej del av named entity helt enkelt därför att det inte blir förvirrat eller meningslöst hur de påverkar jämfört med om vi istället anger med säg efternamn och läsaren p.g.a. annan person nyligen förekommande i nyheter med samma namn behöver hålla divergent representation uppe för båda när han går framåt.


Av samma anledning är längden på orden - om än ibland - inte alltid heller bra för att skatta komplexitet. Förutom en del rent visuella egenskaper jag känner är korrekt att utelämna (men är heller inte vad jag någonsin betraktat i detalj utanför titlar, abstract, och taggar för journal-artiklar, news-artiklar och blog-postningar) eftersom vi nu ändå måste flytta ögonen eller huvudet förr eller senare (och idag med html-innehåll känns det inte alltid självklart att man kan skatta bra här under förutsättning att man endast ska ta hänsyn till text utan formatering).


Och tämligen spekulativt om propagerar vikt från adjektiv med indikerad kanske högre komplexitet från sannolikhet, idf, diskriminerbarhet m.fl. mer eller mindre jämförbara mått som kan kombineras samman för att uttrycka hur vana vid är vid en term resp. hur sannolikt den i sig själv är marked förekommande i ett dokument (very förekommande i många kontext, dokument, meningar är föga marked och kan ha viss inflation medan en udda term kan märkas ut mer men vara dyrare att processa) är det tänkbart att den kostnaden givet emotionell intensitet hos termen gör ett längre noun-compound lättare att processa därför att det blir emotionellt intensivt och spännande istället för väldigt tråkigt.


Vidare anknytande till vad jag skrev i Ej säkert att engelskan har ett positivt bias såg jag för ett par timmar sedan gående igenom vad publicerat i hopp om att slippa få ett överdrivet antal lingvistiska studier gjorda av lingvistiker mer önskande från andra områden faktiskt men också att jag hitta en del bra från dom också jag inte redan sett samma studie gjord förr av tio andra (lingvistik är låg-budget i forskning jämfört med ex. medicinsk grundforskning så när man rör sig mer i lingvistik i deras område är i min erfarenhet kvaliteten såväl som unikheten riktigt bra mycket bättre) en artikel intressant åtminstone i problemformuleringen där man bl.a. pekade på att recall av vissa former av koncept gynnas av konceptet är välkänt för oss (uppbearbetning till ungefär som frequency effect m.fl. likartade företeelser) medan diskriminerbarhet och att addera tid på konceptet kan gynnas av oväntade slumpmässiga kombinationer av bokstäver (minns jag rätt meningsfulla ljud). Det kändes tilltalande att någon mer noterat problematiken även om jag inte såg någon lösning där.


Och om vi har två adverb efter varandra fyllande samma funktioner gäller ibland att de mer än ska tolkas tillsammans också är en ofta förekommande kombination vi bäst ser som ett koncept i sig. Dels därför att vi kanske kan få korrektare värden genom att erkänna den som en gemensam koncept (jämför med Hans Husman istället för Hans + Husman) vidare relevant för komplexitet därför att det är möjligt att dessa är snabbare att processa än resp. ord var för sig om de ej konvergerar till ett gemensamt koncept.


Rörande ord med prefix gäller trots många studier demonstrerande korrelation rörande olika frekvenser för prefix, själva bas-konceptet, resp. ev. form på slutet (ex. ir + responsib + able eller som jag föredrar att skriva dem ir + responsible + able om nu responsible är begreppet närmast centralitet för besläktade koncept och om inte vad som nu visar sig vara det) i och för sig demonstrerande argument för eller emot olika idéer om hur hjärnan hanterar dessa koncept (ex. skattande vikter för ord vi aldrig tidigare sett men ändå förstår därför att vi ex. mått responsible tidigare om än irresponsible) att samband rörande frekvens ej på vettig nivå (med något jag prövade) approximerar frekvensen för hela ordet från base (när dessa faktiskt ej är ovanliga och trovärdiga värden finns). Approximationerna går att få mycket bättre inte överdrivet svårt men just frekvensen räcker inte: Men inte ens mycket bättre känns dom i all ärlighet bra i annan mening än jämfört med när beräknande endast från frekvenserna. Detta endast jämförande prefix + base d.v.s. utan att blanda in koncept som också varierade på slutet. Text längd gav heller inte särskilt bra approximationer.


Givetvis kan man införa en super-operator inkluderande bl.a. not såväl som alla prefix som praktiskt för en tillräckligt andel av ord de används för (och där antonym finns resp. om inte har kontrollerats förhand) vilket möjligen gör det enklare att approximera hur vikter för base ska modifieras (eller alternativt tvärtom gör det mycket svårare: Jag vet inte säkert).


Praktiskt tror jag emellertid att det tänkbart kommer ner till att dom den relevanta motivations-drivande vikten för base är tillräckligt hög kommer komplexitet som skattat för hela ordet skapa praktiskt större intensitet än endast base har: D.v.s. i någon mening att ordet har lägre komplexitet därför att det känns viktigare, intressantare, roligare o.s.v. att läsa. Det är fel att kalla sådana lösningar själv-plågande men jag ger visst erkännande till att det kanske felaktigt kan upplevas så att implementera dem och väntar med att göra dem innan en hel del annat prövats ty för att detta praktiskt ska gå är man direkt i en multidimensionell värd där man i värsta fall också kan behöva ta hänsyn till similarity (ex. har vi läst så långt som till koncept i tycks det troligt att om det har viss rimlig likhet med andra tidigare koncept i allmänhet krångliga och tråkiga om än mindre så i vissa ämnen att sådan kostnad ej avgör negativt: Men jag väldigt mycket så hoppas att det visar sig korrekt när jag skriver att jag absolut inte räknar med att behöva göra en sådan lösning).


Det låter som jag lärt mig en massa här och delvis stämmer det. Men det finns också alltid en viss risk att tänka för komplext. Samtidigt har jag åtminstone några stabila indikationer på att det svårt att komma undan med de typer av enklare lösningar man hellre skulle önska använda.


Energi att lägga på att skatta komplexitet över frasen resp. per ord är dock när rationellt driven vad anpassas från vad man tänker sig göra. Jag har mycket bra viktsystem potenta i projektioner från bag-of-word och nätverk av koncept, resp. redan för vissa kombinationer under parsning mellan olika delar av meningen som jag önskar ta längre. Det är tråkigt att förstöra ner dom värdena när många fler olika koncept av varierade sorter (olika adverb-typer, adjektiv-typer och "för-noun") ska kombineras innan de får verka på sista NN-konvergensen eller konvergenserna. Ofta när jag nu läst studier från den lingvistiska kulturen saknas en bra praktisk uppgift att verifiera teorin mot istället räknar man lite fram och tillbaka ofta på hand-markerat data eller tittar om man får liknande resultat på annat data som man fick på hand-pos-markerat data vilket inte direkt är trovärdigt får någon bredare mer krävande användning än kanske just träna en algoritm av deras typ på en begränsad mängd pos-lablat data. Jag såg ex. en studie som argumenterade för att modifiera intensitet av ett adverb verkande på ett adjektiv (av en särskild grupp de också infört: ev. kallad strong) med en multiplikativ faktor av 0.30. Och visst jag kan förstå att de fick 0.30 när de gick över adverben därför runt cirka 0.30 ligger för mig very såväl som most med flera vanliga när de viktats upp från bl.a. frekvens, IDF, och något till välkänt trivial mått (jag använder nu mest för att se hur andra kombinationer fungerar) och sedan normaliserats men jag tvivlar ju starkt på att 0.30 ens är i närheten av ex. ovanliga adverb förekommande i få chunk med anormal association till adjektivet. Med en praktisk domän att tillämpa det på hade man säkert uppmärksammat problematiken eftersom det där inte räcker med att hantera ett mindre antal adverb man sorterat upp i kategorierna utan att alla adverb ska hanteras.