Abstrakta och konkreta koncept (diskussion: "The semantic richness of abstract concepts")

2012-12-04

Att kort kommentera och diskutera några aspekter för ämnet till The semantic richness of abstract concepts är tror jag meningsfullt eftersom resultaten i publicerad forskning konkretiserar en del av de fallstudier och härledningar som förelåg flera av de grundläggande egendimensionerna både till Warrior och efterföljande.


Jag gör det i meningen att jag kort pekar på några saker i närområdet för studien från mitt perspektiv meningsfullt "kompletterande".


Kort inledande: Ord som konvergerad mening

Först kort inledande låt oss konstatera att vi tenderar att behandla ord som enheter vi kan konvergera mening till, och där dessa kan samspela med varandra. Det utesluter dock inte förekomsten av mer "operator-liknande" konstruktioner i språket (jämför gärna också med och inkludera "feature-system" liknande Verb net i konstruktioner mer av operator-natur styrande andra ord och hur ord kombinerar) men vi behöver tror jag inte för någon kommentar inkludera sådana operatörer.


Om vi så vill kan vi säga att ordets konvergens potentiellt är entydigt - konkret - (om vi inte är baffled av meningen) medan dess samspelande konvergens till mening med lokalt och globalt kontext är abstrakt. Abstrakt i betydelsen att ex. vad en enskild mening konvergerar till för meaning kan styras av faktorer utanför meningen som kan varieras.


Free-association norms

Vi utgår från följande citat:


"The three variables considered by Pexman et al. (2008)—NF, CD, and NSN—are not the only ones that have been investigated as measures of semantic richness. Yap et al. (2011) extended this work in several ways. First, they included additional variables that had been proposed in the literature as indicators of semantic richness: NoA (Duñabeitia et al., 2008) in the Nelson et al. (1998) free-association norms, and lexical ambiguity, which they operationalized as a word's log-transformed number of senses in WordNet (Miller, 1990). Second, they used alternative CD and neighborhood measures that had been calculated on larger corpora and accounted for more variance than previous operationalizations of CD and NSN."

Free-association norms tillsammans med mer data av samma typ (free association norms i sig är tillräckligt data men mer av annat liknande men inte samma typ av data krävs för att rätt klara att få ner det till viktsystem vettigt) var vad jag byggde viktsystemet emotional potential ifrån. Beroende av riktning är ett ord vi är mer benägna att associera till snabbare mer sannolikt och från fler ord potentare. Statistik oavsett rörande vad vi associerar till och respons-tider finns i princip endast för ord.


Från emotional potential skapades utvecklat (ej byggt på samma typ av data eller data härlett i emotional potential) Blue Light Intensity som söker uttrycka hur benägna vi är att "associera" i "kulturell" / "social" mening sett i referensinformation (ex. publicerade studier, ontologier, thesaurus, verksamhetssystem o.s.v. uttryckande meningsfulla och komprimerat sammanfattade tillståndsövergångar avspeglande mänsklig kunskap tillämpad) vi är att associera från ett koncept till ett annat koncept med ett känt existerande samband mellan dem.


Att i sig utnyttja emotional potential eller för den delen egentligen allt tänkbart data som kan härledas från free-association norms m.m. liknande per ord statistik (se ex. MRC psycholinguistic database för ett antal trevligt samlade) är praktiskt för ex. nyhetsanalys väldigt meningslöst under förutsättning att vi ej också i motsatt riktning till hur övergripande mening påverkar lokal konvergens till mening kan göra en transformation av vad dessa samlat i ett kontext indikerar om tolkning och betydelse för den övergripande mening kontext konvergerar till (ett trivialt exempel kan vara vad en Wikipedia sida handlar om som mening övergripande kontext konvergerar till i betydelsen av hur vad som sägs på sidan påverkar läsarnas attityd, tolkning och förståelse av det övergripande konceptet).


Ett parallellt till både Blue Light Intensity och Emotional potential också använt är News Power som indikerar den emotionella tyngden (angenämt, otäckt m.m. i den dimensionen oavsett typ som ökar känslan i ett ämne eller en text), För alla tre (och många andra dimensioner också nödvändiga) görs just en transformation till övergripande koncept.


För det är det intressant att notera att emotional potential adderar värde som ej uttrycks av övriga om än naturligt för ett viktsystem som egentligen ej längre efter skapandet av Blue Light Intensity och News Power längre utvecklas samlat väsentligt mindre.


Abstrakt och konkret från norm-system till viktsystem igenom transformation

Jag har vid några "oberoende" tillfällen också försökt ta fram viktsystem från jämförbar statistik avseende hur abstrakt och konkret koncept här (aktuellt data är om jag minns rätt inkluderat i MRC psycholinguistic database). Min erfarenhet av det har varje gång varit att det inte resulterar i några möjligheter eller jämförbart med övriga viktsystem ens kommer i närheten av att vara vad man kan se tänkbart hade kunnat vara meningsfullt.


Ev. är meningslösheten i det att förvänta därför att tänkbart försöker man i det transformera något som är beroende av relationer snarare än ex. för "free-association norms" handlar om benägenhet att endast byta tillstånd oavsett över vilken relation. Bäst låter jag dock det vara osagt då jag (lätt generande egentligen givet att jag nog lade en vecka totalt runt det här) egentligen aldrig redde ut exakt hur man skapat värdena jag försökte utnyttja.


Mer abstrakt i referensinformation

Det i referensinformation i särklass bäst fungerande måttet på abstrakt för situationer när vi endast betraktar mening i symbolerna åtminstone så långsamt föränderliga att aktuella nyheter för sista månaderna upp till året i nyhetsanalys ej är vad vi behöver beakta är Blue Light Intensity (BLI) för konceptet i sig utan transformation från ex. nyheter överförande påverkan. I det fallet beräknas referensvärdena för BLI beroende av konceptets relationer till andra koncept under ett antal epoker där övriga koncepts tillfälliga BLI i varje steg inverkar.


Inget behov av att endast beakta relationer av någon viss typ finns. Ex. uttrycks utan typ-bestämning av relationer inkluderande både vad man i studien avser med entity association resp. properties där samma typer av co-occurance resp. similarity mått används här där något värde av prestanda kostnaden just för detta avseende separering aldrig setts. Dock här handlar antalet relationer för i samhället lite vanligare koncept normalt med början för ett tydligt uttryckt område kanske 50 relationer och oftast flera hundra till många tusen jfr ex.


"As many abstract concepts are themselves communicative terms, this category often overlapped with code 19: taxonomic superordinates/subordinates. Due to the taxonomic ambiguity of these terms (is an inquiry a kind of request?) and the relatively low theoretical relevance of taxonomic relationships to abstract concept representations, such conflicts were resolved by defining code 19 as “hypernyms and hyponyms not otherwise coded.”

Utifrån vårt inledande exempel med hur globalt kontext kan inverka på hur vi konvergerar betydelsen av en mening kan vi förstå detta från:


  • Ett koncept har fler relationer till fler symboler än en annan symbol.
  • Symbolerna konceptet har relationer till kan förvisso vara redundanta jämfört med andra som relationer finns till men existerar de förligger ändå en viss skillnad åtminstone relevant för några situationer stora nog att ge avtryck ner till Blue Lights begränsade vokabulär av cirka 150 000 symboler och cirka 10 000 000 till 20 miljoner relationer.
  • Ej fullständigt men delvis kommer genereringen av Blue Light Intensity också uttrycka reduktion av den inverkan reduntanta relationer har (och för BLI tillsammans med similarity data vad man kan välja att reducera bort ännu mer).

Därmed gäller att koncept med högre BLI åtminstone för det övergripande kontext av situationer, ämnen m.m. det är aktuellt kommer tendera att uttrycka något jämförbart med att vara mer abstrakt.


Antalet betydelser, situationer, symboler, sammanhang o.s.v. som kan påverka och styra dess betydelse respektive indikerar förändrad (jämfört med godtycklig noll-punkt) betydelse hos symbolen tenderar att ha ett mycket nära samband med ökad Blue Light Intensity.


Det är också vad jag tycker att man kan tolka resultaten i studien för avseende vad man prövade det för. Avseende prövade det för ex. syftande på location där vi för resultaten där noterade tillsammans med bland annat:


"The fact that abstract concepts were so frequently described in terms of internal and social experiences hints that these may indeed be important aspects of abstract concept representation. However, the present analyses suggest that being rich in these kinds of features likely does not facilitate early processing of abstract concepts in the same way that being feature-rich facilitates early processing of highly concrete concepts."

Vi kan förstå det som att när vi uttrycker relationerna mellan koncept från data som uttrycker i praktisk mänsklig verksamhet (med viss "kostnads-" / "tids-filtrering" av lättare mer volativa relationer) tenderar vi som jag flera gånger fascinerats över få utmärkta uttryck ex. jämförbart mer abstrakt oavsett om det nu handlar om en beteckning inom ett forskningsområde, verktygs-områden, geografiska koncept eller något annat.


Utgår man från data ej från denna typ av källor är ju location en av de enklaste och också passande forskning mer "entydiga" datat jämförbart. Om två koncept är mer associerade i fysiska situationer de förekommer är tillståndsövergången mellan dem troligare meningsfull att betrakta åtminstone om vi också uttrycker resp. koncept oftare i språk rent allmänt (snarare än vi endast utgår från bilder och söker bedöma associationer mellan självklarheter vi ej ens lägger märke till). Det samma gäller vad man refererar till som entity association.


Jämfört med befintliga metoder inom lingvistik

Området tycker jag på ett annat plan är också nära relaterat när vi söker sammanfatta betydelse och mening hos ord eller skapa utgångspunkter för jämförelse mellan dem snabbt genom att titta på associationen mellan dem och ord (ungefär: mer av dom här 500 orden indikerar att vi är närmare det här konceptet i mening). Och för den relationen när vi sätter antalet ord-features konstant över alla koncept och för ett godtyckligt kontext betraktar hur troligt korrekt värde ex. cosinus similarity indikerar (möjligheten illustrerar också väl varför sådana mått just är snabba men väldigt grova).


Också vad vi ser har släktskap med Semantic field.


Mer spekulativt

Mycket mer spekulativt kan vi ju fundera på hur många relationstyper aktuella här vi egentligen i vår kunskapsrepresentation har i våra biologiska neuronnät. Att hellre söka förklara vad vi kan se från språket längre från rena statistiska samband i domänen co-occurance inför ju färre antagande eftersom co-occurance ändå är det grundläggande antagandet egentligen oavsett modell om vi inte tror att hela vårt språk kommer medfött.


Givet det ligger det närmare att se relationer som t.ex. kan uttrycka grad abstraktion som vad som i närhet (ex. avseende trivialt co-occurance i en situation) uttrycker typikalitet associerat användning av relationen. Söker vi bestämma vad något är för att skatta vilka dimensioner som är aktuella för situationen? Är det därför vi "associerar" ut från ett ord? Eller finns kanske inget entydigt syfte alls (jämför med att associera ut från ord en psykolog läser upp för dig under ett forskningsförsök)? Vilken relation följer vi då? Det sista fallet har vi ju en självklar möjlighet från diskussion här d.v.s. de relationer som gäller avseende de enskilda ordens egen-konvergens i mening i kontext av övriga ord utan global inverkan.


Det första fallet med att typbestämma är ju en av de vanligaste relationerna egentligen oavsett modell (IS-a). En sak jag tror man vanligt missar kring den typ av relation är att man inte fullt väger in den påverkan nio års grundskola ofta tillsammans med tre års gymnasium har på vad vi kan typ-bestämma is IS-a relationer oberoende av ett för individen utanför provskrivningen praktiskt värde resp. relativt hur "avtryck" av sådan typ-bestämning som implicit skeende under tolkning märks i kollektivt språk ex. i form av bloggpostningar och Tweets. D.v.s. jag tror att mer av skolböcker som Corpus ofta kan ge mycket värde och jag misstänker på tycker jag ganska goda praktiska grunder att det värde forskning och praktiska tillämpningar runt lingvistik ser i statistik och data från Wikipedia egentligen inte är så himla unikt eller optimalt annat än när vi väger in tillgängligheten och datarepresentationen (världens alla skolböcker: svårt att få in texten med rubriker, innehållsförteckning m.m. för analys. Wikipedia "enkelt").


Jämförelsen Wikipedia vs skolböcker är i slutsatsen egentligen ganska självklar. Men det är tror jag både lätt och praktiskt påverkande enkelt att glömma de möjligheter ex. skolböcker representerar som datakälla.


Jag tror ex. att enormt värde kan finnas av att Harvard och MIT tar projektet runt Google NGRAM vidare inte bara som planerat, utan också får tillräcklig finansiering för att publicera statistik avseende olika kategorier av böcker, och för särskilda redaktionella features så som rubriker, innehållsförteckning, bokens baksida m.m.