POS för Bag of Words / Ordvektorer

2016-01-05

Kompletterande:



Valde jag förövrigt (ej slutfört görs delvis samtidigt med clustering rörande de lite mer i manuell-kontroll) att införa POS (ordtyper ibland använt kan egentligen för ordvektorer passa bättre än part of speech eftersom vi nu lämnat de enskilda meningarna långt nedanför kastande en del av den informationen på vägen).


Ett adjektiv (här och fortsatt är normala POS-namn ungefär som ofta använda) kan vara av typen ADJ om det existerar i ML-cluster inkluderande indikationer positiv-negativ emotionell vikt, intensitets-indikationer m.fl. (filtrerande bort allt förväntat att behöva parsning meningar för att förstås rätt: cool - weather: Fysisk kvalitet mätt eller skattat, cool - ointment: Manipulerad perception, cool - human: Någon obestämd diskriminerande kvalitet som skiljer ut personer värderat). Vi undviker noun-typerna i ML och därmed ej heller i ADJ.


Ett verb som kan förväntas dominerat oftast - gärna med en ungefärlig nivå - beskrivande en ML-valence accepterar vi i ML är därmed ett ADJ. Medan going, walking m.m. händelse-relaterat / beskrivande (verb eller annt) ej är ADJ då vi behöver annat kontext fö ratt förstå dem i ML-mening.


Övriga adjektiv varken behövs eller är att förvänta tillföra något (jag tror heller inte de tillför generellt för annan användning än de ganska många jag prövat och/eller förväntar mig använda ganska långsiktigt här) och kan kastas i något delsteg. Vissa kan förvissa vara ämnes-indikerande men vi ligger nu högt i antal features och det kan ha sina poänger att om vi ej tappar ämnes-indikationer att hålla dem noun-typerna eller verb- och/eller event-typer.


Verb i kontrast upplever jag svåra att filtrera ned utanför de absolut vanligaste som här säger ganska litet om något som ordvektorer för dom vanligaste tiotusentals orden normalt existerande i mer eller mindre allt som språk används för så ofta. I den mån de ej är ADJ behåller vi dem när de indikerar ämne och kallar dem VB. Vi kan samhantera dem delvis med adverb resp. också låta adverb för många gå in i ADJ. Jag gör ej det förstå och ser gärna att så få adverb som möjligt finns som ADJ. Som indikation ämne p.s.s. VB är de dock för en hel del områden svåra att få bort eller ens ha i litet antal (d.v.s. forskningsområden, medicin m.m.) men kan ses som en särskild event-typ vi kan föra in i VB.


I det rena har vi en förenklad ord-nivå från vad vi kan jämföra med att orden annars används - under i datat statistiken byggs från - för att beskriva händelser eller effekten av händelser på entiteter (likt personer, föremål, troligheten att händelse ska ske m.m.). Resp. upparbetade effekter av händelser: skapade entiteter, entiteter existerande här därför något inträffat med dem eller att de använts för att påverka något, samt de verb- / event-nära orden i VB indikerande omfånget på händelserna aktuella. Jfr intensiteten / vad vi tycker om en händelse, händelse, verktyget använt i händelsen / platsen där händelsen utspelades:


The bird walked [event] fast [ML: Intensity - up - fortare än fågeln / en fågel normalt förväntas gå från upparbetad erfarenhet av fåglar.] to the buss using a previous disliked [ML negativ] tool to make the drip easier [ML: Value - målet vi gärna tycker oss förstå när använt även när det kanske ej framgår hur det blev lättare eller att det ens är rimligt - lättare när vi gör något är värde och värde är bra: Vi kanskekan anta att fågeln sparar energi mer prioriterat än kostnaden för bussresan - Eller att den färdas för att köpa frön och innan den ätit ej kan få tag i dessa vars pris i all rimlighet är nära noll jämfört med en buss för varje fågel i Sverige som ej är rovfågel] (jag kan uppleva det allmänt utmanande att skapa sådana här exempel bättre i realism).


Och vi kan också kanske lättare - ev. görande det praktiskt möjligt - att resonera om formen på ordvektorn utanför var orden är belägna relativt varandra. Hur höga de är, hur ovanliga o.s.v. eller kanske deras färg o.s.v. beroende på hur vi vill likna det (jfr att jämföra vikt- och similarity-uttryck för dem som topologiska positioner). Ex. bland det enklare hur vikt-indikationer skiljer sig -- eller hur ovanliga / särskiljande de är - mot globalt förväntat över alla ordvektorn resp. i aktuell ordvektor jämfört med samma vikt för övriga ord eller topologiskt näraliggande som positionerat från annat.