Chunk parsers presterar på nivå med människa för meningar utvalda för att vara väldigt svåra för dem

2013-03-11

Martha Palmer Verbnet och Probank hör till de mest användbara datastrukturerna för semantisk-tolkning av text närmare mer praktiska tillämpningar där prestanda är vad som ger möjlighet att göra fler och djupare kontroller på mer data genom att spara tid på mindre mer kompakta statistiska-motorer och ännu den tid man ev. annars själv hade lagt på det. Artiklar publicerade länkade från Martha Palmer (uppdaterad fram till 2011) tenderar också oftare än kanske vanligare ligga närmare praktiska tillämpningar (kanske något finansierat samarbete som inspirerat) och därför värt att titta till ibland.


Chunk parsers är praktiska verktyg och det var därför med visst glatt intresse jag prövade meningen hon gav som exempel i en sammantaget ganska negativ tolkning av chunk parsers:


"[...] it would be difficult to imagine identifying it without building a complete syntactic parse of the sentence. [...]
The prepositional phrase expressing the Manner relation, however, is not identified by the chunk-based system. The tree-based system's path features for this constituent is VB ARROW_UP VP ARROW_DOWN PP, which identifies the prepositional phrase as attaching to the verb, and increases its probability of being assigned an argument label."

Från: The Necessity of Parsing for Predicate Argument Recognition,
Daniel Gildea och Martha Palmer,
University of Pennsylvania,
Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 239-246.

Och allmänt har visst Martha Palmer rätt även om nu informationsextraktion och annan praktisk användning ofta ger andra konkreta värden. Snabba och ofta tillräckligt stabila allmänt, och viktigare för riktad informationsextraktion presterar de bättre än generaliserad parser utan annan anpassning. Men man ska inte underskatta deras värde annars eller. Betänker vi ex. ett träd är det en komplexitet vi t.ex. också kan uttrycka med den typ av implicita flödesrelationer i grafer jag tog som exempel i Semantiska parsern nästan version 1.0.


"Konkret värde jag såg redan igår är att skillnad mellan när titel, abstrakt och varje stycke för sig körs in i Drifting thoughts på den snabbare utvecklingsdatorn jämfört med när titel och abstrakt körs in och därefter endast en approximation av vilken NP som är i fokus för allt vad jag vet kan vara oändlig. Bryt det längsta försöket att ta ut en referens representation av hjärnan maximalt nitiskt associerade och tolkande efter cirka 30 minuter. För nöje kan man ju ha en närmare mänsklig intelligens som ger lite idéer men för allt praktiskt behöver man man sin egen intelligens optimera prestanda-kostnaden sådant kommer med och att approximera löpande inspiration över artikel-body till fokus-objektet gör enorm skillnad genom att antalet nya udda koncept som behöver representeras upp med sina från 50 upp till ca tio tusentals relationer (och i Drifting thougts är det inte linjära samband utan rekursivt genom att aktivitet om än indirekt när de möts kan resultera i den nodens relationer realiseras upp med aktivitet o.s.v.) reduceras enormt. Jag såg inget uppenbart som missades genom det med mycket om infektioner, virus, cellbiologi, epidemier m.m topp fem hundra på aktiverade delar av hjärnan från en artikel från tror jag ploscompbiol.org eller ev. plosone.org."

Jag såg i exemplet nedan för den semantiska parser som utvecklas för att filtrera artiklar, nyheter m.m. Drifting thoughts inte något av de problem Martha upplevde med sin chunk-parser.


Notera först den första siffran till vänster vilket approximerar motsvarande upp och ned - vad jag gjorde för att approximera kognitiv-komplexitet (som diskuterat i Neurolinguistics bl.a. kring Gibbs-parser) samtidigt som jag försökte göra just upp-och-ner i en annan funktion som aldrig bra bra. Det gäller för S-fraserna. Denna uttrycker det dock så perfekt man kan komma med utan problem en die för icke noll per mening.


För by (vad jag kallar en PP-transformator) att verben vi binder till ganska typiskt upplever jag för den typen av verb-argument ger oss en bra indikationen om den generaliserade förenklade meningen möjlig att fånga i de kanske teoretiskt mindre uppmärksammade men praktiskt bland de viktigaste arbetena inom praktisk lingvistik Verbnet, Framenet, Propbank m.fl. liknande lösningar representerar. Verb-relationerna till by: 6 VP to support VP/S och 9 VP buying VP/S (siffran till vänster där är frasens id-nummer och den som står direkt till höger om "upp-ner-räknaren").


"Manner-argumentet" man ser det i artikeln är "by buying big blocks of stock" där vi ju lokalt i den har en PP. I citatet från min semantiska parser ovanpå chunking agerar by m.m. som operatorer och den uttrycker relationer direkt enligt tidigare där ju redan där ges i alla fall en antydan om "manner": köpa aktier för att stödja något (stödköpa kanske?). Relationerna till buying (egentligen inte argument utan relationer som ej går till vad vi kan tolka som VP/S, SBAR o.s.v.)


.............................................................
S VP/S 4 9 VP buying 

STRUCTURE RELATIONS

ARUGMENTS
 10 NP big blocks NP
 8 PP by PP
.............................................................


Det samma för big blocks där vi också märker av debug-testningen av PP-completement avsedd för situationer där vi har längre kedjor som gemensamt konvergerar till mening och tolkning ex. att ett argument begränsar dimensionsrymden det andra uttrycker. Ex. in the middle of the forest (inte bara obestämt eller hela skogen utan i mitten av skogen: praktiskt för de flesta av oss ännu mer unknown). Siffran är frasens interna id-nummber NP anger bara fras-typen och ex. big blocks är chunk-frasen.


NP 0 4 10 NP big blocks


STRUCTURE RELATIONS
 9 VP buying VP/S

ARUGMENTS
 11 PP of PP
PP-COMPLETEMENT ( 10 NP big blocks ) ( 11 PP of ) ( 12 NP stock )


Och hela utskriften av körningen av exemplet från Marthas artikel. Den är som sådan anpassad för vad jag utvecklar i den (strukturerar och sorterar diverse kod medan jag sätter högnivå-primitiver men just för att illustrera detta passar den perfekt).


Notera när vi tittar före och efter by för den lilla upp-ner-räknaren. Den ligger balanserat på fyra genom hela det "human annotations" beskrivit som Manner i Marthas exempel mening jag fick för mig att jag skulle provköra innan jag tänkte försöka somna. En avvikelse från perfekt manner är för traders say vilket med upp-och-ner räknaren ligger på samma då jag just nu har comma m.m. som inte hanteras i trädet borttaget men följer man relationerna får man rätt fras manner ändå. Say är ju en gammal vän här.


Det egentligen mer intressanta för mig runt motsvarande manner är mindre dom markeringarna oavsett hur användbara de är i kontext av entiteter och vad dom gör utan mer av vad som uttrycks avseende aktuella dimensioner och hur dom begränsas via constraints - kanske vad vi kan kalla proto-whole och proto-part p.s.s. sätt som proto-agent och proto-patient. Var vi är på kartan och vad för sorts karta är det? Är kartan ett antal verktyg (t.ex. gas chromatography, t-test, litterature search m.m.) aktualiserade i texten som förklarar hur vi kan avgränsa vad vi kan förstå om vad entiteterna gjort var någonstans och med vilken säkerhet?


.............................................................

##################################################################
PHRASE STRUCTURE MAP:body_last 0
 NP 0 0 0 NP Big investment banks


STRUCTURE RELATIONS
 1 VP refused VP/S

ARUGMENTS
.............................................................
S VP/S 1 1 VP refused BOSS 

STRUCTURE RELATIONS
 2 VP to step VP/S

ARUGMENTS
 0 NP Big investment banks NP
 13 O COMMA NOFUNC
 14 NP traders NP
 15 VP say VP
 16 O . NOFUNC
.............................................................
S VP/S 2 2 VP to step 

STRUCTURE RELATIONS
 1 VP refused VP/S

ARUGMENTS
 3 PRT up PRT
 4 PP to PP
.............................................................
 PRT 0 2 3 PRT up


STRUCTURE RELATIONS
 2 VP to step VP/S

ARUGMENTS
.............................................................
 PP 0 2 4 PP to


STRUCTURE RELATIONS
 2 VP to step VP/S

ARUGMENTS
 5 NP the plate NP
.............................................................
 NP 0 2 5 NP the plate


STRUCTURE RELATIONS
 6 VP to support VP/S

ARUGMENTS
 4 PP to PP
.............................................................
S VP/S 3 6 VP to support 

STRUCTURE RELATIONS

ARUGMENTS
 5 NP the plate NP
 7 NP the beleaguered floor traders NP
 8 PP by PP
.............................................................
 NP 0 3 7 NP the beleaguered floor traders


STRUCTURE RELATIONS
 6 VP to support VP/S

ARUGMENTS
.............................................................
 PP 0 3 8 PP by


STRUCTURE RELATIONS
 6 VP to support VP/S
 9 VP buying VP/S

ARUGMENTS
.............................................................
S VP/S 4 9 VP buying 

STRUCTURE RELATIONS

ARUGMENTS
 10 NP big blocks NP
 8 PP by PP
.............................................................
 NP 0 4 10 NP big blocks


STRUCTURE RELATIONS
 9 VP buying VP/S

ARUGMENTS
 11 PP of PP
PP-COMPLETEMENT ( 10 NP big blocks ) ( 11 PP of ) ( 12 NP stock )

.............................................................
 PP 0 4 11 PP of


STRUCTURE RELATIONS

ARUGMENTS
 10 NP big blocks NP
 12 NP stock NP
.............................................................
 NP 0 4 12 NP stock


STRUCTURE RELATIONS

ARUGMENTS
 11 PP of PP
.............................................................
 NOFUNC 0 4 13 O COMMA


STRUCTURE RELATIONS
 1 VP refused VP/S

ARUGMENTS
.............................................................
 NP 0 4 14 NP traders


STRUCTURE RELATIONS
 1 VP refused VP/S

ARUGMENTS
.............................................................
 VP 0 4 15 VP say


STRUCTURE RELATIONS
 1 VP refused VP/S

ARUGMENTS
.............................................................
 NOFUNC 0 4 16 O .


STRUCTURE RELATIONS
 1 VP refused VP/S