Inte bara matematik: Koda parsers passar kvinnor och barn bättre än män

2013-02-14

Vi vet alla att träna arbetsminne är nyttigt för barn och att framtiden kommer kräva matematik av allt fler:


"Now, being on the other side of the divide, I see something that concerns me. I regularly TA undergraduate and graduate students in statistics, and I notice that many of them, while they have all the skills to do math, are absolutely terrified of it. And as soon as you fear a subject, or don’t want to learn it, you won’t. Your mind will shut down and every instinct you have will prevent you from engaging in the material. As a result, I spend the first hour of any class I’m teaching talking to the students and determining what it is they don’t understand to tailor my sessions accordingly."


Från: Mathematical Literacy: A necessary skill for the 21st century | blogs.plos.org


Också relaterat matematik:


För varje kvinna som vågar stå upp för sig själv och sitt kön är matematiken närmast ett tvingande ansvar som betydelsen varje beräkning innebär för framtidens värld gör mödan värld.


Få saker skulle glädja mig mer både som man och feminist att kunna lämna över allt detaljerat i matematiken till en kvinna och kanske några examensarbetande studenter. Det har varit något av en dröm för mig länge att både göra något bra för världen genom att lämna över matematiken och samtidigt lämna det detaljerade min organisationsförmåga har större avstånd till än det kreativa och att se möjligheterna i verktygen och vad som går att göra.


Efter att ha skrivit cirka 1/5 av chunk-parser klart ca igår och idag efter att ha givit upp på Collin parser (se också Google googlar med Google-NGRAM: Antalet indexerade sidor fel) skulle gå att optimera tillräckligt snabb vilket var vad jag egentligen ville ha tillsammans med LPost: Perl version of Brill's Part-of-Speech Tagger (helt ok Brill-tagger för Perl: Inte ett problem sedan jag först testade den och ganska snabb) under min par är det lika - mycket mer rent av - tydligt för mig att skriva parsers low-level är tillsammans med matematiken vad vi män när möjligt bör ta ett steg från och lämna över av till kvinnor och barn.


Få kända parsers - om någon alls jag träffade på - är skrivna av kvinnor. Och av de mer kompletta lösningar saknar de alla kvinnans naturliga energieffektivitet. Tar jag in venture senare i år eller nästa år ser jag gärna att ett par kvinnor anställs för matematik resp. de mer råddiga delarna av parsningen. Gärna med en bunt barn hemma som de kan sitta och räkna hemma med på kvällarna för att bibringa dem skarpa exempel på verkligheten. Därigenom vinner affären extra arbete, barnen får starkare arbetsminne och blir duktigare i matematik och kvinnans annars höga känslghet för att slitas mellan hemmets och karriärens krav hanteras genom att det blir lite samma sak och med stöd av hennes familj. Har man kul så räknar man! Eller skriver parser-kod! Och inget nöjes-räknande eller -kodande utan samhällsviktig tillväxtskapande räknande och programmerande. Precis vad riket behöver.



Det oroar mig egentligen att jag ska verka dum som är så här rolig kostnadsfritt. Komiken om kanske inte just här men av och till ligger på nivå med det bästa som produceras just nu i världen. Men jag tycker att mina läsare kan behöva det. Ofta när jag fått e-post genom åren har det varit tydligt att många av dem är väldigt tråkiga. Dessutom trots att de svenska rikedomarna växer relativt t.ex. EU just nu klagas det ständigt över krisen. Att ge något fint till alla svenskar som sparar in stora summor i resor och biljetter samtidigt som det är en kontinuerlig glädje kanske högre ger mig verkligen glädje.


Men för att lämna det mer komiska kan en kort diskussion om varför jag skrev (och skriver ett tag till troligt: kanske klar torsdag) parsern liksom en kort status på nuvarande dataimport som skett (bl.a. därför jag inte nyhetssamplar engelsk-språkområdet riktat Asien vilket är planerat för nästa större intensiva nyhets-sampling).


Området är egentligen vad som intresserar mig mindre. Det viktiga för mig är att använda det för att ta ut bra data från artiklar och nyheter samtidigt som jag kan filtrera hårdare. I princip önskar jag att ta associativa relationer förnärvarande begränsat förutom "långtidsminne" från do (d.v.s.v titel, ex. abstract m.m.) till att klara att kunna lyfta tillbaka ett äldre koncept där relationer kan bildas också i describe (d.v.s. artikel-text mellan koncept där och därifrån också till koncept verkande som describe till do som ligger abstrakt ovanför flera ex. artiklar, samt också från resp. describe till de koncept som ligger i dokumentets do).


Nuvarande parser-lösningar jag använder är uteslutande självorganiserande och bygger på delar av modellens grund-koncept både abstrakt och konkret modell, och den klarar av detta excellent och troligt med mycket bättre än vad resultatet blir efter den här typen av parser-drivna filtrering införts men även om så endast teoretiskt eftersom komplexiteten genom att det befintliga konceptet i sig inte per artikel kan göra någon intelligent filtrering genom att regelbaserat minska ner datamängden blir det brutalt minneskrävande när dessa fler typer av associationer mellan aktiverade koncept följs. Det kan lika lite mina datorer som några andra i Sverige klara av (snarare helt utan filtrering så skulle en extremt stor grid behövas om samplingsperioden inte är mycket kort: vid cirka 40 - 80 dagar bottnar vi nog ut Sverige och minna datorer vid cirka 5 - 15 dagar - exponentiell tillväxt). Jag tror också att det faktiska värdet man tappar genom att man inte klarar att uttrycka den kunskap självorganisationen representerar är tämligen begränsad genom att man också kan prioritera in att vara noga med att koncept man faktiskt är intresserad av tas med.


Samtidigt parallellt har jag förberett för en ny version av Blue light som återigen tillåts gå upp i antal koncept. Prioriterat var dels Visual light som fungerar som ett mer fristående system. Cirka 300 000 koncept med cirka 3 * 4 000 000 relationer ligger efter uppdateringen i Visual light, och med statistiskt samplade associationsmått mellan varje relation.


Visual light kan vi se som ett extra stödsystem för att klara av "bakgrunden" till händelser, kunskaps-koncept m.m. som förekommer varierat över denna. Konceptet som mindre formellt beskrivs i Fokus vs Kreativ torde ändå bra förklara ungefär vad det handlar om.


Själva Blue light har kompletterats med fler termer, fler relationer och viktigare sattes stort fokus på att komplettera statistiska associationsmått resp. skattningar för de enskilda koncepten i common sense. Totalt cirka 600 000 nya koncept relaterade biomedicin, statistik, fysik, sociologi m.m. Dessutom är det möjligt att ytterligare 50 000 - 300 000 koncept relaterade biomedicin, neuroscience och genetik tas in som gjordes klara inför förra uppdateringen men bedömdes då en aning för "isolerade" i relationer mot befintligt men som nu givet övrigt kan fungera bra att ta in. Koncept och relationer i common sense d.v.s. personnamn, företag, varumärken, organisationer, geografiska platser, föremål, fordon, astronomiska koncept, kemiska föreningar m.m. är totalt ca 30 000 000 st.


För att komplettera associationsmått mellan koncept används publicerade utredningar, böcker, rapporter m.m. relaterat US government denna gång (samt från förra gången men då ej importerat in US military). Förutom politiska organisationer som ser viktiga att försöka ta med varierat vid varje uppdatering är publicerad forskning alltid viktigt. Närmast tidigare i det större använde jag sist CiteseerX. Denna gång återvände jag till Plos som genom den höga kvaliteten med god kvalitet just på de forskningsområden som intressant rör sig både i det kortsiktigt uppmärksammade och i områden med långsiktigt värde och denna gång genom att jag tar ner alla deras publicerade artiklar och kommer extrahera den statistik jag vill ha med det nya stödet som parsern skrivs för så blir den realistiskt testad samtidigt. Det är totalt cirka 78 000 artiklar men även om detta corpus inte är enormt stort räknar jag med att det kommer addera gott värde för många för prediktion innovation viktiga relationer andra större corpus inom vetenskap jag har tillgång till.


Jag hade också hoppats ta ner Arxiv.org men tror jag stannar med dom redan nedtagna eller pågående (fler än nämnda). Där hade det i så fall också blivit endast abstract då jag knappast hade använt PDF-parsern (jag ogärna använder när formatet på pdf-filerna är varierat utan de ska helst vara från samma publicist och se lika ut).


Det finns en hel del bloggat tidigare om datakällorna bakom en del av common sense databaserna bland annat: