"Volymen" information i biografier: Att förhöra biografier

2014-05-05

Jag drog mig igår minnes - av en slump egentligen - Att förhöra biografier jag skrev troligt 2011 med utgångspunkt från ett par jag läste manuellt och ett mindre antal riktade försök med besläktat elektroniskt material (ej då i natural language processing utan färdigt i en graf-representation händelser, personer och omliggande brett uttryckt "beskrivande" koncept).


Vad man kan fundera på är vad egentligen volymen är på detta data i en bred "kreativ" mening. Oavsett antal publicerade böcker gäller fortfarande att formen de är publicerade i (format inte minst men därefter ganska omfattande löptext relativt tung i natural language processing när vi betraktar mer än en bok) resp. känner jag är fallet att möjligheter tekniskt kan ligga längre fram än vad vi riktigt vant oss vid att se för ett område där vi fortfarande är vana att se det som böcker vi läser.


Vad för interferens över en mängd böcker kan finnas som indikerar vad som är svårt att se i resp.?


Också i systematiserad mening över källor av mer varierad sort d.v.s. tagande in som trivialt uppenbart ex. folkbokföringen (DAFA-Spar) m.fl. register vilken information är mer manifest uppenbar i tillgänglighet och vad är oftare mer latent i att den kan inverka men vi kanske oftast inte ser den. Det senare kan ju tänkas komma av att vi vanligen ej investerar tid att "titta efter", att funktionell tillgänglighet till datakällorna vanligen ej är vad vi väljer att etablera för smalare enskilda behov resp.. att latent data kan vara latent i den mening att sammanfattade slutsatser kan dras från det medan själva datat i sig ibland inkl. källan som sådan är skyddad från publicering.


Vi kan i alla fall oavsett spekulerat exempel i allt föregående att en distans mellan information vi förväntar oss kan finnas och vad som faktiskt finns kan existera. Dels genom att mer finns än man trivialt först kanske tänker oss (och jag är minst sagt osäker för denna tekniska såväl som datalgrande domän utanför interferens över en mängd biografier jag är ganska trygg är kan vara betydande egentligen är).


Praktiskt realitet uppenbar när vi betraktar tänkbar interferens som framgår analyserande en större mängd - säg alla - biografier relaterade personer deltagande i en viss händelse, boende på orter relaterade händelsen ungefär lokaliserat i tiden o.s.v. är att antalet entieter (indikerat i konceptet biografier personer men självklart inkluderar vi lika gärna orter, tidpunkter m.fl. entiteter vi meningsfullt effektivt kan söka interferens effektivt med soml lokaliserande / avgränsande dimensioner med). Och därmed antalet personer, effektivtet generaliserade kunskap och tekniska metoder att söka många personer med liksom allt annat ej uppenbart för mig just nu som möjliggör tagande ett större anta personer in i analysen.


Asymmetriska obalanser mellan analyserande entiteter kan finnas svåra att inse existerande om man befinner sig närmare den magrare sidan. Jag kan se det existera när min tillgod relativt vanligt är mycket god men hur vet jag för en domän jag ej riktat betraktat tillgänglighet data för (eller bedömer särskilt generellt intressant just för mig) om divergensen är större än man först vill tro? Och när vi kort betraktar nedanför perspektiv kan vi också här peka på att värde av latent information krävande viss insats att få ut (jfr sökande interferens över flera biografier) varierar med perspektiv. Det är värderas olika mycket beroende av personligt intresse, tillämpning, ev: egen vetskap (t:ex: övertygelse att guld ligger nedgrävt någonstans i dalarna som wasa skulle haft med sig skidande dit) o.S.V.


Samtidigt även om det kan tyckas (och tror jag korrekt) som man utanför detta kanske ofta lätt underskattar information närmare grundskolans historia är självklart utmaningen rörande många filtrerade sammanfattade källor här den samma som gjorde det till ett (upplevde jag men sådant varierar nu ordentligt med person) av grundskolans och gymnasiets enklaste ämnen. Det har till sin natur mycket både från konkret och abstrakt natur där det abstrakta betraktas från ett givet perspektiv vanligen argumenterat inte sällan via mycket elaboraterade teser (ibland ideologiska som diverse av dom äldre "klassiska" ekonomiska idé-systemen eller pseudovetenskapliga snarare än betraktat med statistiskt evidens eller matematiska modeller bedömda ex. från deras förmåga att prediktera framtiden från lärd historia).


Medan den konkretare är enklare i att den är tydlig i vad vi önskar - tidpunkter, personer, platser, indikerade händelser, vad någon minns sas m.m. - och att det idag är ett ganska beprövat och välpublicerat område rörde automatiskt extraktion från text (jämför ex. med något besläktat kort i relaterat analys talstreck, citat och jämförbart avgränsat en entitet säger i nyhet.


Åtminstone en del av riskerna med den abstrakta domänen kan emellertid tänkbart reduceras i den automatiserade analysen jämfört med när vi läser manuellt. Kan vi kvantisera och se perspektivet och där inkl. latenta tillstånd och bias inverkande den skapade informationen kan vi när vi som här föreslagit möjligt analyserar en mängd biografer förstå det även i relativ mening till de övriga och om tillräckligt tätt kanske försöka "vrida" det eller närmare praktiskt tillhands växla mellan dem eller se dem uttryckta tillsammans för den mänskliga "efter-filtreringen" hjälpande upp datorn lite på slutet )för ett till perspektiv kanske).


Perspektiv ser jag här motsvara mina similarity funktioner där likhet bedöms i perspektiv från en entitet relativt något annat. Söker A likhet mot B kan A ej bedöma eller värdera likhet i B rörande egenskaper okända för A existerande hos A eller som A förstår finns överhuvudtaget, eller som A ej känner till att B har. Tillämpningen ovan är dock annorlunda för vad jag använder dem till vilket ligger närmare att skatta påverkan publicerad information har.



Enklare biografiska data finns filtrerat bl.a. i (och bland de största åtminstone kostnadsfria och publicerade) följande common sense och förutom att alla inkluderar data ursprungligen från Wikipedia ligger det nära tillhands att riktat vid särskilda behov betrakta möjligheten att Wikipedia har datat för tillräckligt många entiteter och vettigt uttryckt för att effektivt gå att seoarera ut automatiserat (infoboxarna finns mycket skrivet om och tycks vara ett koncept Wikipedia fortsatt arbetar på att förbättra och utveckla) men även andra möjligheter är ibland intressanta (förutom de än mer uppenbara kategorierna exemelvis länkning till andra Wikipedia-sidor i meningar involverande entitet:



Samtliga finns diskuterade i fler inlägg. Och fler datakällor har diskuterats. Se exempelvis: