HANS HUSMAN OM MEDIA

Nordkoreas beroendesjukdom rymmer inga gömda skatter

2013-09-18

Det vore att göra Nordkorea en otjänst enabling en beroendesjukdom baserat kärnvapen och som alla sådana aldrig funktionella förr:

North Korea Presses for Resumption of Nuclear Talks (2013-09-18) | Voice of America

Det blir nog samma som alla andra gånger om man gör samma igen. Mer Massförstörelsevapen i Nordkorea.

Identifiera utlösande hubbar i sociala media

Det här hittade jag själv aldrig något vettig approximation till innan jag bredare såg att för prediktion i den utsträckning på tidsdimension som intresserade att sociala media var mindre intressant rörande diverse inkl. detta segment (d.v.s. på den framför-hållning jag sökte adderade inte sociala media på något effektivt sätt jag såg för mig): US Military Scientists Solve the Fundamental Problem of Viral Marketing | Technology Review, MIT.

Ett beroende på utgångspunkt både svårare och lättare problem är vad vi får när publika anslutningar motsvarande vänner saknas. Enormt svårare för varje normal publikations-domän (ex. alla tidningar på engelska eller alla bloggar på engelska) när vi endast söker publikationer som tycks över tiden addera vetskap / information som tillsammans med annat ex. klarar att göra prediktion av politiker A eller företagsledare B enklare. Kanske lättare - beroende på ambitionsnivå - när vi givet publikation A söker bland ett mindre antal ämnesområden (snarare än entiteter motsvarande personer eller beslutsfattande approximationer döljande grupper av personer) för att identifiera vad om något det tycks prediktera.

Det senare är enormt lättare under förutsättning att resp. publikation (ex. blogginlägg) är enkelt att mappa över till ämnesområdet. I praktiken för det icke-triviala - särskilt politiska områden eller bredare vad som ej har en enkel reward-dimension kortsiktigt för publicerande entitet - är det minst sagt kostsamt.

Att ex. blogginlägg adderar vetskap om Z vilket pågående i politisk fråga B utan referens till fråga B adderar vetskap som ger preferens för vissa till ett visst tillställningstagande är "ganska" kostsamt beräkningsmässigt.

Vidare gäller också att mycket försök inom dom här områdena lider lite av föreställningar om hur saker och ting borde att fungera. Ex. vill vi från perspektivet publicerande entitet optimera effekten för påverkan är en av de snabbaste och mest effektiva vägarna givet att vi anslutit snarast vad man i refererad studie sökt identifiera såväl som vad efterföljande diskussion avser till en publikation mindre att argumentera sakfrågan eller addera vetskap runt om denna, och istället mer att ge exempel mer eller mindre direkt tydligt hur man mest effektivt argumenterar redan etablerade välkända argument. Underförutsättning att publikationen i fråga faktiskt klarar det.

Längre tillbaka - ett par år ungefär för sista gången gissar jag - var jag av och till road att med vetskap byggd från datanalays över nyheter såväl i mindre utsträckning sociala media göra det senare. Det är ett exempel på en väg just för att klara det senare - att göra det från att kontrollera bättre data drilling vetskap än andra och begränsat välja att uttrycka det färdigt adderande argument för områden du själv stödjer - men självklart existerar andra där inte mer förmågan att kreativt klara att se elegantare uttryck av argumenten kan ge värde.

Väljer vi att meta-ansluta entiteter inverkande oavsett kanske svårast världens tio mest symbol-tunga politiker, eller kanske enklare dom tio mest mode-påverkande sociala media publicisterna, kvarstår givetvis den ej eller trivala utmaningen hur vi gör det. Det finns ett enkelt var på det men svarets realisering i verkligheten kommer omvänt med en icke-trivial kostnad i tid och ansträngning. Att via uttryckt värde för dem realiserat flera gånger efter varandra där vi får dem att läsa det etablera en inlärning resulterande i att när vi efterföljande mer sällan refererar vad som sker deras verklighet för dagen med en viss sannolikhet får dem att läsa automsierat (5 - 10% är där mycket högt men troligt gissande en del räcker 1% när vi kan lägga en pågende narration till en fråga verkande under åtminstone några veckor och tryggare uttryckt som 4 - 6 veckor: men här är åtminstone jag i ett område där stora inexaktheter gäller för bedömningar).

Sedan kan man givetvis fuska för snabbare genomslag. Komik som bedömt relativt i perspektiv av en organisation är möjligt. Även om jag har ett av få exempel jag gjort elegant några år gammalt (fyra år kanske) avstår jag från det. Men vissa saker kan vara komsikt relativt viss ex. en person i en organisaton särskilt när sådan är mer chef för folk och därigenom få viss spridning. Adderar vi efterföljande pågående konkret värde för sådana under-delar av samma organisation kan det optimera kanaler. Viss prestigelöshet kan ror jag ofta underlätta sådant.

För den seriöst intresserade under antagandet att man tar vägen över riktat konkret värde i argument eller faktisk vetskap är i allmänhet för politiska frågor politiker enormt enklare än media.

Fortsatta äventyr med BDB

Nuvarande försök att skapa mitt P ( A | B ) nätverk via BDB (Berkeley DB) fick jag ge upp. Vid cirka 500 BDB-filer på vardera cirka 40 MB (som vi minns blev skapandet där efter långsamt på nivåer att jag ganska verklighets-nära upplevde att det aldrig skulle bli klart) uppstår problemet att addera in nya värden blir tämligen långsamt.

Med indata-filer med p-värden - men ej komprimerat så att varje p-värde förekommer unikt - på totalt cirka 20 - 30 GB (eventuellt det dubbla om jag tänker mer) och en fil på cirka 10 GB (verksamhetsdata relaterat NIH för att få hälsoperspektivet) gående flera dagar dödade jag ner hela denna väg.

Orsaken är jag helt övertygad om beror på att data skrivs rätt ner 1 - 1 utan att spara filhandels effektivt.

Lösningen jag startat upp istället är att processa alla filerna och dumpa ner resp. p-värde till fil motsvarande första två eller tre tecknen på A (där A och B alltid är sorterade redan i indata). Det tycks förvisso snabbt nog och förhoppningsvis (ganska troligt hoppas jag) blir ingen fil större i unika termer än vad jag klarar av att hålla i minnet.

Därefter helt klart så att säga tänker jag mig att bygga BDB-filerna.

Det är dock oavsett problemen här värt att inse att man alltid behöver mellan-lager i drift mot Perl's BDB-lager (och antagligen ganska allmänt) där man håller termer i minnet om de anropas igen, rensar det av och till på tröskelvärde antal termer (eller smartare och vad jag gör om jag hittar min färdiga kod för det från tidigare liknande svårighet relaterat similarity beräkningar: när mängden ledigt minne börjar närma sig OS-dödar processen snart).

Att inte göra den sista åtgärder reducerar hastigheten när först diskuterade sker riktigt ordentligt och åtminstone skattat utan klocka minst 10 ggr (och tror jag egentligen mycket mer än så).

Längre bakåt innan jag gjorde investeringar för ett par år sedan i färska datorer och körda allt på en riktigt gammalt kontors-pc såg jag förutom diverse vardags-problem också ett stort värde i begränsad hårdvara. Man tvingas till mycket effektiva åtgärder.

I varje begränsat projekt kan skillnaden mellan en sådan framtvingad effektiv åtgärd och antagligen flera timmar besparat i utvecklingstid upplevas som förlust. Men när alla del-lösningar tas samman till att processa dom störa mängderna data märker man skillnaden av att tvingas välja det brutalt optimerade i varje steg.

När vi här bygger P ( A | B ) nätet och ej från teoretisk princip gällande för nätet vill göra någon som helst dimensionsreduktion därför att dimensionsreduktioner är vad som sker löpande under drift utifrån faktiskt behov format från ex. resp. sökförfrågan eller jämförbart finner jag det svårare att upptäcka sådana värden när det egentligen fortfarande inte handlar om mer än att summera resp. P-värde (viktat med en funktion av type och token för resp. under corpus),

Särskilt som jag ser P ( A | B ) nätet här som prel. och bygger fortlöpande för att nå up-to-current-day ungefär 30 - 40 dagars färska nyheter skattat för cirka 1000 - 10000 news providers (beroende av om vi endast låter direkta do-inverka i form av optimerat endast titel i vilket fall 10000 minst krävs eller om vi väljer färre news providers men av hög kvalitet där vi förstår hur de uttrycker nyheterna och kan låta motsvarande bilder, och teleprinter-rubriker eller verkliga underrubriker verka också där knappast mer än 3000 och gissar jag just 1000 räcker: men praktiskt antagligen att jag kör in 10000 för att vara säker).

, är det svårare att se detta värde.

Samtidigt vet jag med säkerhet att diverse ständigt återkommande i forskningsstudier relaterat detta område om att tidig dimensionsreduktion rent av värde hanterande obalanser i indata inte är annat än begränsning i mängden indata de jämför dimensionsreduktion för resp. tidpunkten dimensionsreduktionen sker (d.v.s. gör du den tidigt försökande skapa utvärden du kan använda alltid - visst du kan säkert behöva en massa smoothing för att det ska verka vettigt - men gör vi den senare mer direkt anpassat gäller inte det men kostnaden måste likväl betalas och det är här kostnaden ligger istället).

Jag får dock erkänna att jag mer och mer lutar åt att kasta ut hela BDB och skriva det själv riktat optimerat mot användningen. Det blir i så fall område nummer två där jag lovade mig själv att jag absolut inte skulle behöva implementera det själv därför att så mycket bra bevisligen fanns. Nummer ett var undersystem med logiken egen-utvecklad för Natural language processing och nummer två här är en databas. Och om något givet slö-införande problematik för alla databaser jag prövat (om något sämre för Mysql väldigt förvånande såväl Postgres) är närmast argumenten större än för nivån där jag valde att utveckla NLP-stödet själv (där istället emellertid givetvis andra argument fanns som talade för det från hela området vi rör oss i även om det personliga motståndet för att någonsin igen bedömt från några kommersiella konsult-projekt långt tillbaka var enormt).

Erfarenheten att ta med sig är att databaser normalt inte är skapade för att hantera big data på small computer men att det som alltid löser sig därför att om det här projektet om något format mig till något är det just att hantera sådant.