Business Intelligence

2013-02-20

Äldre tidigare borttagen sida som publiceras igen som kommenterat i Hans rapporterar: Status utveckling, tidsperspektiv, behov hårdvara, finansiering 2013 och om sampling Asien. Relaterat och bättre uppdaterat rörande GEOdata se GEOData: Media, Business intelligence, Navigering, Kunskapsorganisation och Military intelligence.


För avancerad dataanalys finns otaliga system som används inom forskning, business intelligence, underrättelseanalys, trendanalys, medicin m.m. Få av dessa används inom media men kan ge stort värde. Här diskuteras fem möjligheter:

1. Ontologi för att beskriva samband
2. Tidsanalys för att upptäcka vad som hänt
3. Keynote för att beskriva avancerade system med rättigheter
4. Emotionellt läckage är svart magi vackrare än allt annat
5. Formella språk
6. Att mäta nuhet
7. Business intelligence och prediktion från Google
8. Google Image Swirl
9. Geotaggning och geografiska data
10. Visualisering av data
11. Forskning tydliggör riktning för en bransch utveckling
12. Google Public Data Explorer
Appendix A: Övrigt

1. Ontologi för att beskriva samband


Bild över entiteter och deras relationer från dataprogrammet ONT i en superdator lösning från SGI där access kan hyras:

Ontologies (SGI.com)

Att denna typ av datakraft krävs för tillämpningar aktuella i media är inte fallet även om det mycket möjligt att detta kan vara den mer kostnadseffektiva lösningen (svårt för mig att avgöra).

Ontologi handlar om att beskriva entiteter utifrån dess egenskaper och hur de förhåller sig med varandra. Genom detta går detta att analysera även ytterst komplexa entiteter där huvud och/eller papper inte räcker till.

Ontologi låter mediekoncerner följa entiteter och deras relationer

2. Tidsanalys för att upptäcka vad som hänt

Tidsanalys är den analysmetod jag menar är i särklass mest kraftfull ändå sällan använd utanför krypteringsanalys. Orsaken att den inte är mer använd har troligen att göra med att människan naturligt inte förhåller sig "exakt" till dig. Trots styrkan som finns i metoden (utvecklad och förenklad av mig för media) är den ganska enkel att använda:

Tidsanalys i grävande journalistik

3. Keynote för att beskriva avancerade system med rättigheter

Ett alternativ ibland kanske intressant är Keynote (RFC 2704) för att beskriva förtroende hos distribuerade system. Med Keynote kan du t.ex. beskriva att en entitet du följer hade rättighet att göra vissa typer av affärer men saknade rättighet att göra det om inte vissa andra saker var uppfyllda. Just flexibilitet gör att egentligen allt runt rättigheter med fria villkor kan definieras.

Standarden utvecklades bl.a. Matt Blaze. Jag gjorde den första implementationen av standarden utanför referensimplementationen redan 1999. Läs mer i:

Datacentrisk säkerhetsarkitektur och Keynote
The KeyNote Trust-Management System Version 2

4. Emotionellt läckage är svart magi i renaste formen

Även går med andra lösningar att beräkna känslomässigt innehåll i både text och bild beräknas:

1. Det är intressant att göra för att se att det överensstämmer med vad som är önskat att kommunicera. En del artikel med positivt innehåll men som känns helt pessimism är givetvis inkorrekt.

2. Emotionellt läckage som jag kallar detta (jfr informationsläckage) går också att tillämpa för att uppskatta en persons känsloläge.

3. Det kan också vara möjligt att använda som en mer eller mindre unik signatur för en skribent. En möjlighet med det kan vara att från en text för vilken skribenten är okänd hitta denna genom att jämföra emotionellt läckage vilket kan fungera bättre även för fallet när texten av annan person översatts till ett främmande språk.

5. Formella språk

Rörande formella system ej tidigare berörda är troligen möjlig användning inom media obefintligt. För övriga fall är troligen CSP ett bra första alternativ att titta på:

Communicating Sequential Processes (CSP)


Foto: Tetsumo Licens: CC by 2.0

6. Att mäta nuhet

Nuhet rör sig i samma område som emotionellt läckage men är inte samma sak. Det handlar mer om det ögonblick när en grupp personer (eller en individ) påverkar trender och påverkas av trender. Begreppet liksom övrigt runt det är del av ett eget system och en del finns att läsa i:

Nuhet förenklad till tre dimensioner
Att mäta nuhet via Google
Är mobiler vägen till det absoluta ögonblicket?

Nuhet diskuteras i följande inlägg som troligen bättre illustrerar det för en trivial situation förenklad till två dimensioner:

Nära grupperade relaterade händelser är hög nuhet - Prediktera betydelse och trender för forskning från pressmeddelanden | Nyhetsbloggen

Även uttryckt i följande dikt jag skrev:

Poesi till rumstid, tid, datum (tidslinje) och nuhet | Nyhetsbloggen

7. Business intelligence och prediktion från Google

Google har ett antal verktyg i det här segmentet som jag använder alldeles för sällan. Tills de bättre finns beskriva länkas de direkt:

www.google.se/trends
Google Domestic Trends
www.google.com/insights/search/#

8. Google Image Swirl

Google Image Swirl uttrycker relationer mellan bilder:

Explore Images with Google Image Swirl (Google Research Blog)

9. Geotaggning och geografiska data

Uppgifter om geografisk position t.ex. för en händelse gör i växande omfattning det möjligt att identifiera foton, "tweet", inlägg på bloggar, information i Wikipedia m.fl. datakällor.

Kartor från Google Maps i bloggar och webbsajter
Geografisk lokalisering för anpassad presentation på nättidningar
Buzz, webbkameror och foton på Google Maps
Exempel - "Dashboard" med Geo-information för business intelligence
Geografiskt lokaliserad information för insamling
Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data
Google Public Data Explorer för att visualisera statistik om världen

10. Visualisering av data

Hur data kan visualiseras är ett omfattande område med många möjligheter. Rörande geografiskt data (liksom mer än så) diskuteras några möjligheter i:

Hur mediekoncerner i underrättelseanalys kan visualisera och navigera geografiska data

11. Forskning tydliggör riktning för en bransch utveckling

Hur större entiteter prioriterar forskning och annat grundläggande område är en viktig indikation hur en bransch rör sig:

Forskning hos "viktiga" entiteter berättar om branschen

Följande metod (egentligen två stycken) utgår från hur forskning uttrycker sig i pressmeddelanden:

Prediktera betydelse och trender för forskning från pressmeddelanden

12. Google Public Data Explorer

Google Public Data Explorer är ett verktyg för att visualisera och jämföra data Google importerar från olika källor om världen och dess utveckling:

Google Public Data Explorer för att visualisera statistik om världen

Statistiken kan enkelt bäddas in på olika sätt.

Appendix A: Övrigt

Att se olämpligt rapporterande i nutid inringade av historien
Skärning mellan historia och nutid i underrättelseanalys med stridsflygplan som exempel
Neuronnät för intelligent övervakning av servrar

PP IS AS HARD AS THE POLYNOMIAL-TIME HIERARCHY* (PS)
Toda, SIAM J. COMPUT.,
Vol. 20, No. 5, pp. 865-877, October 1991

Metagame (Wikipedia)

Om systematisk avlyssning på nätet:

Internet och problemet med systematisk avlyssning

Hur generella kvalitetsfaktorer associerade till användare kan identifieras i Wikipedia:

Who does what on Wikipedia?

En upplever jag välgjord strukturering av nyheter rörande meta-information samt dessutom en färdig partiell lösning i öppen källkod:

Google living stories i öppen källkod

Via Infotorg ges access till ett antal databaser inklusive gamla Dafa spar där folkbokföringsadress kan bindas till t.ex. personnummer för mer trovärdiga utskick (ex. lösenord). Uppgifter om statistik och uppgifter rörande en mängd andra saker finns också från olika databaser.

www.infotorg.se

Wiki hos MIT om kollektiv intelligens:

Handbook of Collective Intelligence

Hos Gapminder.org finns visualisering av trender rörande en mängd områden att fritt använda:

www.gapminder.org

I området att mäta vad besökare gör på en webbsajt är Occam's razor den bästa sajten när det gäller guider. Det finns en hel del bra samlat särskilt från sista sex månaderna och de två senaste inläggen är ett par värda att läsa:

Kill Useless Web Metrics: Apply The "Three Layers Of So What" Test
10 Fundamental Web Analytics Truths: Embrace 'Em & Win Big

Även medtagen i dagens citat:

Dagens citat: Avinash Kaushik

Aaron diskuterar möjligheterna att använda data från Alexa:

Is Alexa Relevant in 2010?

Verktyg för att visualisera samband sannolikt manuellt (har ännu inte testat det men åtminstone är det ett trevligt exempel):

Mapping GitHub – a network of collaborative coders | Flowingdata.com

Programmeringsspråk för att bygga AI från en princip som låter intressant:

Grand Unified Theory of AI: New Approach Unites Two Prevailing but Often Opposed Strains in Artificial-Intelligence Research

Både positiva och negativa stereotyper påverkar läsarna. Detta har diskuterats i:

Effekten av ninja som positiv stereotyp
Var försiktig med negativa stereotyper

Det verkar heller inte otroligt att förekomsten av övervägande positiva eller negativa stereotyper säger något och är intressant att mäta. Ännu mer rör det i så fall troligen förändringen av fördelningen mellan positiva och negativa.

Världsbanken har nu gjort sin statistik enkelt tillgänglig över nätet och även i API:er. Läs mer i:

Världsbankens statistik enkelt och fritt tillgänglig

Företag som gör marknadsundersökningar rörande användning av och affärer på internet:

www.comscore.com

En liten tjänst Google gjorde för UK som tycks importera korta RSS-snuttar från leverantörer av uppgifter om statistik elegant presenterade fördelade över olika ämnen.

Google Internet Stats

Sökfunktionen tycks verka över nyckelord i RSS-bitarna som tagits med. Exakt med vad den är gjord med vet jag inte säkert men det hela tycks skapat med Google Spreadsheets och det tycks troligt att den har en sökfunktion även om jag inte använt den för något avancerat själv.

Guide till ett flertal verktyg och tjänster för enkel användning rörande trender på nätet och som jag uppfattar det prioriterat mot ögonblicket sett utifrån begrepp som kan uttryckas motsvarande sökord:

API and Dataset Cheatsheet - Building Quick & Dirty Tools | SEOMoz.org

Fallstudie över hur en enklare tjänst för att analysera några väldigt grundläggande men väldigt stora datakällor:

Slides & Thoughts from Hadoop World NYC | Datawrangling.com

Från Google finns också för att prediktera och kategorisera utifrån data och upptäcka förändring Google Prediction API:

Google Prediction API för att kategorisera, prediktera och se förändring

Där Google Prediction API också av filosofiskt intresse kan relateras till följande diskussion:

Relationer i länkar kanske approximerar generella samband för "organisatorisk entropi"

Där vi kan se länkar som bärande mening i form av riktning d.v.s. grafteori, mening vilket vi kan uttrycka som entropi och också implicit kategorisera från båda dessa egenskaper.

En webbsajt som gör till Sunlight foundation med en lösning för att hämta federal statistik:

transparencydata.com

Notera också följande undersida för bulk-nedladdning:

transparencydata.com/bulk/

Tre lösningar värda att titta på. Bland annat att avgränsa och mänta ut text entiteter från en text och ansiktsigenkänning respektive:

Tre spännande lösningar möjliggör kreativ data drilling

Data rörande hälsa i USA har gjorts tillgängligt via Google. Jag har ej testat det själv men Google Public Policy blog har länk till var det finns att ladda ner och diskuterar hur deras lösning Google Fusion Tables kan användas för att göra informationen "mer användbart":

Making U.S. community health data accessible and useful | Google Public Policy blog

Google Public Policy blog har information om patenter och varumärken att ladda ner:

10 terabytes of patents and trademarks | Google Public Policy blog

Statistik över sociala media är Viralheat en tjänst för:

Viralheat gör statistik över sociala media tillgängliga fritt

För att värdera olika hypoteser är ACH som används av CIA och numera finns i öppen källkod ett alternativ:

Att värdera alternativa hypoteser med ACH

Visualisering och samarbete från perspektivet kreativitet och innovation diskuteras i:

Idéer till kreativitets plattform för stora organisationer via fria lösningar

Tips rörande metoder, litteratur m.m. i kontext av nationalekonomi ges i:

Att bedöma ekonomisk utveckling: Några råd