Quid söker innovation med datamining

2011-04-20

Jag läste om en till ny tjänst (den förra har vi i Twitter gammal för att prediktera humör och mer krävs) som ligger lite i närheten av hur jag tänker men ändå annorlunda. Denna från informationen i Can an Algorithm Spot the Next Google? om företaget Quid kan vara intressant att resonera mer noggrant om.

Quid uppfattar jag tar in data för att spåra relativt position i ämne förändring d.v.s. relationer mellan produkter, idéer, patenter o.s.v. Konceptet tror jag är precis det samma som den utgångspunkt jag tidigt tog när jag ville bygga vidare från nuhetsnätet:

Vetenskap och algoritmer för att göra det ex. via över grafer relativa euklidska distanser och isomorfiska likheter finns många inarbetade sedan många år där ett excellent referensverk med alla viktiga är:

För den som inte tittat direkt på området men har en del erfarenhet av matematik är Appendix 3 en god start. Från det kan man enklare ta till sig relevanta kapitel och sedan gå vidare och uppdatera sig på aktuell forskning (särskilt optimeringar), vad som finns implementerat i öppen-källkod (mycket högkvalitativt finns) eller när det mer kostnadseffektivt köps in.

Att uttrycka relationerna och göra dom beräkningarna är med andra ord inte märkvärdigt och har gjorts många gånger. Däremot är det en mycket större utmaning att identifiera rätt data att ta in till algoritmerna (och optimera de samma givetvis) där för mycket lika lite som för litet kan vara ett problem, och hur man relaterar olika typer av data. Vad vi t.ex. sätter som mång-dimensionella euklidiska distanser gäller ju för att dimensionerna meningsfullt måste gå att väga mot varandra också om det inte mycket bättre skett långt innan.

En lika stor utmaning är effektivitet i algoritmer för att hantera data, göra "förberäkningar" m.m. och representation av data därför att gå den väg Quid tar innebär massor av data. Det kräver oerhört mycket där vi kan jämföra det med att även om vi bara uttrycker relationer mellan ämnen i en bok är det tidsödande och är algoritmen illa skriven kan det hålla på hur länge som helst. Genetiken är ett område (som jag tror MIT:S Technology Review nämnde men annars finns en kort diskussion i Africa the Birthplace of Human Language, Analysis Suggests för ett tekniskt besläktat område) där man nått långt i hur man optimerar och resonerar om relationer i komplexa sammanhang. I konsten att implementera välgjorda effektiva program är det få områden som är lika krävande som intelligence eller lingvistiska relationer (krypteringsanalysen var det första där kanske genetiken fortfarande har en del att lära även om det omvända också gäller).

Vi kan se det som att det är enkelt i princip och idé men i allt praktiskt är det gigantiskt krävande. Kraven på allt från organisation, optimerad vidare utveckling av program till effektiviteten på implementationer är höga.

Jag tror vi kommer se många nya företag i detta området men tror nog att om man klarar datat seriöst, välstrukturerat och effektivt att det finns mycket goda förutsättningar för Quid och andra ganska tidiga (ex. företag jag skrev om tidigare som verkar vara tidigt starka). Storleken på data och kraven det ställer gör dock att på några års sikt tror jag att många antingen nått god storlek, ligger i nära samarbete med mycket stora företag inom datamining (ex. Microsoft, Google, Facebook o.s.v.) eller har stagnerat.

Därför att i den här strategin finns ingen hejd på datat du behöver. Patentansökningar (d.v.s. Wipo), ekonomiska siffror, Twitter o.s.v. allt är öppet-data eller på väg att bli det och det är inte så himla exakt data man kan tro och mer är därför bättre. Och från det fortsätter det. Har du klarat USA? Tja företag beror av företag och ännu mer i innovationer och forskning som är ytterst globalt så ska inte konkurrenterna prestera bättre är det bara vidare till utländska universitet, forskningsinstitutet, företag o.s.v. för pressmeddelanden, publika föredrag, studier, reklam o.s.v. Men företagen byggs ju upp av medarbetarna så varför inte följa dem i övrigt när de är kända? Åtminstone för ledande personer. Där har du några miljoner bloggar och Twitter-strömmar att följa bara i första seriösa versionen av det.

Detta är mega data business. Och går det bra kommer du snart åka runt i Finland, Sverige, Ryssland, Alaska m.m. för att prospektera hosting-hallar som är naturligt kylda. Det är en utmaning, konst och vetenskap i sig lika svår som något annat att klara av bra och det är ett område där stora aktörer har skalfördel som heter duga. Därav är samarbete med dessa kritiskt på ett eller några år sikt. Övriga faller bort annat än i marginalaffärer eller hög specialisering.

Jag tittade över och har en hel del liknande data upp-installerat själv för mycket mer begränsade områden. Exempelvis patentansökningar, Världsbankens data liksom tester med import från amerikanska myndigheter rörande indexering av forskning, Twitter o.s.v.

Även gjort begränsat för tester är det på min kontorsdator tämligen bökigt att hantera bra. Men egentligen även med säg en 50 000 kr server skulle jag kunna ta det långt just därför att effektivitet på koden du skriver är kritiskt. Jag prövade ett gränssnitt från tredjepart till Wordnet idag. Tidigare har jag tittat på koden till och att det var inte abnormt slött men när man ska köra igenom cirka 100 000 ord för att verifiera att grundform går att få plågsamt när man från att det tar kanske 15 sekunder på något som borde ta en sekund om det gjorts effektivt med lookup-up-tables givet att det är något man kommer använda mycket mer intensivt för annat längre fram.


Jag förföll ett tag 2010 från vad jag lärde mig tidigt när jag implementerade kommunikationsprotokoll och inom krypteringen till det överuttryckta organiserade och satt och representerade data i XML. XML har värde. Det är elegant. Men det är inte snabbt. CSV och lookup-table gjorda i förväg där nya cashas in allt eftersom de engång skapats är rätt väg. Det känns helt rätt att köra CSV med hash-tabeller och lämna det överdrivet eleganta till situationer där det ändå ska gå över nätet och allt vad prestanda är dött ändå.

Det är en viktig anledning till att jag tvingade perspektivet till de abstrakta konceptet och vad som föranleder förändring där. Vi kan se data av den här typen som jämförbart med en karta över rummet där idéer och kunskap relaterar och ligger olika till varandra. Det är också en indikation om hur sådant rör sig just nu. Frågan jag söker i min utgångspunkt är givet det vad får något att plötsligt värdera potentialen i idéerna relativt varandra annorlunda eller gå plötsligt en helt annorlunda väg?

På samma sätt kan vi uttrycka det för vad som fick människor att förändra hur de omvandlade mellan information och energi i Arabvärlden för att pressa från demokrati bit för bit?

Quid eller någon annan liknande källa är en tjänst jag själv för det skulle behöva något seriöst tungt och mycket komplett så att man bättre kan koncentrera sig på det mer unika. Det är ett krävande område de arbetar i.

Förutom den praktiska och teoretiska utgångspunkten i det kan vi också se en diskret skillnad mellan koncepten. I mitt perspektiv är det bra nog om man klarar att se att något nu är radikalt annorlunda och dess ungefärliga riktning. Det är bra nog om du ser att det förändras där andra kontroller kan ta det längre och det säger i sig själv oerhört mycket. Gör man kartan - och jag kunde inte mörda kanske men jag skulle bra gärna vilja ha access till en välgjord sådan - är dock exakthet din vän även om det troligen just nu för alla gäller att det inte ligger på de nivåer som kommer vara minimikravet om kanske bara ett år.

En intrikat likhet är dock i komplexitet. Likt hur detta är komplext i arbetsbelastning är komplexitet som en kostnadsfaktor algoritmiskt troligt grundläggande i min utgångspunkt. Vi kan se det när vi utgår från arbetsminne där det är det aktiva arbetet med vad vi håller i närminne.

En sak vi laborerar med där är värdering av olika faktorer där när indikation om möjlighet eller risk och uppfattat förändrade förutsättningar kan få oss att förändra hur vi ser på saker.

Vi kan jämföra det med vad New Scientist skriver om i senaste numret i The Bonus Myth. Fenomenet att bonus inte fungerar som predikterat i ekonomiska äldre idéer är inte nytt för mig (och jag har själv arbetat i ett företag där man arbetade ytterst tydligt med det för att hålla kvar medarbetarna då antalet vid tiden var nära bundet till värderingen av den typen av aktör så problemet det kan orsaka i hur folk arbetar vilket roade mig att följa vid tiden i dagboksanteckningarna).

Artikeln besvarar dock dåligt vad som egentligen är orsaken (man vet inte säkert än). Vad jag menar är den stora ledtråden man missat liksom i övrigt skrivit är fallen när det fungerar bra. Därför det fungerar inte alltid dåligt. Ett exempel på en grupp av situationer när det fungerar bra är när ägaren av ett företag ger sig själv bonus så att säga.

Varför fungerar det bra här och vilken egenskaper sätter jag som gemensam för den större grupp av situationer? Komplexiteten. För medarbetarna kan komplexiteten i att beräkna och bedöma det bli radikalt mycket högre, och mycket mer så än vad själva systemet i sig ska innebära därför att jag menar att det finns en dimension här man missar.

Visst att du kan få det överdrivna jagandet efter bonus och ständiga beräkningar hit och dit om det. Men vad är det mer än pengarna som driver det? I fastlön i ett större företag utvärderas saker diskret och du kan också bli befodrar. Förutom att det kan ge större ekonomiska möjligheter och roligare arbetar ligger där liksom faktorerna det bedöms på hur gruppen relaterar till dig och hur du relaterar till gruppen.

Detta kvarstår i det bonusdrivna företaget. Dessutom ligger nu också en mer kontinuerlig beräkning mellan prestationerna till bonus. Bonusen översätter också till sätt att uttrycka den till gruppen och hur gruppen - och per individ - uttrycks till dig.

Nu handlar värderingen av sådant samman om att amygdala och delar av frontala cortex (bl.a. orbitofrontala cortex) ska väga samman detta d.v.s. resonera om olika möjligheter och hur det påverkar strategi och taktik. Komplexiteten växer inte Ordo(linjärt) utan Ordo(exponentiellt) (därav menar jag att vårt arbetsminne är så oerhört begränsat som det är mycket mer än långtidsminnet).

Här trots att bara en sak lagts till har komplexiteten växt enormt därför att den relaterar både till glädjen i arbetet i sig, hur du presterar, hur företaget presterar, vad du uttrycker med bil, lägenhet och kläder (där större uttryck för status är fallet även när inga ekonomiska förutsättningar är annorlunda), avvägning mellan karriär uppåt eller att stanna på nuvarande position och tjäna mer pengar nu o.s.v. Det skär in i allt. De ständiga diskussioner och samtal om sådant man kan se när bonus-jakt blivit maniskt tror jag är en logisk spegling av det är komplext och svårt att resonera om.

Hade bonusen istället varit mycket kortsiktig blir det lättare ex. som med övertidsersättning därför där skär det inte med andra kort- eller långsiktiga strategier som bonus gör som ligger precis mellan dessa tidsmässigt. Inte heller tror jag att långsiktig bonus är alls lika problematiskt ex. i ägarandelar som medarbetare inte får sälja medan de arbetar eller under några år efteråt kanske.

En till faktor som påverkar här är också att vår värdering är relativ. Den är inte absolut och linjär. Precis som med droger eller vad som helst annat som stimulerar belöningscentrum gäller att om den angenäma effekten är konstant en tid ställer hjärnan om sig för det. Kurvan för detta är i början linjär för att sedan plana ut och det gäller både pengar och droger tycks det från forskningen.

Spekulativt av mig och så vitt jag vet inte visat i forskning tror jag några undantag finns från det. Det gäller nu när det inte är den tydliga kraftiga belöningen och när ett ansvar för flocken verkar ex. att ta hand om din familj eller medarbetarna i ett större företag du startat själv. En del liknande tror jag också tillhör samma grupp. Det kan också vara en förklaring till hur vi kan se glädje i ansvar hos t.ex. personer som startat företag.

På samma sätt tror jag också att företag är en långsiktig metod (en av väldigt många givetvis) att när det går addera ansvar. Ansvar behöver inte innebära att du fattar beslut men kan göra det. Det handlar om att se ett värde i det man gör där man uppfattar att man själv gör det nu och kommer arbeta mer med det längre fram också. Utvecklar du ex. ett API tror jag att prestationen och kvaliteten blir mycket högre om man så långt som möjligt delar upp sådant i delar som enskilda personer känner är "deras" (om än ej ekonomiskt kanske).

Vi kan jämföra med öppen-källkod där komplexitet är låg:

  • Hur du värderas är mycket direkt relaterat till kvaliteten på vad du gör.
  • Samtidigt är inte tid eller omräkning till pengar tydligt där din värdering kan kvarstå även om du inte gör något på ett år.

Här är det bara en beräkning. Samtidigt är det status i flocken och det är oerhört viktigt för människan. Vi kan dock se en kommersiell koppling per individ mer än de för användare ökade möjligheterna i den kompetens och uttrycket av den. Här kommer ju dock relationen omvänt mycket naturlig som en konsekvens där det fortfarande är en enkel relation att hantera.

Jag får dock erkänna att ingenting i mig naturligt egentligen är spontant attraherad av öppen-källkod. Det tycktes för mig länge onaturligt. Men som mycket annat jag tittat lite på här finns stor skönhet i det. Mer än själva konceptet i sig är det ett vackert uttryck för samarbete mellan människor där det naturligt går över kulturer och andra värdegrunder. Kanske kan det därför också medverka något till att reducera irrationellt hat och rädsla.