Microsoft Bing! Quality assurance problem och helt avstannad utveckling framåt förutom hantering spam

2013-08-21

Följande upp det nya Bo-konceptet Sunny Vitahuset publicerat på Twitter, Youtube, blogg m.m. tittade jag hur det märktes på Bing!.


Nyfiken på om de anti-spam-lösningar och indexeringslösningar vågar och/eller orkar ta upp så snabba volym och rekommendations-indikationer visade sig inte Obamas nyköpta hundvalp alls. Däremot i video-sökningen fanns en försvarlig andel pornografi (jag tror inte det är relevant sökresultat för Sunny oavsett filtreringsnivå: porgrafi-konsumenten har ofta gissar jag inget problem med att addera tydliga cue words t.ex. kvinna gör något i informations-domän pornografi.


www.bing.com/videos/search?q=sunny&qpvt=sunny&FORM=VDRE

Fortfarande vad jag från tumbnails gissar är pornografi också med strikt-filter.


Exakt vad problemet så återkommande lite varstans egentligen ligger har jag funderat över genom åren. Ett möjligt svar jag reflekterade över nyligen efter att ha träffat på deras EntityCube och läst vad de publicerat om den är:


  • Vi betraktar idéerna runt kuben man diskuterar i artiklarna.
  • Varje algoritm eller kocnept är by the book.
  • Väölända stabila algoritmer.
  • Ett tämligen pedantiskt noggrant helhetstänk.

När jag tänker på det tycker jag mig minnas något publicerat av Microsoft relaterat något NIST projekt där de om jag minns rätt använt Concept net <(MIT) till något. Samma sak by the book.


Menoavsett hur stabila och goda algoritmer det är - kanske rent av som cosinus similarity - med i de flesta referensböcker räcker det inte i sådana här sammanhang. De kan vara funktionella detaljer också om de normalt även i sådana avgränsningar behöver ses som utgångspunkt att ta upp oavsett om det är något teoretiskt nyare, mer avancerat, mer kostnadskrävande i CPU o.s.v. adderande innovation eller om det snarare handlar om föga avancera, kanske inte alls eleganta, rent av tämligen smutsiga extra filter lösningar för att skjuta ner "underligt" innehåll vi kanske trivialt kan ta det mesta av med bara ord-mönster indexering men som vår statistiska nät förvirras av.


Det är lite som de sär koncepten som komponenter och försöker bygga med lite som Visual Basic men givetvis ändå praktiskt helt annorlunda. Och visst det är klart det går bra med egentligen vilken referensbok som helst i domänen statistisk language processing och hyggligt indata men då får ju inte top-end.


Samma sak med ata. Oerhört vackert och elegant tänk att se kompletterande värden Twitter, webb m.m. Men lite samma sak där verkar man tänka först och hela vägen parallella datakällor man ser lite p.s.s. Det rekommenderas och förklarar indirekt eller direkt vad man avsåg. Men lämnar man standardalgoritmer och standard-datakällor som primära utgångspunkten måste man ju i verkligen om man ska nå längre än vad du får med ett par referensböcker, stora resurser och väldigt nogranna och potenta systemutvecklare (för det är fortfarande ett förbannat svårt område): med en idé vad folk egentligen gör, tänker och agerar när de "rekommenderar" i resp. kanal.


Det skiljer sig radikalt mellan olika publiceringskanaler. Och radikalt beroende av vilken roll också grovt pbulicist har. En marketing inriktad pornograf gör ju en helt annan sak än en gammal tänkt som gör retweets på sina barn-barns- låg-kvalitativa teckningar de fotograferat och ingen människa egentligen vill se hgre i sina sökresultat därför.


Refererar vi en just en referensresurs i ett Tweet som ej är en summering av något mer genomarbetat gäller ju givetvis att mindre tid i genomsnitt investerats i att välja den d.v.s. har mindre quality assurance och större bias Wikipedia m.m.


Utan det tror jag inte för ett ögonblick att någon stabilt får ut rankningsvärde av Facebook eller Twitter adderande kvalitetsdimensioner till andra rankningsfaktorer. Det kan verka fungera men regelmässigt falerar det no doubt utan mer och skämmer ut en stor brand värde-påverkande billboard produkt som Bing!.


Man börjar med människan: Vad vi gör när vi publicerar eller rekommenderar. Vad vi gör när vi letar information. Och tar eller skapar de algoritmer och modeller vi behöver närmare sökmotorn från det.


Rörande just spam på webbsökningen gäller att de numera har mindre problem upplever jag med uppenbart inte vad jag söker efter alls (jämför problemet ovan för video-sökningen). Men i övrigt upplever jag inte att sökresultaten någonsin på år nu blivit kvalitativt bättre i övrigt. Relativt upplevelse av domänen i övrigt står de still.


Om förklaringen stämmer med verkligheten bakom det kan jag ine säkert veta. Och även om så är det ganska underligt. Ev. någon management strategi med områdes-smal rekrytering. Deras visuella ide med bilder på startsidan gillar jag dock liksom en del andra sådana komponenter. Men oavsett elegans tror jag inte att det är dom långsiktiga barriärer Microsoft borde ha byggt redan här för att vara något värdeskapande för ägarna över åren som kommer (om det någonsin varit det).


Microsoft köp av Yahoos! sökmotor var kanske sunt i någon revenue-dimension men jag tror inte att det just adderade något av vad Microsoft kanske behöver nära själva algoritmerna och modellerna. Det är kanske oftare mindre företag mer teknik-inriktade på något nytt. Men även där behöver man ju bäst tror jag en övergripande modell för att kunna resonera om var man kan få värde av sådana köp.


Omvänt kan man ju fundera vad egentligen en fet computer-grid med mycket av rå-statistik är värt för dig när din tid är knapp. Ganska mycket av och till. Från det perspektivet är Bing! mycket attraktiv och fanns möjlighet hade jag gärna köpt det för att få det klart i en stabil-struktur och rullat över annat via bit för bit mellan-lager framför det förvandlande det till en grovare datakälla. Själv i den domänen är jag i deen svårlösligt lite jobbiga riktningarna mellan hash-tabeller i Perl för visst data tagande för lång tid i den dagliga uppdateringen relativt minsta antal nyheter - tappar kontinuerligt ungefär relativt världes tid 2 - 3 timmar dagligen för att boota upp och Perl är riktigt snabb runt dom här operationerna så jag har inte ens prövat en c-portningen - jag initialt för versionen vill indexera dagligen eller välja databaslösningar vilka för Mysql och postgres på min utveclingdata inte hinner med i närheten av ens samma dag att ta in samma mängd nyheter.


Jag vill ha hela Bing! grid:en med allt data.


Men det börjar väl bli dags att surfa in på DELL och se vad prisvärt men snabbt kring sådant här man kan hitta. Helst vill jag ha något med fullständigt brutalt med hyggligt snabbt ram läggande sig som mellan-lager eller nästan helt istället för hårddiskar. Men förra gången jag handlade verkade indexering av minnet vara brutalt begränsat under vad jag ungefär ville ha. D.v.s. cluster krävs ganska tidigt.