Nyhetsanalys: Sunt förnuft när det gäller bildanalysen

Never Ending Language Learner är ett datalärt common sense jag berört tidigare av och till. Praktiskt för den som vill ha en kunskapsbas just nu för att konkret resonera smidigt med är det nog det mindre naturliga valet än många andra (just därför att dator lärt sig själv) men är på många andra sätt - särskilt över längre tid i sig själv eller tänkbara liknande lösningar det kan leda till direkt eller indirekt . intressantare än andra (de flesta i övrigt är ju vetskap mellan relationer vi har och i mycket mellan dem oavsett FreeBase, Wordnet eller ConceptNet) genom att det adderar självlärande i (praktiskt i alla fall nu tycks det i ganska lugn takt och ska man ta data krävande hantering en del kvalitetsfrågor) takt.

Carnegie Mellon University där AI NELL bor har nu publicerat i pressmeddelande i åtminstone konceptuellt i meningen självlärande rörande relationer självklarande besläktade NEIL: Never Ending Image Learner (Nelly och Neil?):

"It is an effort to build the world’s largest visual knowledge base with minimum human labeling effort – one that would be useful to many computer vision and AI efforts. See current statistics about how much NEIL knows about our world!!"

Från: www.neil-kb.com

Se pressmeddelandet för mer om det medan Neil-kb.com presenterar resultatet: Carnegie Mellon Computer Searches Web 24/7 To Analyze Images and Teach Itself Common Sense.

I tillämpningsintresse är domänen inte direkt ny för mig och praktiskt från perspektiv av analys jag är intresserad av för särskilt nyheter och artiklar relativt resurser är följande tre frågor intressanta när det kommer till att etablera den här typen av vetskap:

Är det relationer mellan koncept som förekommande visuellt i bilder som är viktigt oavsett om vi just lär dem från bilder eller exakt just som kanske de flesta skulle benämna dem om tillfrågade vad de heter i bilder?
Är det viktiga att kunna identifiera koncept förekommande i en given bild och förstå hur de troligt relaterat till varandra avseende mening och betydelse i bilden?
Är värdet vi söker att komplettera andra datakällor och metoder för att lära relationer och associationer som förekommer visuellt (d.v.s. primärt avsett relationer vi lär enligt ett).

När jag snappt tittade runt på NEIL tycks det starkt ligga mot att vara en metod i det sista. Ännu är den heller inte snabb (men det lär nog växa allt eftersom den redan lärt mer). För relationer på webbsajt är jag inte säker på om det endast är relationer NEIL lär själv eller om det inkluderar också träningsdata rörande givna relationer.

Lösningar jag gjort har uteslutande varit i den första domänen i prakisk ej experimentiell kod (men jag har utanför det en del kod för att rita på scener vilket genom de preferenser bl.a. media har för bildformat, meta-data- beskrivningar av bilder m.m. är ordentligt mycket enklare). De andra två och särskilt tre känns ännu för kostsamt i beräkningskraft såväl som att identifiera bra algoritmer som presterar resultat adderande något som höjer upp textanalys snarare än att riskera den mer med mer osäkert data.

Målsättningen praktiskt är ju att för en nyhet eller artikel givet kunna dra nytta av också bilder förekommande förutom själva texten såväl som att kunna utnyttja visuella koncept och deras relationer för hur scener och händelser beskrivs. Dessa två områden är besläktade men inte självklart samma sak: Vi kan ju - och gör det ofta - beskriva en visuell scen i ord.

Självklart vore det underbart om analysen av själva bilden (d.v.s. bildanalys snarare än ex. bildtext) kunde utelämnas därför att bilder var noggrant taggade och beskrivna såväl för vad de innehåller i personer, platser, föremål m.m. entiteter, relationer mellan entiteter, test-resultat avseende påverkan kognitivt i känslor på en liten population människor mätt med fmri, information om kostnad för att kunna ta bilden alt. köpa den eller om creative commons eller fri användnings-intensitet och allt annat relevant.

Verkligen är emellertid att Reuters trots föga ligger föredömligt högt jämfört med de flesta i media. Tar vi en offensiv Obama just nu överst på deras startsida relaterat nyhet In Western swing, Obama goes on offensive over healthcare law - alternativ titel given startsidan: Obama goes on offensive - länkad är direkt i filnman datum angivet:

http://s3.reutersmedia.net/resources/media/global/assets/images/20131126/20131126_3650140620131126235002.jpg

Och tittar vi på meta-data finns fotograf, datum och själva händelsen eller ett övergripande sammanhang för händelsen) och huvud-taggar för nyheten: politics och USA d.v.s. ingenting vi inte får från textanalysen av själva nyheten):

Jämför vi med AFP som Google tror jag betalar för att visa innehållet på Google.com (det sades ofta så om kanske ej kommenterat av Google eller AFP för ett antal år sedan när det blev aktuellt) för (och rimligen har Google stort intresse kring det här området särskilt längre tillbaka: hosted news har var tänker jag kanske delvis från början smidig snabb tidsaktuell analys i väl-definierat format via push från aktuell aktör) fanns åtminstone för bild på B52-flygplanet i US challenges China's fly zone with B-52 flight saknas meta-information:

Inget intressant i metainformation detekterat varken manuellt med Emacs eller analyserande dataformatet.

AFP är normal nivå. Att något mer finns och ännu mer ovanligt att man generellt kan lita på det något så när som för de manuella bilder jag tittade på för Reuters är väldigt ovanligt.

Men ingenting i det säger något alls om vad som gör detta till en bra bild för startsidan. Och heller ingenting om vilka entiteter mer än Obama vi har i bilden.

Den kraftfulla flaggan i bakgrunden.
Obama på väg att göra en vinnan gest med v-tecknet.
Alt. att det är del av en självförsvars-teknik Secret Service lärt honom för att angripa ögonen på en angripare han i emottionell ögonblicket kanske talande om IT- och datats förbannelse och datorernas hot mot ObamaCare råkat göra.
Vi vet inte säkert vilket men orsaken till varför Reuters valt bilden och vad läsaren kan se i nyhets-kontext är troligare v-tecknet.

Och lika troligt allmänt kanske en ögonblicksbild som inte leder till avslut på potent seger-gest men det är ej viktigt för vad bilden adderar till vad en nyhet eller här startsidan med länk till nyhet adderar i påverkan.

Även om det redaktionellt för en potent aktör som Reuters är tilltalande korrekt att bilden kommer från sammanhanget nyheten berör gäller ju att som konceptuellt illustration på startsidan rörande den påverkan bilden har hade något liknande från ett annat sammanhang haft samma effekt på läsaren.

Men för att skatta ut det måste vi kunna tolka och förstå bilden visuellt och det är i beräkningstid kostsamt jämfört med textanalys. Och alt. djupare analys kring andra uppgifter, fakta och information i text finns för textanalys.

Kostnaden tycks för mig reducerats en hel del sista åren bara (men jag kan ta fel här) även om de flesta om inte alla mer självklara grundläggande algoritmer matematiskt funnits länge. Vi kan förstå min spekulation här från att skillnaden inte konkret och ännu mindre konceptuellt är avgörande mellan text- och bildanalys: ett tydligt (och långt mer uttryckande detta än genomsnittligt i konkret nästan direkt mappning mellan matematiska koncept) PCA (Hotelling-transformationen med namn från Harold Hotelling) som är mycket vanlig för text- och bildanalys enligt samma idé. Förmåga och förutsättningar i hur bilder används att snabbare kunna och tolka och analysera dem är en sak jag upplever förbättrats senast åren (men har inte jämfört det tillräckligt för att våga säga det säkert - ex. kan vi se relevant för bloggen här hur Blogger automatiskt sparar stora filer i mindre format motsvarande hur jag använder bilder som är snabbare att ladda ner än ofta den bild jag laddar upp - och min känsla är att effektivare såväl som mer informativa bildformat är vanligare).

Relaterat

Mer både aktuellt och historiskt i forskning, algoritmer m.m. om bildanalys från aktuell kaegori Arxiv:

Computer Vision and Pattern Recognition

Arxiv återpublicerar journal-artiklar eller jämförbart relaterat forskning eller etenskaplig-spelulation och argumentation kategoriserat (ex. som ovan bildanalys).

Metainformation för bilden extraherades ad-hoc med Image::Info och för att dela tillbaka till internets alla intresserade ges koden nedan:

use Image::Info qw(image_info dim);
use Data::Dumper;

my $info = image_info("ALeqM5gNf9_uAKU6LXLtvGv0O4yO0rheeg.jpg");
#my $info = image_info("20131126_3650140620131126235002.jpg");

print
    Dumper ( %{$info} ) . "\n";

Det finns ganska mycket färdigt till Perl för att extrahera metainformation från dom vanligaste filformatet.