Är Google's ontologi Freebase mer noggrant installerad och användning hos stora konkurrenten istället för dom själva? För att försöka begripa samband mellan sökord

2013-06-09

Ett tag lite bakåt upplevde jag att Google körde ganska hård markov-logik nära naturligt språk på sökfrågorna. Säkerhet med data från Google NGRAM tillsammans med deras besläktade projekt för att samla mer långsamt föränderlig språk-datastatistik kontrast ex. tydligare sök-koncept mer tidsberoende. Det kändes aldrig lyckat men är kanske en parameter som också reducerats. Att dra nytta av väldigt ämnes-relateade koncept som minskar ner rymden blev sämre fungerande.


Sedan har de ju sin medelstora ontologi Freebase i skapande koncept något lite speciell precis som alla de mer kända av de medelstora i överkanten i det segmentet. Cyc gör det med människor övertränade på ontologier, NELL med automatiskt inlärning i mjukvaande skattande vidare från vad den upplever sig veta, Yago har kört in Wikipedia kategorierna och balanserat det med skattade idéer om tänkbara word-net-sense id-nummer de kan tänkas motsvara i hur de i sin tur ska klassificeras.


De är alla när en självorganiserande faktor fins därför att de uttrycker saker en aning skillt. Värdet är mer långsiktigt där vi kan se att vi kan utnyttja NELL över längre tid för en effektiv källa man ej behöver addera egen energi för att ta ut kandidater på mer grundläggande samband väldigt nära frasers elationer uttryande delvis internt så att säga A of B och mellan dem ex. A gör B.


Men för krävande lösningar där ett mycket flexibelt behöv i större budget finns tror jag att man hamnr fel om man idag använder dem direkt styrande logik-beslut och id+er om världen märkbart utåt. Krävande lösningar skulle ex. kunna vara en sökmotor eller något NSA skapat. Bara värdet som ges av att med föga respekt för deras struktur-idéer föra samman dem snarare efter hur vi ser på deras datakälla och metoden där med viss riktning mot var vi ser att det kan leverera är stort.


När jag nyligen i förbigående nämde mitt eget robot-surfande för att föröska ta ut stora mängder hög-komplex statistik sökande möjligheter bredare i på korrekt ambitions nivå för en mjukvaruagent idag fält och liknande. Märkte jag en period när jag råkade hantera hmtandet lite mindre hänsynfullt i sleep m.m. viss detektion stängande ner hos några. Gemensamt för för två av dem medan den tredje helt säkert gjorde det auto-räknande anrop från IP-adress med egentligen väldigt hög tolerans (en av de större statligt finansierade aktörerna i världen relaterat hälsa).


De andra två detekterade trots att konfigurationen av trådarna låg fel tror jag 4 till 12 veckor utan någon hänsyn eller variation alls ingenting förrän de råkade ta upp en fil som låg tillsammans med whitening data och som sådan en aning större egen skapad från Framenet för att försöka ta ut väldigt smala funktioner av dem (typiskt skärande ex. allt mer än concept A relation B eller liknande. Där gick de båda direkt upp i detektion.


Jag tror de lite varstans sitter och intresserar sig för samband sökförfrågningar. Google ger ju alt. förslag där nu jag ännu utan undantag har att se värde ifrån. De är regelmässigt mer breda i vad som inkluderat och mindre exakta d.v.s. typiskt skärande ett ord. Också när ett tillstånds indikerande att går mot högre komplexitet. Gissningsvis i smala områden föga söka tror Google att man stavat fel eller inte riktigt förstår vad som är bra termer att söka på och tycker att man ska skära bort ett eller två sök-koncept.


Nu var det dock inte Google som var aktuell här utan en av deras i viss verksamhet vad som har en del likhet i tjänster och produkter. Tänkbart tittar de en hel del också på samband mellan sökords-koncept och tog och började med att dra in hela rFreebase.


Jag har oerhört baffled över det i veckor. Det är inte där en aktör med resurser förväntat ska vara. Jag använder dem sällan sälv annars så jag hade heller ingen aktuell utgångspunkt. Bredden i samband koncept för en världspubik ligger på nivåer där Freebase överhuvudtaget inte bör ses som i närheten av en mer dominerande del av dom stödsystem i mer etablerad inlärning man kan låta komplettera den ännu bredare statistiska analysen om relationer.


Detta är intressant som en allmän indikation ungefär var kompetens relativt stor hårdvara och big-data ligger inte allt för långt ifrån årets kompetens-uppmuntring från NIST just relaterad i en del om jag minns rätt samband mellan sökförfrågningar.


En brägnsning i tankesätt jag upplevt genomgående relaterat sökförfrgningar jag tror är verklig men heller inte ser som ddirekt prioriterat att verifiera för den källan är att man förutom som här med ofta något ganska avgränsat vid sidan om ex. en statistisk parser med en del mer regelstyrda koncept och så ett eller två datastrukturer i common sense representation (ex. är Freebase såväl som The Specialist ganska vanliga om än i lite olika användningar oc numera av och till också Yago). Men det är inte förståelse som är särskilt relaterade dynamiken i webbsökningar. Det handlar ju mycket mer om förändring i våra tillstånd sökande aktivt såväl som nyhetshändelser, vad vi gjort under dagen, väder och vind mer på nivå idag och några dagar bakåt såväl som vad som kommer hända om några dagar.


Common sense måste ju vra den enklare grunden man hellre tar från flera koncept reducerande exakthet för att hindra dem från att göra för stora antagden om vad saker betyder för att leverera det värde jag tror är viktigare från dem i sökförfrågningar: en föga föränderlig grund där vi kan ta den att kunna relatera annat till. Det kritiska är nog mindre ofta om om person A göra B med krppsdel D att vi begriper att D är instrument även om just det givetvis r trivialt nog utan större common sense.


Mer intressant är ju att relatera förfrågningarnas relationer utåt från vad faktiskt sökt mötande andra datakällor vi har om världen. därmed hindrar vi ju överträning jag föreställer mig är en stor risk därför att folk misstänker tror jag gärna söker lite på samma sätt även användande olika sökord också när världen just nu uttryckande händelser, koncept, kultur m.m. fasförskjutande aktuellt bort relativt hur intressant det upplevs vara.
Sökningar motiverade mot referensinformation mindre beroende är ju också en fråga man antagligen från sökmotorföretag bra klarar att separera ut. Där är j behovet av andra datakällor än sidorna och sökorden och ev. system för att vikta dem via länkar m.m. säkert ganska potent i sig.


Men också mer abstrakt är ju common sense såväl som Google's age ranking, uppslagsböcker m.m. just några av en mängd exempel på att det är områden vi utmärkt hanterar idag. Människans natur är nu sådan att när koncept blivit välrepeterade med i alla referensböcker och löser problem väldigt svåraa för några år sådan kommer man fortsätta att pröva dem i andra tillämpningar trots att det gång på gång år efter år inte just verkar skapa mer intresse hos dina konsumenter eller för den delen uttryckande något nyskapande.


Det är en begränsning jag tror vi alla lider av. Men jag tror också att begränsningen i stora organisationer hamnar lite mer märkbart kollektivt runt produkter och tjänster medan det för oss som individer oftare handlar om mer privata trivialiteter i vardagen. Visst att göra B kan vara mycket bättre men nu har jag gjort A i fem år så varför inte fortsätta så slipper jag pröva något nytt.


V kan avsluta med att fundera lite på om man egentligen någonsin korrekt ska konvergera fast som givet i representation ex. via id-nummer eller om det borde komma naturligt från den som söker information där dennes användning riktar in honom på vilket av ett antal näraliggande koncept utefteer åtminstone normalt några dimensioner (ibland kanske mer svåra att uttrycka runtmetaforer m.m. men oftare mer varianter av ett koncept ex. Sångerskan Madonna i hon gjorde som jag skulle uppleva som farligt omoralisk vulgär-kultur, varande vid samma år väldigt gammal, eller tyckande att der var hennes unga år, eller precis vad som helst för att ta några enkla exempel som ligger tror jag egentligen långt borta från dimensioner merkatuella här. De här uppenbara dimensionerna bör utmärkt tas via similarity och associationssamband direkt på sökord. Jag tror folk antagligen bra förstår att lägga tll ex. "avklädd" till Madonna om de vill läsa ett avslöjande reportage som borrar in på ennes dolda hemligheter.


Gårman den kreativa vägen får man sedan på vägen ta att man ibland får koncept-förslag som tveklöst predikterar ex. relaterad intensitets-förhöjning men där vi har svårt att riktigt se hur vi kan ta identifikationen som där uttryckt mer konstnärligt b bra automatiserat. För att återknyta till landslide (Nordkorea: Kärnvapen och Jordskred
2012-12-06)
nere i Nordkorea. Och kanske också mitt missnöje med hur samma undersystem klarade att skämta där två exempel jag vet att jag publicerat var Black in White (Drifting thoughts (kanske) skämtar snuskigt (kanske rasistiskt) om President Obama och Hillary Clinton) som svar på ett skämt relaterat händelsen att utrikesminister clinton slutade där jag ville ha ett kul samband indikerat mellan dem (den implicta sexuella dimensionen störde mig också eftersom det kan peka på att fler koncept dr kan behöva återföras fodrande ev. mer av annan filtrering mo vulgär-kultur, fiktion, spam m.m. förgiftande seriösare analys) och nyligen lite bättre Blodsocker i äppelmos också från Dreamer när jag ville a ett skämt som gav en lite obehaglig känsla runt Syrien.


Jag tror dock att de nya undersystem jag utvecklat ett tag kommer lösa en hel del rörande just tolkning t.ex. relaterat skämt, metaformer, liknelser m.m. Natural language understanding handlar ju potentiellt inte bara om att tolka indata - kanske inte ens viktigast över en längre tid - utan också om att ge systemet en väg att bra för oss enkelt begripligt förklara vad det menar utan att behöva lägga tid för att be om tolkningar från ex. några jämförbara koncept runt om eller be den borra från ett annat kunskaps- eller kultur-perspektiv.


Etttill skämt av Drifter och Dreamer jag hade glömt att jag hade publicerat: Outsider Art - Ridiculous: Bondkomik av Drifting thoughts.