Viktad sannolikhet koncept (eller sökgrupp av koncept) givet koncept eller sökgrupp

2014-05-31

Statistik samförekomst är från debug-generering på cirka 10% - 20% av totala mängden (i totala mängden data ej självklart påverkande just dessa relationer om än troligt) utelämnande data från mitt tidigare system för detta, allt nytt data från nyheter, allt nytt data som gjordes i ett tidigt första varv där NIH resp. Biomedcentral är de största datakällorna, samt en hel del i övrigt men inkluderande bl.a. (inte otroligt relevant för exemplet) Wikipedia resp en viss "särskild typ" av datakälla i relationer utnyttjade som samförekomst liknande "ontologiska" relationer.


Jämförelse värden Google Webbsökning

För william auld som råkade komma nära först i filen jämförde jag sannolikhet för en relation givet william auld med antalet träffar Google Web search säger sig ungefär ha indexerade för "william auld" + "aktuell_relation" dividerade med antalet träffar förwilliam auld (76900). Det var lite av en miss att jag valde william auld eftersom jag den är något troligare "ontologi-smoothing-påverkad" där jag kanske hellre gjort en annan. Emellertid visade sig jämförelsen intressant rörande vad vi kan spekulera om Google från den.


Något om min generering

För min generering gäller vidare att värden för P("william auld") beräknas från all förekomst av "william auld" i alla betraktade relationer till ett annat koncept medan endast de relationer ex. till "collector" (d.v.s. vad som ger P("william auld" + "collector") också existerande i Bluelight d.v.s. min representation av världen i mening av alla existerande meningsfulla ngram och deras relationer till varandra. Sannolikheterna ska därför normalt inte summera till noll.


Vidare rörande antal har egentligen ingen av de skattningssystem närmare "renlärligt" för inverse document frequency", >natural language processing eller binära-söklösningar" använts. Orsaken till vad vi kanske kan kalla en "blandad" lösning med natur av alla tre är att mitt syfte primärt var att etablera ett mycket omfattande såväl som betrodd start-tillstånd med tydligt bias mot vad jag bedömer tyngre innehåll men vars statistiska natur fortsatt betraktande ex. uteslutande nyheter sämre märks uttryckande något av världens upparbetade kunskap (ex. säg 20 - 40% av åtminstone titlar för all forskning publicerad från säg 1600-tal fram till 1980-tal och därefter mycket mer svår skattat avseende andel). D.v.s. behov i denna generering att faktiskt ha motsvarande innehåll indexerad eller hanterat i övrigt fanns ej. Vidare önskade jag ett kraftigt bias mot hur vi föredrar att söka och de implicita cues i innehåll vi utnyttjar d.v.s. i min termonologi har DO (titlar, taggar, abstract m.m.) fått en ofantligt större vikt än DESCRIBE (brödtext).


Samtidigt ska sägas att det ej är helt givet att jag kommer behålla nuvarande algoritm. För de flesta typer av indata-format hanterat har den skillnad jag ev. kan införa och pröva föga betydelse men ibland för längre data kan det tänkas ge påverkan. Problemet jag ser med hur man räknar när log av frekvens används (motsvarande som i delsteg till i sökalgoritmer mycket populära och i min efarenhet stabilt välfungerande inverse document frequency) är ökad arbetsbelastning resp. utmaning av kognitionen rörande hur viktiga mycket indikativa datafält motsvarande taggar för forskningsartiklar ska värderas jämfört med abstract. Olika storlek på den rymd taggarna är del av är vidare ytterst varierad mellan journaler och journal-hus resp. ibland (ganska sällan i samplings-data för mig) var sekundärt "indexerade". Taggarma förekommer en gång och får därigenom naturligt lägre vikt än vad som förekommer flera gånger också om skillnaden när lämplig log-baserad funktion appliceras blir mindre.


Samma problem kan argumenteras gälla också titel men det är menar jag feltänkt. Titeln för nära nog alla datakällor och allt av forskningsartiklar uttrycks naturligt av skribenterna tillsammans med redaktörer. Denna kan vi därför utan någon särskild utmaning värdera upp för alla datakällor utan hänsyn till den specifika datakällan. Samma sak är ej möjligt för taggar och kategorier eftersom de dels inte används för alla resp. rymden de är del av varierar (en del har ett mindre antal taggar artiklar kan ha medan jag tror andra tillåter vilka taggar som helst om de är korrekt beskrivande artikeln).


Samtidigt är taggarna mer eller mindre beskrivande än abstract?


Min lösning är att betrakta relationerna mellan detekterade koncept i titel. Vidare betraktande resp. större mängd av titel tillsammans med allt data i övrigt betraktat där detta här i de flesta fall består av antingen ett abstract eller annan meningsfull kortare sammanfattning resp. ibland taggar coh titlar där allt värderas p.s.s. och där en förekommande relation endast kan förekomma en gång.


Dessutom som bonus blir det enklare kod för beräkningarna när man räknar så här såväl som åtminstone för dataset's där endast en sparning till disks krävs märkbart snabbare (de som kräver mer än en behöver normalt en mängd dumpningar till fil vilket gör allt annat försumbart direkt av det resp. timmar eller dagar långa indata filer).


Att säga att en relation endast kan förekomma en gång är dyrt därför att normalt gäller när taggar finns och abstract är annat än mycket kort (där mycket kort kan jämföras med närmare snippets i sökresultat) uttrycks ett högre antal för vissa relationer information vi kastar bort. Därav att jag ev. kan tänkas pröva en annan algoritm. Men min känsla tidigt (där ingenting ännu indikerar att det kommit helt fel) är att givet vissa upplevda risker till lokaliserat i globalt mer ovanliga relationer där annan beräkning ibland hanterande värdering av fler-förekomst fel-skattande kan skapa rent över allt data fullt märkbara fel med underliga bias (det är dock en gissning) samtidigt som jag ändå kände att jag ville ha bastillstånd skattat från en brutalt stor mängd data (beaktat data totalt när endast information motsvarande titel, sammanfattning och ev. taggar betraktas är cirka 5 T) liggande liggande till grund för den export jag gör nu sparande en del).


Mini jämförelsen

Det hade varit redaktionellt elegant att här ha en trevlig kommentar om personen i frågas poesi eller arbete i övrigt men han är totalt okänd för mig. Endast vad som råkade komma bland de tre översta i filen där jag exporterade ut debug-data. Läser vi Wikipedia dock ett från mitt och de flesta andras i Sveriges perspektiv i denna domän dåligt föredöme p.g.a. engagemang i esperanto: William Auld. Viss arbetsinsats - och än mer kalender-tid - ligger bakom dessa tillstånd och jag ser verkligen inte att behöva göra det också för esperanto.


Manuellt och ej givet domänen onödigt exakt eller kanske alltid i samma system avrundat för att passa in tabell på sidan.
Relation Min skattning Google-skattning Google hits
"william auld" + "poet" 0,034497865274 0,153446033810 11800
"william auld" + "editor" 0,01130402484 0,15734720416 12100
"william auld" + "translator" 0.008652657602 0,088556566970 6810
"william auld" + "writer" 0,00265136724 0,13784135241 10600
"william auld" + "collector" 0.00017917936 0,04369310793 3360
"william auld" + "person" 0.00017917936 0,22886866060 17600
"william auld" + "essayist" 8.958967927e-05 0,0224967490247 1730

Relation "william auld" + "person" är intressant. Beräknar jag motsvarande vikter i ett helt annat system där sannolikheterna i sig för förekomst i närmare som vi kanske oftare uttrycker oss i titel, sammanfattning eller liknande data (samt något mindre viktat i denna generering brödtext) ej utnyttjas utan istället likhets-begrepp och vidare som jag beräknar likhet att de görs helt utan perspektiv (d.v.s. ungefär nära nog samma som cosinus similarity) skulle jag troligt få relationen till person högre än ex. som här poet.


Jag vet egentligen inte att "william auld" + "person" inte är mer vanlig på webben naturligt eller som Google samplar vad publicerat. Bl.a. påverkande här är ju något liknande samma fenomen som får vetskap om relationer att gå runt i olika ontologier när de tar in varandra inte sällan med mindre eget värde. Instansieringar av ex. DBPedia, Yago m.m. på olika platser på nätet kanske ger relationen hög förekomst.


Och tittar vi efterföljande på sökresultatet kan vi se en mängd orsaker mer än väl tror jag förklarande att Google fick relationen högre om vi antar att antalen Google ger beräknas från något likande inverse document frequency från data påverkat av ett längre stycke data. Tänkbart kanske bilddata kan ge person bias också?

Men samtidigt att vi får ut värdet snarare för document frequency där det eventuellt beräknas eller skattas från någon tänkt global vikt via IDF (som jag tänker mig att sökmotorer hanterande mycket större mängd dokument än jag ännu behövt gör det praktiskt för att slippa ha vetskap allt i onödan men får erkänna att jag inte är särskilt allmänbildad i aktuella algoritmer här).


Struntar vi i den förklaringen vilket inte var vad jag spontant betraktande endast antalet utan att titta på sökresultaten tänkte på är en tanke att Google ev. delvis skattar och beräknar dessa värden delvis från ontologisk-vetskap. Det kan tänker jag vara vettigt om det gör det lättare att komma närmare "rätt värden" utifrån perspektiv av hur vi söker (jag tror viss skillnad kan föreligga). Om så var intrycket också att de ev. för aktuellt koncept möjligen hanterar relativt få relationer till andra koncept i mening av att de faktiskt räknar dem snarare än att skatta dem via ex. en ngrma-modell utgående endast från globala antal med någon för aktuellt kontext (william auld") riktnings-faktor.


Att relation person här hamnar långt ner känns mycket lovande. En dimension av motivationen till att ha PAB-relaterade vikter (PAB i mening av konceptet P ( A givet B)) är att få ett mer "naturligt" viktsystem för användning tillsammans med andra viktsystem. Ett värde här är att jag tror att sannolikheten för att söka på "william auld" tillsammans med "person" är mindre än att söka på "william auld" tillsammans med "poet" och om så ska den senare relationen för en grupp av applikationer optimalt vara högre (med medvetenhet om ej för personnamn särskilt ovanliga relationer relaterat orter, djurnamn m.m. vilket för andra personamn torde hanterats utan större problem i den mån förekommande i dyrare mer värdefullt samplingsdata prioriterat här likt publicerad forskning).


"Warsaw": Större jämförelse

Där jag emellertid inte samlade in data för jämförelse längre än till cirka (några saknas också precis innan) relation "francisco goya".


För relationer där värden finns även jämförelse Google och sorterad fallande från högsta i "HH-värden":


warsaw+europe 0.007444191786 2.096153846 43600000
warsaw+city 0.006929825771 5.480769231 114000000
warsaw+capital 0.00509155 1.129807692 23500000
warsaw+central 0.004497587161 3.115384615 64800000
warsaw+county 0.004490628698 1.100961538 22900000
warsaw+berlin 0.003760377568 2.423076923 50400000
warsaw+battle 0.003433667976 0.5528846154 11500000
warsaw+economic 0.003383498334 1.081730769 22500000
warsaw+department 0.003175846297 1.245192308 25900000
warsaw+france 0.003112558757 2.418269231 50300000
warsaw+academy 0.002884881888 0.8413461538 17500000
warsaw+district 0.002795369432 1.149038462 23900000
warsaw+budapest 0.002631859504 1.677884615 34900000
warsaw+empire 0.002540920777 0.3475961538 7230000
warsaw+church 0.002535174099 0.9711538462 20200000
warsaw+communist 0.002373897525 0.2370192308 4930000
warsaw+building 0.00202911313 1.576923077 32800000
warsaw+force 0.002026112673 1.067307692 22200000
warsaw+austria 0.001950624527 1.129807692 23500000
warsaw+canada 0.001707116769 2.0625 42900000
warsaw+china 0.001692105968 1.759615385 36600000
warsaw+eastern europe 0.001577163715 0.3701923077 7700000
warsaw+bulgaria 0.001332210621 0.8557692308 17800000
warsaw+buildings 0.001273327547 0.4951923077 10300000
warsaw+england 0.001122605774 0.8942307692 18600000
warsaw+armed 0.001089016094 0.325 6760000
warsaw+chicago 0.001049752452 1.793269231 37300000
warsaw+denmark 0.0009595375587 0.9134615385 19000000
warsaw+amsterdam 0.0008758745355 1.947115385 40500000
warsaw+bridge 0.0008673759776 0.7740384615 16100000
warsaw+copenhagen 0.0008623511676 1.480769231 30800000
warsaw+european union 0.0008022773482 0.4177884615 8690000
warsaw+brazil 0.0007774283701 1.153846154 24000000
warsaw+archbishop 0.0007740575795 0.03168269231 659000
warsaw+britain 0.0007179831592 0.6875 14300000
warsaw+california 0.0006988823485 1.009615385 21000000
warsaw+churches 0.0006918588024 0.1389423077 2890000
warsaw+asia 0.0006731392376 0.9903846154 20600000
warsaw+central europe 0.000650809086 0.1413461538 2940000
warsaw+bratislava 0.0006101579041 0.6394230769 13300000
warsaw+estonia 0.0006025517766 0.4644230769 9660000
warsaw+album 0.0005870350373 0.3076923077 6400000
warsaw+description 0.0005682325154 0.9134615385 19000000
warsaw+buenos aires 0.0005592760695 0.9759615385 20300000
warsaw+east germany 0.000537102666 0.04663461538 970000
warsaw+film festival 0.000533614835 0.09038461538 1880000
warsaw+biography 0.0004991958468 0.1509615385 3140000
warsaw+fiction 0.0004408883829 0.1649038462 3430000
warsaw+castle square 0.0004229585835 0.008509615385 177000
warsaw+ethnic 0.0004054963786 0.2004807692 4170000
warsaw+bangkok 0.0003434270814 1.125 23400000
warsaw+congress poland 0.0003431013639 0.001360576923 28300
warsaw+florida 0.0003132285948 0.6730769231 14000000
warsaw+baltic sea 0.0003071918651 0.04115384615 856000
warsaw+belweder 0.0003062181016 0.004754807692 98900
warsaw+bydgoszcz 0.0002835680368 0.4769230769 9920000
warsaw+associated press 0.0002758594688 0.07836538462 1630000
warsaw+county seat 0.0002657706025 0.1677884615 3490000
warsaw+cemeteries 0.0002612378266 0.01596153846 332000
warsaw+benton county 0.0002598797853 0.006778846154 141000
warsaw+administrative district 0.0002506757432 0.05769230769 1200000
warsaw+bombing 0.0002355447962 0.08653846154 1800000
warsaw+cavalry 0.0002262865396 0.04730769231 984000
warsaw+colorado 0.0002179767671 0.5240384615 10900000
warsaw+city council 0.00020002797 0.03139423077 653000
warsaw+adolf hitler 0.0001639562623 0.02778846154 578000
warsaw+attraction 0.000160270252 0.2490384615 5180000
warsaw+bonn 0.0001521606372 0.2240384615 4660000
warsaw+coventry 0.0001500113552 3.163461538 65800000
warsaw+fort wayne 0.000136518359 0.3014423077 6270000
warsaw+esperanto 0.0001284924012 0.01802884615 375000
warsaw+brandenburg 0.0001277065518 0.09759615385 2030000
warsaw+anti communist 0.00011888045 0.009230769231 192000
warsaw+civic platform 0.000107874225 0.002610576923 54300
warsaw+constitution square 9.68E-05 0.0006538461538 13600
warsaw+belweder warsaw 9.60E-05 9.76E-05 2030
warsaw+east berlin 9.32E-05 0.01836538462 382000
warsaw+barbakan 8.85E-05 0.002663461538 55400
warsaw+belweder warsaw poland 8.73E-05 9.62E-07 20
warsaw+all saints 8.06E-05 0.01100961538 229000
warsaw+economic growth 8.04E-05 0.05576923077 1160000
warsaw+art deco 7.72E-05 0.01769230769 368000
warsaw+contemporary art 7.55E-05 0.04855769231 1010000
warsaw+barbakan warsaw 7.40E-05 0.0003384615385 7040
warsaw+art museum 7.27E-05 0.03254807692 677000
warsaw+alfred tarski 7.24E-05 0.0004721153846 9820
warsaw+dwelling 7.14E-05 0.03254807692 677000
warsaw+all saints day 6.75E-05 0.001793269231 37300
warsaw+carpathian mountains 6.46E-05 0.03110576923 647000
warsaw+academy award 5.94E-05 0.3951923077 8220000
warsaw+democratic left alliance 5.84E-05 0.003307692308 68800
warsaw+astana 5.78E-05 0.4716346154 9810000
warsaw+barbakan warsaw poland 5.48E-05 1.01E-06 21
warsaw+demographics 5.37E-05 0.03769230769 784000
warsaw+foreign investment 5.03E-05 0.2153846154 4480000
warsaw+fortification 4.80E-05 0.03413461538 710000
warsaw+association football 4.74E-05 0.04951923077 1030000
warsaw+andrzej wajda 4.42E-05 0.004274038462 88900
warsaw+daewoo 4.14E-05 0.007788461538 162000
warsaw+burgher 3.98E-05 0.008894230769 185000
warsaw+auschwitz concentration camp 3.80E-05 0.002908653846 60500
warsaw+city planning 3.37E-05 0.08509615385 1770000
warsaw+bletchley park 3.04E-05 0.005336538462 111000
warsaw+film production 2.95E-05 0.008221153846 171000
warsaw+enigma machine 2.94E-05 0.007788461538 162000
warsaw+berlin philharmonic 2.55E-05 0.07980769231 1660000
warsaw+constitutional monarchy 2.34E-05 0.05817307692 1210000
warsaw+ethnic relations 1.86E-05 0.03423076923 712000
warsaw+architectural style 1.73E-05 0.02206730769 459000
warsaw+apartment building 1.66E-05 0.01043269231 217000
warsaw+curzon line 1.63E-05 0.002504807692 52100
warsaw+charlottenburg 1.59E-05 0.1826923077 3800000
warsaw+black walnut 1.57E-05 0.09807692308 2040000
warsaw+broadcaster 1.51E-05 0.5865384615 12200000
warsaw+city counties 1.27E-05 0.002673076923 55600
warsaw+filmmaking 1.22E-05 0.2610576923 5430000
warsaw+fields medal 1.20E-05 0.005961538462 124000
warsaw+documentary film festivals 1.19E-05 0.3557692308 7400000
warsaw+central intelligence agency 1.08E-05 0.008221153846 171000
warsaw+domino theory 1.01E-05 0.01192307692 248000
warsaw+buildings structures 8.63E-06 0.01336538462 278000
warsaw+charles x gustav of sweden 8.52E-06 4.42E-06 92
warsaw+border control 7.75E-06 0.03024038462 629000
warsaw+flag of poland 6.97E-06 0.0030625 63700
warsaw+francisco goya 5.44E-06 0.01990384615 414000
warsaw+cyfrowy polsat 4.65E-06 0.01548076923 322000
warsaw+christian national union 3.87E-06 0.002985576923 62100
warsaw+commemorative plaque 3.82E-06 0.006778846154 141000
warsaw+coshocton county 1.55E-06 0.005 104000
warsaw+dunkin donuts 1.55E-06 0.003399038462 70700
warsaw+brask 1.52E-06 0.002634615385 54800
warsaw+berlin border crossings 7.75E-07 2.40E-06 50
warsaw+corylus colurna 5.08E-07 0.0002418269231 5030

Resp. för sorterat fallande efter relativ förekomst Google index:


warsaw+city 0.006929825771 5.480769231 114000000
warsaw+coventry 0.0001500113552 3.163461538 65800000
warsaw+central 0.004497587161 3.115384615 64800000
warsaw+berlin 0.003760377568 2.423076923 50400000
warsaw+france 0.003112558757 2.418269231 50300000
warsaw+europe 0.007444191786 2.096153846 43600000
warsaw+canada 0.001707116769 2.0625 42900000
warsaw+amsterdam 0.0008758745355 1.947115385 40500000
warsaw+chicago 0.001049752452 1.793269231 37300000
warsaw+china 0.001692105968 1.759615385 36600000
warsaw+budapest 0.002631859504 1.677884615 34900000
warsaw+building 0.00202911313 1.576923077 32800000
warsaw+copenhagen 0.0008623511676 1.480769231 30800000
warsaw+department 0.003175846297 1.245192308 25900000
warsaw+brazil 0.0007774283701 1.153846154 24000000
warsaw+district 0.002795369432 1.149038462 23900000
warsaw+capital 0.00509155 1.129807692 23500000
warsaw+austria 0.001950624527 1.129807692 23500000
warsaw+bangkok 0.0003434270814 1.125 23400000
warsaw+county 0.004490628698 1.100961538 22900000
warsaw+economic 0.003383498334 1.081730769 22500000
warsaw+force 0.002026112673 1.067307692 22200000
warsaw+california 0.0006988823485 1.009615385 21000000
warsaw+asia 0.0006731392376 0.9903846154 20600000
warsaw+buenos aires 0.0005592760695 0.9759615385 20300000
warsaw+church 0.002535174099 0.9711538462 20200000
warsaw+denmark 0.0009595375587 0.9134615385 19000000
warsaw+description 0.0005682325154 0.9134615385 19000000
warsaw+england 0.001122605774 0.8942307692 18600000
warsaw+bulgaria 0.001332210621 0.8557692308 17800000
warsaw+academy 0.002884881888 0.8413461538 17500000
warsaw+bridge 0.0008673759776 0.7740384615 16100000
warsaw+britain 0.0007179831592 0.6875 14300000
warsaw+florida 0.0003132285948 0.6730769231 14000000
warsaw+bratislava 0.0006101579041 0.6394230769 13300000
warsaw+broadcaster 1.51E-05 0.5865384615 12200000
warsaw+battle 0.003433667976 0.5528846154 11500000
warsaw+colorado 0.0002179767671 0.5240384615 10900000
warsaw+buildings 0.001273327547 0.4951923077 10300000
warsaw+bydgoszcz 0.0002835680368 0.4769230769 9920000
warsaw+astana 5.78E-05 0.4716346154 9810000
warsaw+estonia 0.0006025517766 0.4644230769 9660000
warsaw+european union 0.0008022773482 0.4177884615 8690000
warsaw+academy award 5.94E-05 0.3951923077 8220000
warsaw+eastern europe 0.001577163715 0.3701923077 7700000
warsaw+documentary film festivals 1.19E-05 0.3557692308 7400000
warsaw+empire 0.002540920777 0.3475961538 7230000
warsaw+armed 0.001089016094 0.325 6760000
warsaw+album 0.0005870350373 0.3076923077 6400000
warsaw+fort wayne 0.000136518359 0.3014423077 6270000
warsaw+filmmaking 1.22E-05 0.2610576923 5430000
warsaw+attraction 0.000160270252 0.2490384615 5180000
warsaw+communist 0.002373897525 0.2370192308 4930000
warsaw+bonn 0.0001521606372 0.2240384615 4660000
warsaw+foreign investment 5.03E-05 0.2153846154 4480000
warsaw+ethnic 0.0004054963786 0.2004807692 4170000
warsaw+charlottenburg 1.59E-05 0.1826923077 3800000
warsaw+county seat 0.0002657706025 0.1677884615 3490000
warsaw+fiction 0.0004408883829 0.1649038462 3430000
warsaw+biography 0.0004991958468 0.1509615385 3140000
warsaw+central europe 0.000650809086 0.1413461538 2940000
warsaw+churches 0.0006918588024 0.1389423077 2890000
warsaw+black walnut 1.57E-05 0.09807692308 2040000
warsaw+brandenburg 0.0001277065518 0.09759615385 2030000
warsaw+film festival 0.000533614835 0.09038461538 1880000
warsaw+bombing 0.0002355447962 0.08653846154 1800000
warsaw+city planning 3.37E-05 0.08509615385 1770000
warsaw+berlin philharmonic 2.55E-05 0.07980769231 1660000
warsaw+associated press 0.0002758594688 0.07836538462 1630000
warsaw+constitutional monarchy 2.34E-05 0.05817307692 1210000
warsaw+administrative district 0.0002506757432 0.05769230769 1200000
warsaw+economic growth 8.04E-05 0.05576923077 1160000
warsaw+association football 4.74E-05 0.04951923077 1030000
warsaw+contemporary art 7.55E-05 0.04855769231 1010000
warsaw+cavalry 0.0002262865396 0.04730769231 984000
warsaw+east germany 0.000537102666 0.04663461538 970000
warsaw+baltic sea 0.0003071918651 0.04115384615 856000
warsaw+demographics 5.37E-05 0.03769230769 784000
warsaw+ethnic relations 1.86E-05 0.03423076923 712000
warsaw+fortification 4.80E-05 0.03413461538 710000
warsaw+art museum 7.27E-05 0.03254807692 677000
warsaw+dwelling 7.14E-05 0.03254807692 677000
warsaw+archbishop 0.0007740575795 0.03168269231 659000
warsaw+city council 0.00020002797 0.03139423077 653000
warsaw+carpathian mountains 6.46E-05 0.03110576923 647000
warsaw+border control 7.75E-06 0.03024038462 629000
warsaw+adolf hitler 0.0001639562623 0.02778846154 578000
warsaw+architectural style 1.73E-05 0.02206730769 459000
warsaw+francisco goya 5.44E-06 0.01990384615 414000
warsaw+east berlin 9.32E-05 0.01836538462 382000
warsaw+esperanto 0.0001284924012 0.01802884615 375000
warsaw+art deco 7.72E-05 0.01769230769 368000
warsaw+cemeteries 0.0002612378266 0.01596153846 332000
warsaw+cyfrowy polsat 4.65E-06 0.01548076923 322000
warsaw+buildings structures 8.63E-06 0.01336538462 278000
warsaw+domino theory 1.01E-05 0.01192307692 248000
warsaw+all saints 8.06E-05 0.01100961538 229000
warsaw+apartment building 1.66E-05 0.01043269231 217000
warsaw+anti communist 0.00011888045 0.009230769231 192000
warsaw+burgher 3.98E-05 0.008894230769 185000
warsaw+castle square 0.0004229585835 0.008509615385 177000
warsaw+film production 2.95E-05 0.008221153846 171000
warsaw+central intelligence agency 1.08E-05 0.008221153846 171000
warsaw+daewoo 4.14E-05 0.007788461538 162000
warsaw+enigma machine 2.94E-05 0.007788461538 162000
warsaw+benton county 0.0002598797853 0.006778846154 141000
warsaw+commemorative plaque 3.82E-06 0.006778846154 141000
warsaw+fields medal 1.20E-05 0.005961538462 124000
warsaw+bletchley park 3.04E-05 0.005336538462 111000
warsaw+coshocton county 1.55E-06 0.005 104000
warsaw+belweder 0.0003062181016 0.004754807692 98900
warsaw+andrzej wajda 4.42E-05 0.004274038462 88900
warsaw+dunkin donuts 1.55E-06 0.003399038462 70700
warsaw+democratic left alliance 5.84E-05 0.003307692308 68800
warsaw+flag of poland 6.97E-06 0.0030625 63700
warsaw+christian national union 3.87E-06 0.002985576923 62100
warsaw+auschwitz concentration camp 3.80E-05 0.002908653846 60500
warsaw+city counties 1.27E-05 0.002673076923 55600
warsaw+barbakan 8.85E-05 0.002663461538 55400
warsaw+brask 1.52E-06 0.002634615385 54800
warsaw+civic platform 0.000107874225 0.002610576923 54300
warsaw+curzon line 1.63E-05 0.002504807692 52100
warsaw+all saints day 6.75E-05 0.001793269231 37300
warsaw+congress poland 0.0003431013639 0.001360576923 28300
warsaw+constitution square 9.68E-05 0.0006538461538 13600
warsaw+alfred tarski 7.24E-05 0.0004721153846 9820
warsaw+barbakan warsaw 7.40E-05 0.0003384615385 7040
warsaw+corylus colurna 5.08E-07 0.0002418269231 5030
warsaw+belweder warsaw 9.60E-05 9.76E-05 2030
warsaw+charles x gustav of sweden 8.52E-06 4.42E-06 92
warsaw+berlin border crossings 7.75E-07 2.40E-06 50
warsaw+barbakan warsaw poland 5.48E-05 1.01E-06 21
warsaw+belweder warsaw poland 8.73E-05 9.62E-07 20

Känslan för warsaw är att export för hela datamängden kommer ligga bättre än resp. debug-export och Google motsvarande när vi betraktar det som relationer närastående mängder av sökkoncept för en sökning eller som byggs från sökningar relaterade. Men jag är ganska nöjd här också särskilt som inga av de i datamängd riktigt feta arbetshästarna använts alls. Det vore därför en senare högst relevant jämförelse association för query data och faktiskt för enstaka kontroller (snarare än för meningsfullt data-insamlade) närmare möjligt för Google data om jag minns rätt.


Övriga värden "warsaw" finns sist.


Vad kan man ha dessa värden till?

Allt möjligt varför det lönar sig att göra det brutalt stort när det väl uppdateras upp i start-tillstånd. Men förutom mycket annat för att undvika att sitta och förberäkna diverse latenta eller implicita koncept som kastar bort exakthet och möjlighet till mer fin beskrivning av vad vi söker efter när det just efterfrågas samtidigt krävande en massa diskreta tunga beräkningar. Där värden för relationerna är en grupp inparametrar att beräkna vikter utifrån (expanderande från sökkoncept) för hur en enskild stycke data (ex. nyhet) ska värderas i en SERP.


Ett till exempel är när kombinerat Bluelight's relationer resp. Bluelight's intensity för sattande ett mindre rum av i långsiktig tid ganska stabil vetskap för vilka sedan PAB-relationer kan ge en sund ordning av mot vad som faktisk intresserar folk för att välja ut indikationer till andra sökresultat ex:


  • Ungefär som de flesta av de större sökmotorerna numera gärna gör via relaterade sökningar.
  • Möjlighet att givet ett presenterat data där uttrycka en ökad exakthet redan presenterad.
  • För ett tänkbart antal situationer jämförbart med föregående men presenterat likt första alternativet via länksökning snarare än ett resultat redan uttryckt.
  • Ex. med Amazon i Information i SERP: Tillståndsinformation sökmotor resp. läsare / sökare är en presentation besläktad med de två föregående (men med lite annorlunda vikter mötet den som söker och data vi rangordnar).

Samt en hel del närmare att söka mer "avancerat" med större kontroll.


Och betraktar vi relationerna med högst värden av alla framgår från tre - "warsaw poland", "warsaw pact", "warsaw ghetto", warsaw+"pact" - möjligheten att söka föra ett indikerat koncept till ett förstått mer exakt indikerat koncept indikerande det första konceptet d.v.s. en aspekt search suggestions kan uttrycka. Just exemplen ska dock inte tas för kanske de bäst lämpade värdena just för det då debug-körningen från en total mängd tung från forskning, politik och uppslagsböcker än mer så än generella första vikt för allt tillsammans blir (exporten saknar tror jag nära nog allt ej direkt "tråkigt" där det kanske närmast folks bredare intresse utanför ev. mer för resp. individ roliga mer läsvärda studier bör vara data genererat ut från EU resp. FN). Nedan märks särskilt upplever jag (utan att kontrollerat det och man tar lätt fel gissande vad som ger vad) uppslagsböckerna (bl.a. Wikipedia och förutom i storlek mindre ett par till mycket stora).


warsaw+"poland" 0.06048906769 0
warsaw+"warsaw poland" 0.03190553805 0
warsaw+"polish" 0.02523323043 0
warsaw+"ghetto" 0.01666576157 0
warsaw+"warsaw pact" 0.01538579671 0
warsaw+"pact" 0.01504084644 0
warsaw+"uprising" 0.01377676851 0
warsaw+"warsaw ghetto" 0.01240929251 0
warsaw+"university" 0.01193706072 0
warsaw+"people" 0.009938907971 0

"Warsaw": Alla från debug-export

Med jämförelse Google där det samlades in i sista kolumnen och när värde saknas satt till 0.


warsaw+"poland" 0.06048906769 0
warsaw+"warsaw poland" 0.03190553805 0
warsaw+"polish" 0.02523323043 0
warsaw+"ghetto" 0.01666576157 0
warsaw+"warsaw pact" 0.01538579671 0
warsaw+"pact" 0.01504084644 0
warsaw+"uprising" 0.01377676851 0
warsaw+"warsaw ghetto" 0.01240929251 0
warsaw+"university" 0.01193706072 0
warsaw+"people" 0.009938907971 0
warsaw+"new york" 0.008298684603 0
warsaw+"world" 0.008197832231 0
warsaw+"treaty" 0.007764801359 0
warsaw+"europe" 0.007444191786 2.096153846
warsaw+"warsaw uprising" 0.007336778637 0
warsaw+"city" 0.006929825771 5.480769231
warsaw+"national" 0.006773295273 0
warsaw+"jewish" 0.006384989044 0
warsaw+"history" 0.0063105556 0
warsaw+"warsaw ghetto uprising" 0.005942222879 0
warsaw+"warsaw treaty" 0.005921364602 0
warsaw+"military" 0.005237756691 0
warsaw+"capital" 0.00509155 1.129807692
warsaw+"warsaw university" 0.004985647067 0
warsaw+"slavic" 0.00456051304 0
warsaw+"central" 0.004497587161 3.115384615
warsaw+"county" 0.004490628698 1.100961538
warsaw+"germany" 0.00436902934 0
warsaw+"russia" 0.003966297435 0
warsaw+"berlin" 0.003760377568 2.423076923
warsaw+"street" 0.00369649197 0
warsaw+"town" 0.003685508598 0
warsaw+"london" 0.003602355663 0
warsaw+"moscow" 0.003504920932 0
warsaw+"organization" 0.003464941023 0
warsaw+"work" 0.003464902097 0
warsaw+"battle" 0.003433667976 0.5528846154
warsaw+"economic" 0.003383498334 1.081730769
warsaw+"jews" 0.003316333703 0
warsaw+"prague" 0.003222385581 0
warsaw+"world war" 0.003221290551 0
warsaw+"museum" 0.003205876893 0
warsaw+"department" 0.003175846297 1.245192308
warsaw+"world war ii" 0.003170900429 0
warsaw+"france" 0.003112558757 2.418269231
warsaw+"village" 0.003112233321 0
warsaw+"academy" 0.002884881888 0.8413461538
warsaw+"indiana" 0.002859802887 0
warsaw+"district" 0.002795369432 1.149038462
warsaw+"palace" 0.002792193968 0
warsaw+"vienna" 0.002713869136 0
warsaw+"budapest" 0.002631859504 1.677884615
warsaw+"soviet union" 0.002581289049 0
warsaw+"empire" 0.002540920777 0.3475961538
warsaw+"russian empire" 0.002539474264 0
warsaw+"church" 0.002535174099 0.9711538462
warsaw+"travel" 0.002511589798 0
warsaw+"vistula" 0.002479540895 0
warsaw+"president" 0.002393580648 0
warsaw+"hungary" 0.002393315555 0
warsaw+"ukraine" 0.002387691086 0
warsaw+"communist" 0.002373897525 0.2370192308
warsaw+"holocaust" 0.002249688142 0
warsaw+"warsaw convention" 0.002154221912 0
warsaw+"warsaw indiana" 0.002086620251 0
warsaw+"hotel" 0.002070198306 0
warsaw+"warsaw pact countries" 0.002043478419 0
warsaw+"square" 0.002029536612 0
warsaw+"building" 0.00202911313 1.576923077
warsaw+"force" 0.002026112673 1.067307692
warsaw+"italy" 0.001965886105 0
warsaw+"austria" 0.001950624527 1.129807692
warsaw+"lithuania" 0.001826671474 0
warsaw+"israel" 0.001720752709 0
warsaw+"nazi" 0.00171811087 0
warsaw+"canada" 0.001707116769 2.0625
warsaw+"china" 0.001692105968 1.759615385
warsaw+"romania" 0.001651372941 0
warsaw+"eastern europe" 0.001577163715 0.3701923077
warsaw+"railway" 0.001533900496 0
warsaw+"vistula river" 0.001407317398 0
warsaw+"rome" 0.001358158441 0
warsaw+"bulgaria" 0.001332210621 0.8557692308
warsaw+"sweden" 0.001319793533 0
warsaw+"spain" 0.001282409802 0
warsaw+"buildings" 0.001273327547 0.4951923077
warsaw+"roman" 0.001258412528 0
warsaw+"park" 0.001248461371 0
warsaw+"model" 0.001210367781 0
warsaw+"usa" 0.001201821546 0
warsaw+"kiev" 0.001194279041 0
warsaw+"road" 0.001188759474 0
warsaw+"stock exchange" 0.001157601223 0
warsaw+"jew" 0.001154198961 0
warsaw+"universities" 0.001153523609 0
warsaw+"vilnius" 0.001144196556 0
warsaw+"england" 0.001122605774 0.8942307692
warsaw+"structure" 0.001111394751 0
warsaw+"location" 0.001110061843 0
warsaw+"missouri" 0.001095961427 0
warsaw+"armed" 0.001089016094 0.325
warsaw+"lublin" 0.001084742627 0
warsaw+"poles" 0.001067977517 0
warsaw+"norway" 0.001053757599 0
warsaw+"chicago" 0.001049752452 1.793269231
warsaw+"old town" 0.001042538298 0
warsaw+"lake" 0.001036470957 0
warsaw+"riga" 0.00101981166 0
warsaw+"mexico" 0.001018823549 0
warsaw+"sofia" 0.0009983733099 0
warsaw+"illinois" 0.0009694286305 0
warsaw+"denmark" 0.0009595375587 0.9134615385
warsaw+"latvia" 0.0009431406828 0
warsaw+"madrid" 0.0009429192714 0
warsaw+"polish academy" 0.0009197110717 0
warsaw+"japan" 0.0009190352133 0
warsaw+"minsk" 0.0009123709643 0
warsaw+"politician" 0.0009057414149 0
warsaw+"map" 0.000885591525 0
warsaw+"swedish" 0.0008801884331 0
warsaw+"amsterdam" 0.0008758745355 1.947115385
warsaw+"bridge" 0.0008673759776 0.7740384615
warsaw+"copenhagen" 0.0008623511676 1.480769231
warsaw+"turkey" 0.0008578956836 0
warsaw+"structures" 0.0008172439347 0
warsaw+"european union" 0.0008022773482 0.4177884615
warsaw+"brazil" 0.0007774283701 1.153846154
warsaw+"archbishop" 0.0007740575795 0.03168269231
warsaw+"national museum" 0.000767280711 0
warsaw+"virginia" 0.0007299819508 0
warsaw+"world war i" 0.0007263395585 0
warsaw+"revolution" 0.0007200867509 0
warsaw+"britain" 0.0007179831592 0.6875
warsaw+"prussia" 0.0007170515678 0
warsaw+"wola" 0.0007104794523 0
warsaw+"national defence" 0.0007005572936 0
warsaw+"california" 0.0006988823485 1.009615385
warsaw+"north carolina" 0.0006966443555 0
warsaw+"churches" 0.0006918588024 0.1389423077
warsaw+"newspaper" 0.0006915758913 0
warsaw+"personal" 0.0006850157792 0
warsaw+"united states" 0.0006839722755 0
warsaw+"asia" 0.0006731392376 0.9903846154
warsaw+"oslo" 0.0006712669615 0
warsaw+"lot" 0.0006704205155 0
warsaw+"st petersburg" 0.0006619768636 0
warsaw+"central europe" 0.000650809086 0.1413461538
warsaw+"latin" 0.000648415619 0
warsaw+"istanbul" 0.0006327336962 0
warsaw+"praga" 0.0006326840386 0
warsaw+"kentucky" 0.000626855856 0
warsaw+"ohio" 0.0006232983963 0
warsaw+"siege" 0.000619651703 0
warsaw+"saint petersburg" 0.0006144432072 0
warsaw+"toronto" 0.0006143947736 0
warsaw+"bratislava" 0.0006101579041 0.6394230769
warsaw+"estonia" 0.0006025517766 0.4644230769
warsaw+"synagogue" 0.0005968391783 0
warsaw+"frankfurt" 0.0005936254533 0
warsaw+"album" 0.0005870350373 0.3076923077
warsaw+"relation" 0.0005747788765 0
warsaw+"newspapers" 0.000568433496 0
warsaw+"description" 0.0005682325154 0.9134615385
warsaw+"buenos aires" 0.0005592760695 0.9759615385
warsaw+"katowice" 0.0005569886386 0
warsaw+"organisation" 0.0005519953694 0
warsaw+"east germany" 0.000537102666 0.04663461538
warsaw+"film festival" 0.000533614835 0.09038461538
warsaw+"train station" 0.0005286149878 0
warsaw+"stadium" 0.000519958242 0
warsaw+"kosciusko county" 0.0005173082278 0
warsaw+"railway station" 0.000505127533 0
warsaw+"maps" 0.0005049773576 0
warsaw+"lvov" 0.0004994346142 0
warsaw+"biography" 0.0004991958468 0.1509615385
warsaw+"vietnam" 0.0004991351049 0
warsaw+"kaunas" 0.0004670608304 0
warsaw+"hitler" 0.0004616873243 0
warsaw+"western europe" 0.000458715544 0
warsaw+"lviv" 0.000458601219 0
warsaw+"stalin" 0.0004555344544 0
warsaw+"rotterdam" 0.0004420469553 0
warsaw+"fiction" 0.0004408883829 0.1649038462
warsaw+"settlement" 0.000436781562 0
warsaw+"red army" 0.0004339773336 0
warsaw+"plac" 0.0004285979753 0
warsaw+"castle square" 0.0004229585835 0.008509615385
warsaw+"taiwan" 0.0004216404641 0
warsaw+"united kingdom" 0.0004151858886 0
warsaw+"south korea" 0.0004092731259 0
warsaw+"ethnic" 0.0004054963786 0.2004807692
warsaw+"seoul" 0.0003898213174 0
warsaw+"stuttgart" 0.0003811785778 0
warsaw+"thailand" 0.0003795711307 0
warsaw+"skyscraper" 0.0003564981945 0
warsaw+"tel aviv" 0.0003518472979 0
warsaw+"warsaw ghetto inmates" 0.0003505170507 0
warsaw+"kielce" 0.0003452136829 0
warsaw+"bangkok" 0.0003434270814 1.125
warsaw+"congress poland" 0.0003431013639 0.001360576923
warsaw+"kazakhstan" 0.0003428885888 0
warsaw+"taipei" 0.0003264172314 0
warsaw+"florida" 0.0003132285948 0.6730769231
warsaw+"iron curtain" 0.0003126149749 0
warsaw+"baltic sea" 0.0003071918651 0.04115384615
warsaw+"radom" 0.0003063212941 0
warsaw+"belweder" 0.0003062181016 0.004754807692
warsaw+"general government" 0.0002991728124 0
warsaw+"international airport" 0.000288209747 0
warsaw+"odessa" 0.0002876467942 0
warsaw+"bydgoszcz" 0.0002835680368 0.4769230769
warsaw+"reconstruction" 0.0002810380182 0
warsaw+"mongolia" 0.0002801015891 0
warsaw+"new town" 0.0002792802465 0
warsaw+"associated press" 0.0002758594688 0.07836538462
warsaw+"public library" 0.0002753429693 0
warsaw+"gdynia" 0.000266950642 0
warsaw+"nicolaus copernicus" 0.0002669204512 0
warsaw+"county seat" 0.0002657706025 0.1677884615
warsaw+"wisconsin" 0.0002645673268 0
warsaw+"gniezno" 0.0002621586517 0
warsaw+"cemeteries" 0.0002612378266 0.01596153846
warsaw+"benton county" 0.0002598797853 0.006778846154
warsaw+"north dakota" 0.0002587457855 0
warsaw+"supreme court" 0.0002585502635 0
warsaw+"national theatre" 0.0002585259184 0
warsaw+"administrative district" 0.0002506757432 0.05769230769
warsaw+"polish language" 0.0002473385407 0
warsaw+"minnesota" 0.0002460461077 0
warsaw+"san diego" 0.0002441535989 0
warsaw+"holocaust jewish" 0.000243316588 0
warsaw+"november uprising" 0.0002431704763 0
warsaw+"bombing" 0.0002355447962 0.08653846154
warsaw+"unesco" 0.0002349214996 0
warsaw+"cavalry" 0.0002262865396 0.04730769231
warsaw+"colorado" 0.0002179767671 0.5240384615
warsaw+"montenegro" 0.0002131867362 0
warsaw+"ursus" 0.0002078874477 0
warsaw+"plaza" 0.0002066975879 0
warsaw+"phoenix" 0.0002050598252 0
warsaw+"warsaw pact nations" 0.0002045706326 0
warsaw+"siedlce" 0.0002019162138 0
warsaw+"city council" 0.00020002797 0.03139423077
warsaw+"holy cross church" 0.0001997187296 0
warsaw+"neighbourhood" 0.0001979168019 0
warsaw+"kampinos forest" 0.0001962123284 0
warsaw+"otwock" 0.0001956310034 0
warsaw+"operation tempest" 0.0001892946485 0
warsaw+"visitor" 0.0001864010355 0
warsaw+"lichtenberg" 0.0001823971034 0
warsaw+"gazeta wyborcza" 0.0001767865335 0
warsaw+"osage river" 0.0001698993877 0
warsaw+"sopot" 0.0001686430784 0
warsaw+"adolf hitler" 0.0001639562623 0.02778846154
warsaw+"lublin voivodeship" 0.0001609737564 0
warsaw+"attraction" 0.000160270252 0.2490384615
warsaw+"kalisz" 0.0001594741085 0
warsaw+"higher education" 0.0001594571251 0
warsaw+"narrative" 0.0001585052329 0
warsaw+"prudential warsaw" 0.0001577431311 0
warsaw+"warsaw pact states" 0.000153833718 0
warsaw+"bonn" 0.0001521606372 0.2240384615
warsaw+"coventry" 0.0001500113552 3.163461538
warsaw+"market square" 0.0001491982655 0
warsaw+"second polish republic" 0.000140977298 0
warsaw+"world bank" 0.0001389565733 0
warsaw+"fort wayne" 0.000136518359 0.3014423077
warsaw+"hancock county" 0.0001353717299 0
warsaw+"ulica" 0.0001304449694 0
warsaw+"esperanto" 0.0001284924012 0.01802884615
warsaw+"brandenburg" 0.0001277065518 0.09759615385
warsaw+"harbin" 0.0001252765199 0
warsaw+"hanoi" 0.0001209524211 0
warsaw+"trinity church" 0.0001201254681 0
warsaw+"anti communist" 0.00011888045 0.009230769231
warsaw+"grand theatre" 0.0001160405613 0
warsaw+"richmond county" 0.0001159208463 0
warsaw+"lake city" 0.000115145414 0
warsaw+"civic platform" 0.000107874225 0.002610576923
warsaw+"malbork" 0.0001073301934 0
warsaw+"vatican city" 0.0001036328838 0
warsaw+"rio de janeiro" 0.0001022472711 0
warsaw+"socialist realism" 9.86E-05 0
warsaw+"medical school" 9.85E-05 0
warsaw+"senator" 9.84E-05 0
warsaw+"grand theatre warsaw" 9.77E-05 0
warsaw+"constitution square" 9.68E-05 0.0006538461538
warsaw+"gallatin county" 9.67E-05 0
warsaw+"pictorial" 9.60E-05 0
warsaw+"belweder warsaw" 9.60E-05 9.76E-05
warsaw+"hamamatsu" 9.46E-05 0
warsaw+"ohio river" 9.40E-05 0
warsaw+"modern art" 9.39E-05 0
warsaw+"east berlin" 9.32E-05 0.01836538462
warsaw+"north bridge" 9.29E-05 0
warsaw+"transylvania" 9.22E-05 0
warsaw+"barbakan" 8.85E-05 0.002663461538
warsaw+"partitions of poland" 8.75E-05 0
warsaw+"silesian voivodeship" 8.75E-05 0
warsaw+"belweder warsaw poland" 8.73E-05 9.62E-07
warsaw+"tourist attraction" 8.71E-05 0
warsaw+"ochota" 8.45E-05 0
warsaw+"radio station" 8.38E-05 0
warsaw+"public transport" 8.37E-05 0
warsaw+"personal narratives" 8.24E-05 0
warsaw+"henryk sienkiewicz" 8.19E-05 0
warsaw+"all saints" 8.06E-05 0.01100961538
warsaw+"warsaw metro stops" 8.06E-05 0
warsaw+"economic growth" 8.04E-05 0.05576923077
warsaw+"world heritage" 7.94E-05 0
warsaw+"holy trinity church" 7.92E-05 0
warsaw+"public space" 7.75E-05 0
warsaw+"art deco" 7.72E-05 0.01769230769
warsaw+"contemporary art" 7.55E-05 0.04855769231
warsaw+"holocaust victims" 7.53E-05 0
warsaw+"warsaw cave" 7.42E-05 0
warsaw+"barbakan warsaw" 7.40E-05 0.0003384615385
warsaw+"treblinka extermination camp" 7.37E-05 0
warsaw+"art museum" 7.27E-05 0.03254807692
warsaw+"alfred tarski" 7.24E-05 0.0004721153846
warsaw+"warsaw pact country" 7.19E-05 0
warsaw+"dwelling" 7.14E-05 0.03254807692
warsaw+"pope john paul ii" 6.89E-05 0
warsaw+"all saints day" 6.75E-05 0.001793269231
warsaw+"lot polish airlines" 6.67E-05 0
warsaw+"carpathian mountains" 6.46E-05 0.03110576923
warsaw+"skierniewice" 6.24E-05 0
warsaw+"hard rock cafe" 6.10E-05 0
warsaw+"insurance company" 6.10E-05 0
warsaw+"light rail" 5.98E-05 0
warsaw+"nazism" 5.95E-05 0
warsaw+"academy award" 5.94E-05 0.3951923077
warsaw+"democratic left alliance" 5.84E-05 0.003307692308
warsaw+"astana" 5.78E-05 0.4716346154
warsaw+"barbakan warsaw poland" 5.48E-05 1.01E-06
warsaw+"military operation" 5.47E-05 0
warsaw+"middle class" 5.41E-05 0
warsaw+"demographics" 5.37E-05 0.03769230769
warsaw+"rice county" 5.36E-05 0
warsaw+"warsaw west county" 5.19E-05 0
warsaw+"operation bagration" 5.15E-05 0
warsaw+"sea level" 5.14E-05 0
warsaw+"french language" 5.13E-05 0
warsaw+"pictorial works" 5.06E-05 0
warsaw+"foreign investment" 5.03E-05 0.2153846154
warsaw+"nature reserve" 4.90E-05 0
warsaw+"fortification" 4.80E-05 0.03413461538
warsaw+"kovel" 4.74E-05 0
warsaw+"association football" 4.74E-05 0.04951923077
warsaw+"polish united workers party" 4.65E-05 0
warsaw+"french army" 4.63E-05 0
warsaw+"konin" 4.62E-05 0
warsaw+"joseph conrad" 4.56E-05 0
warsaw+"andrzej wajda" 4.42E-05 0.004274038462
warsaw+"frankfurt am main" 4.34E-05 0
warsaw+"office building" 4.27E-05 0
warsaw+"daewoo" 4.14E-05 0.007788461538
warsaw+"burgher" 3.98E-05 0.008894230769
warsaw+"grozny" 3.95E-05 0
warsaw+"auschwitz concentration camp" 3.80E-05 0.002908653846
warsaw+"prisoner of war" 3.72E-05 0
warsaw+"municipal government" 3.60E-05 0
warsaw+"unemployment rate" 3.58E-05 0
warsaw+"war crime" 3.53E-05 0
warsaw+"great northern war" 3.49E-05 0
warsaw+"city planning" 3.37E-05 0.08509615385
warsaw+"walsh county" 3.22E-05 0
warsaw+"roman polanski" 3.16E-05 0
warsaw+"bletchley park" 3.04E-05 0.005336538462
warsaw+"stara" 3.03E-05 0
warsaw+"karol szymanowski" 3.02E-05 0
warsaw+"slavic languages" 3.01E-05 0
warsaw+"radomsko" 2.95E-05 0
warsaw+"film production" 2.95E-05 0.008221153846
warsaw+"enigma machine" 2.94E-05 0.007788461538
warsaw+"military decoration" 2.93E-05 0
warsaw+"strategic bombing" 2.82E-05 0
warsaw+"religious communities" 2.81E-05 0
warsaw+"lesser poland voivodeship" 2.72E-05 0
warsaw+"national democracy" 2.61E-05 0
warsaw+"loughborough university" 2.59E-05 0
warsaw+"berlin philharmonic" 2.55E-05 0.07980769231
warsaw+"vienna circle" 2.53E-05 0
warsaw+"high jump" 2.49E-05 0
warsaw+"khmelnytsky uprising" 2.40E-05 0
warsaw+"military campaign" 2.37E-05 0
warsaw+"constitutional monarchy" 2.34E-05 0.05817307692
warsaw+"silver screen" 2.33E-05 0
warsaw+"swedish empire" 2.31E-05 0
warsaw+"underground movements" 2.19E-05 0
warsaw+"landscape architecture" 2.18E-05 0
warsaw+"napoleon i" 2.02E-05 0
warsaw+"wolin" 1.98E-05 0
warsaw+"private universities" 1.93E-05 0
warsaw+"regional rail" 1.91E-05 0
warsaw+"kampinos national park" 1.86E-05 0
warsaw+"ethnic relations" 1.86E-05 0.03423076923
warsaw+"persecutions" 1.84E-05 0
warsaw+"fresno county" 1.84E-05 0
warsaw+"plac teatralny" 1.82E-05 0
warsaw+"ukrainian diaspora" 1.81E-05 0
warsaw+"pope paul vi" 1.78E-05 0
warsaw+"prussian army" 1.77E-05 0
warsaw+"free french forces" 1.77E-05 0
warsaw+"architectural style" 1.73E-05 0.02206730769
warsaw+"irene adler" 1.70E-05 0
warsaw+"united states army" 1.70E-05 0
warsaw+"warsaw stock exchange" 1.70E-05 0
warsaw+"apartment building" 1.66E-05 0.01043269231
warsaw+"curzon line" 1.63E-05 0.002504807692
warsaw+"massacres of poles in volhynia" 1.63E-05 0
warsaw+"charlottenburg" 1.59E-05 0.1826923077
warsaw+"saint andrew" 1.58E-05 0
warsaw+"black walnut" 1.57E-05 0.09807692308
warsaw+"pole vault" 1.52E-05 0
warsaw+"broadcaster" 1.51E-05 0.5865384615
warsaw+"mtv networks" 1.49E-05 0
warsaw+"kamienica bornbachowska warsaw" 1.47E-05 0
warsaw+"kamienica bornbachowska" 1.47E-05 0
warsaw+"movie theater" 1.42E-05 0
warsaw+"interfax" 1.41E-05 0
warsaw+"madeleine albright" 1.40E-05 0
warsaw+"planned community" 1.40E-05 0
warsaw+"pine forest" 1.39E-05 0
warsaw+"religious freedom" 1.39E-05 0
warsaw+"historical period" 1.38E-05 0
warsaw+"european parliament constituencies" 1.32E-05 0
warsaw+"varsovian" 1.32E-05 0
warsaw+"tomb of the unknown soldier" 1.32E-05 0
warsaw+"saki" 1.27E-05 0
warsaw+"city counties" 1.27E-05 0.002673076923
warsaw+"isaac bashevis singer" 1.24E-05 0
warsaw+"munich massacre" 1.23E-05 0
warsaw+"filmmaking" 1.22E-05 0.2610576923
warsaw+"plac teatralny warsaw" 1.22E-05 0
warsaw+"ulica smolna warsaw" 1.22E-05 0
warsaw+"ulica smolna" 1.22E-05 0
warsaw+"fields medal" 1.20E-05 0.005961538462
warsaw+"documentary film festivals" 1.19E-05 0.3557692308
warsaw+"sigismund ii augustus" 1.16E-05 0
warsaw+"nisan" 1.16E-05 0
warsaw+"warsaw uprise museum" 1.15E-05 0
warsaw+"talmud torah" 1.14E-05 0
warsaw+"nature conservation" 1.11E-05 0
warsaw+"central intelligence agency" 1.08E-05 0.008221153846
warsaw+"gross domestic product" 1.08E-05 0
warsaw+"maidenhair tree" 1.08E-05 0
warsaw+"lusatia" 1.08E-05 0
warsaw+"mastercard" 1.06E-05 0
warsaw+"stanley kubrick" 1.05E-05 0
warsaw+"ulmus americana" 1.03E-05 0
warsaw+"domino theory" 1.01E-05 0.01192307692
warsaw+"foreign relations of belarus" 1.01E-05 0
warsaw+"foreign relations of estonia" 1.01E-05 0
warsaw+"foreign relations of finland" 1.01E-05 0
warsaw+"polish state railways" 1.01E-05 0
warsaw+"town house" 9.53E-06 0
warsaw+"steel mill" 9.51E-06 0
warsaw+"john f kennedy international airport" 9.30E-06 0
warsaw+"deserted settlement" 9.14E-06 0
warsaw+"housing project" 9.07E-06 0
warsaw+"ulmus parvifolia" 8.95E-06 0
warsaw+"gas works" 8.83E-06 0
warsaw+"buildings structures" 8.63E-06 0.01336538462
warsaw+"charles x gustav of sweden" 8.52E-06 4.42E-06
warsaw+"foreign relations of canada" 8.52E-06 0
warsaw+"foreign relations of croatia" 8.52E-06 0
warsaw+"foreign relations of italy" 8.52E-06 0
warsaw+"foreign relations of the republic of ireland" 8.52E-06 0
warsaw+"border control" 7.75E-06 0.03024038462
warsaw+"national library of poland" 7.75E-06 0
warsaw+"russo polish war" 7.75E-06 0
warsaw+"visitationist church" 7.75E-06 0
warsaw+"juglans nigra" 7.45E-06 0
warsaw+"scouting museums" 7.18E-06 0
warsaw+"flag of poland" 6.97E-06 0.0030625
warsaw+"royal castle warsaw" 6.97E-06 0
warsaw+"public housing" 6.92E-06 0
warsaw+"personal narratives polish" 6.60E-06 0
warsaw+"legislative power" 6.39E-06 0
warsaw+"koleje mazowieckie" 6.20E-06 0
warsaw+"pseudotsuga menziesii" 6.19E-06 0
warsaw+"prime meridian" 6.17E-06 0
warsaw+"panel painting" 5.88E-06 0
warsaw+"intensive care unit" 5.66E-06 0
warsaw+"pock" 5.59E-06 0
warsaw+"francisco goya" 5.44E-06 0.01990384615
warsaw+"foreign relations of cyprus" 5.42E-06 0
warsaw+"foreign relations of hungary" 5.42E-06 0
warsaw+"gare du nord" 5.42E-06 0
warsaw+"ignacy krasicki" 5.42E-06 0
warsaw+"konfrontacja sztuk walki" 5.42E-06 0
warsaw+"vaslav nijinsky" 5.42E-06 0
warsaw+"cyfrowy polsat" 4.65E-06 0.01548076923
warsaw+"poczta polska" 4.65E-06 0
warsaw+"wyoming county new york" 4.65E-06 0
warsaw+"christian national union" 3.87E-06 0.002985576923
warsaw+"foreign relations of lithuania" 3.87E-06 0
warsaw+"mily balakirev" 3.87E-06 0
warsaw+"world war ii crimes in poland" 3.87E-06 0
warsaw+"commemorative plaque" 3.82E-06 0.006778846154
warsaw+"reversi" 3.82E-06 0
warsaw+"ginkgo biloba" 3.55E-06 0
warsaw+"southern united states" 3.10E-06 0
warsaw+"foreign relations of argentina" 2.32E-06 0
warsaw+"foreign relations of armenia" 2.32E-06 0
warsaw+"foreign relations of latvia" 2.32E-06 0
warsaw+"foreign relations of poland" 2.32E-06 0
warsaw+"foreign relations of the netherlands" 2.32E-06 0
warsaw+"lithuanian soviet socialist republic" 2.32E-06 0
warsaw+"sergey brin" 2.32E-06 0
warsaw+"south african air force" 2.32E-06 0
warsaw+"the honeymooners" 2.32E-06 0
warsaw+"john irving" 2.30E-06 0
warsaw+"valerius" 2.30E-06 0
warsaw+"kate mosse" 1.79E-06 0
warsaw+"coshocton county" 1.55E-06 0.005
warsaw+"dunkin donuts" 1.55E-06 0.003399038462
warsaw+"peoples republic of china" 1.55E-06 0
warsaw+"united states post office" 1.55E-06 0
warsaw+"brask" 1.52E-06 0.002634615385
warsaw+"joy division song" 1.52E-06 0
warsaw+"berlin border crossings" 7.75E-07 2.40E-06
warsaw+"foreign relations of albania" 7.75E-07 0
warsaw+"foreign relations of australia" 7.75E-07 0
warsaw+"foreign relations of luxembourg" 7.75E-07 0
warsaw+"foreign relations of romania" 7.75E-07 0
warsaw+"foreign relations of slovakia" 7.75E-07 0
warsaw+"foreign relations of sri lanka" 7.75E-07 0
warsaw+"foreign relations of syria" 7.75E-07 0
warsaw+"foreign relations of turkey" 7.75E-07 0
warsaw+"jewish political movements" 7.75E-07 0
warsaw+"languages of the united states" 7.75E-07 0
warsaw+"moscow military district" 7.75E-07 0
warsaw+"roads in ireland" 7.75E-07 0
warsaw+"warsaw business journal" 7.75E-07 0
warsaw+"warsaw international film festival" 7.75E-07 0
warsaw+"corylus colurna" 5.08E-07 0.0002418269231