Att skapa distribuerade vektorer för flergram koncept från distribuerade vektorer för ord

2016-07-11

Detta är ett arbete ej helt slutfört för mig så för nu avgränsar jag till några intressanta egenskaper.


Poängen med att utgå från distribuerade vektorer ord är effektiviteten. De blir relativt begränsade i antalet: För mig cirka 500 000 ord medan bara givna flergrams-koncept jag hanterar som kända är närmare 3.5 miljoner. P.s.s. lättare att sampla. Vidare om begränsningar detta innebär kontra flergrams-koncept kan hanteras går det att se som en väl separerad datatyp med föga avancerad inverkan ej nödvändig om bättre tillgängliga alternativ externt kommer att göra själv.


Vi vill därför se ordrepresentationen som given konstant under längre tid medan det är önskvärt för flergrams-koncepten att kunna kontinuerligt räkna dem från ex. varje dags data (efter viss grundkörning).


För vektorkvantifiering (där jag använder en egen variant med första utgångspunkt SOM / Kohoonen men för att fungera bra för 3.5 miljoner grund-koncept under förträning resp. diverse obestämt större mängder title-headings). I princip har vi tre enkla sätt att skapa varje flergrams-koncept från ord-vektorerna avseende data vi skickar in i SOM-algoritmen (andra varianter inkluderande neuronnät, träning av diverse vikter m.m. finns publicerade varav viss vikthantering kan ge något värde även om själva den efterföljande processen ersätter mycket av behovet - huvudsakligen för mig viss förståelse av konceptens uppbyggnad snarare än träning ex. mönster i Wikipedia-kategorier för snabb-parsning: Persons from Sweden born 1811 ... EVENT ... o.s.v.):


1. För flergrams-koncept naturligt bestående av avgränsande "noun-topics" är det mycket rakt på sak att addera ord-vektorerna för efterföljande normalisering. Blandning i underliggande samplings-värde kan ge störningar. Med de vanligaste algoritmerna för att skapa ord-vektorerna kan låg-samplade ord tendera att uttrycka högre snarare än lägre likhet ej avspeglande nivå osäkerhet i data (vilket ej känns praktiskt att försöka lösa genom viktning sannolikhet: snarare medvetenhet om risken så att sämre data ej propageras).


2. Vi kan vidare kombinera i vad jag kallat min datatyp för som korrelation. Tänker vi oss ett koncept bestående av två ord kan vi reducera resp. ords förmåga att föra vidare nivå på information uttryckt över resp. position i vektorn utifrån nivån av det andra ordet på samma. Det går att göra mycket funktionella varianter här som kombinerar positionerna med övriga dimensioner i tur och ordning och summerar det hela (diverse standard-koncept från linjäralgebra visar sig här - för första gången efter mer än 20 år tror jag direkt motsvara en algoritm såväl vara vad jag eftersökte i den samma kursboken).


Emellertid är de slöa och för de vanligaste typerna av distribuerade ordvektorer adderar här tycks det för mig föga värde jämfört med att göra det samma endast position mot position. Operationen i sig här via multiplikation är ensam ganska begränsad. Dess värde är det samma som när vi beräknar likhet med cosinus-similarity (d.v.s. co-correlation skattat som kvadraten) medan begränsningen är att det i sig ej bra fångar mängden information vi vill att den ska begränsa meningsfullt formad till det del-orden tillsammans mer har tillsammans.


Man kan uppleva att behovet av det övriga värdet är vad man enkelt ska hitta några enkla standard-funktioner i relevanta artiklar att testa. Emellertid är mycket publicerat snarare mot andra användningsområden än vi söker här bl.a. med stort fokus träna enskilda konstanter eller definiera operatorer för sådant som adjektiv-noun operationer krävande att dyrare matriser skapas upp (samma problem som min första variant: långsamt). Att se den summerade ej normaliserade utsträckningen av orden som hela rymden att styckvis begränsas av multiplikationen med när genomfört normalisering fungerar emellertid utmärkt för att skapa denna typ av indata till algoritmen (är det snarare slut-resultatet kanske man vinner en del på att introducera tränade konstanter i summeringen eller någon annan operation än multiplikation där jag förövrigt prövade van vid det från en massa annat man gör på data utan särskild teori att beräkna co-variansen på vektorernas positioner vilket fungerar något lite bättre men ej nog motiverat utökad kostnaden: Lite samma sak inser).


( x(i) * y(i) ) * ( K1(i) * x(i) + K1(i) * y(i) )


En udda variant jag ej använde skarpt men prövade på testfallen är att ta endast multiplikationen och förflytta den till samma storleksordning som indata. För två-gram att ta roten-ur resultatet. Indata sträcker sig [-1, 1] för mina vektorer vilket kan hanteras ex. via polära-koordinater (om vi ej bara flyttar ut minustecknet vilket är ej helt fel men ej seriöst jämfört lika lite som övrigt i denna variant med övriga metoder) som ju är ofta använda inom bl.a. elektricitet-fysik och dylikt där man kan återupptäcka en mängd räkna-exempel på vektor-fält m.m. medan man söker lämplig funktion för detta.


3. Ordvektorerna direkt. Vi kommer inse lättare i andra steget under själva träningen att detta såväl fungerar som uttrycker något önskvärt kompletterande resp. övrig metod för att ej (riskera skriver jag för att gardera mig mot att kanske ha fel) tappa information.


4. Representationer skapade från de relationer resp. flergram har med andra ord. Jag har här min vetskap om dessa samlade i min större datatyp Bluelight med tror jag några hundra miljoner förstådda relationer för nuvarande använd version här ca 3.5 miljoner flergram. Förstådda i mening generellt som att relationer är upparbetade från organiserat data d.v.s. ex. kategori-system, thesaurus m.m. (många tusen sådana), Wikipedia, journaler o.s.v. samt att brutal data-sampling datakällor internet har statistik samförekomst för resp. koncept i relation med varandra.


Detta höjer värdet kraftigt på ordvektorer genom att tillföra sådan information som ex. tas som given att man förstår i en text och därför ej uttrycks. Uttrycks informationen ej i texten samman med ordet ord-vektorn skapas från kommer den ej med. Mer praktiskt tydligt här i följande steg snabbar det upp såväl som ger adderad exakthet i resultatet vi får genom att relationer till koncept uttryckande ex. vad ett koncept här finns, relevanta händelse-datum (för fältslag m.m.), relevanta geo-platser o.s.v. För ett koncept likt ett land som typiskt har väldigt många och varierade relationer (kontra ex. konceptet location som är i särklass störst i antal relationer men där relationerna är mindre varierade) har vi ofta några tio tusen relationer som data samförekomst finns för.


Dessa fyra representationer där vi i varje fall efter varje beräkning in-vektor från ord-vektorerna har 400 positioner (minsta antal jag kände mig trygg med) tränas separat (jag har prövat en del andra varianter utnyttjande två tillsammans samtidigt men det är mindre effektivt och ev. ej fungerande sunt) enligt följande SOM-variant:


1. Vi önskar den topologiska organisation Kohoonen-näten ger därför att detta kan vi här använda för att få mycket mer av meningsfullt förstådda vektorer i slutresultatet (stegen efter träningen). Vi kan ta en vektor och förstå den ungefär direkt vilket gör diverse andra algoritmer utnyttjande datat enklare att utveckla och underhålla.


a. Den visuella kopplingen som är vad jag tror mer än andra värden gjort Kohoonen-näten populära ser jag föga värde med här. Istället tränar och bygger vi en meningsfullt organiserad "kurva" (kurvan ges när vi efteråt reducerar ner varje tillstånd till ett ensamt värde för ett koncept ex. via similarity och skapar den nya vektorn från dessa tillsammans i samma ordning).


b. Ofta diskuterat värde med Kohoonen är att organisationen gärna tenderar att uttrycka distributionen på datat. Emellertid tror jag att vi för denna typ av indata med försiktighet utnyttjar metoder annars vanliga i form av reduktion konstanter och grannskap kontinuerligt med epoker. Detta förenklar resonemang distributionen. Vidare när en epok nu går över ca 3.5 miljoner flergrams-koncept där förvisso grupper som hör samman finns görande tänkbara reduktioner i antal sample per epok möjliga men ej heller självklara att kvantifiera innan vi ex. gjort något motsvarande just vad vi gör är hela konceptet att reducera grannskap och träningskonstant med antal epoker tämligen esoteriskt. Det tar tid att gå igenom 3.5 miljoner koncept. Mycket funktionellt är att efter kanske viss brett grannskap några timmar tills hyggligt meningsfull sortering (geo-koncept tycks komma efter varandra, person-namn olika kultur efter varandra med ej konstig sortering skärande mot geo-närhet d.v.s. kinesiska namn med kinesiska, engelska namn med engelska o.s.v. och asiatiska namn-kulturer bredvid varandra o.s.v.) sätta det på en tydligt lägre konstant än vanligen normalt diskuterat (något relaterat antalet koncept kanske) och slumpa så gått det nu går (jag kör konstanta filer skapade slumpmässigt för ordningen men som ej skapas om alt. för en grupp fil sorterade alfabetiskt där jag slumpar antalet koncept som hoppas över medan BDB tenderar att vara för långsam för mig) så att vi ej skadar korrelation vi vill samla med mer självklar men ointressant sådan (ex. få en dimension med alla personer som har förnamn Peter) såväl som konstant grannskap.


Värdet grannskaps-spridning är förutom att se till att vi får meningsfull sortering här också att:


1. Tagande bort hela problematiken med outliers vi ofta annars får vi clustering. D.v.s. ett tillstånd initieras eller sätts via koncept avvikande mer utifrån någon bedömning för att visa sig bli ensamt. Spreading activity mellan tillstånd kommer åtminstone vid konstant grannskap och konstant tränings-konstant garantera att det ej uppkommer (om ej antalet tillstånd är samma som antal ord).


2. Tid för meningsfull konvergens eller clustering reduceras.


3. Problem lokala minimum eller förflyttning mellan två eller ett fåtal tillstånd blir lätt att hantera. Denna problematik tvivlar jag starkt på är möjligt att få på all görlig tid när så många koncept indata tränas. Men för färre samlingar ser man det ibland (ex. nyligen några tusen ord - ej flergram - relaterade information såväl information science som bibliotek och slå i böcker m.m. vi gör eller resonerar). Adderande på några fler relevanta ord under förutsättning spreading löser regelmässigt det hela utan att man tycks ta någon utökad annan kostnad i tid.


I min variant definieras grannskapet ej endast av omedelbara grannar som för de vanligare 2D Kohoonen-näten utan fallande från antal steg vi är från det tillstånd som segrade. Det är svårt att se att nivå effekt av grannskapet är särskilt känsligt (helt annorlunda från att köra några tusen ord-vektorer på 10 till 300 tillstånd: Här för koncepten används alltid 300 vektorer vilket är mitt högsta - där stor skillnad går att se) och jag har inte lätt på totalt kanske som mest följt 20 - 30 miljoner tränings-operationer se någon relevant skillnad mellan att göra grannskap enligt:


Vinnare: 1.


Närmaste granne resp. sida 0.5 eller 0.25 (ibland hanterar jag rand-tillstånden genom att beräkna distans modul antalet tillstånd men ej för dessa).


Därefter om distans är större än något tröskelvärde exempelvis för bättre prestanda 5 - 7 eller säkrare men dyrare kanske 20 - 40 steg returnerar vi 0.


Annars beräknar jag typiskt värdet med antingen 0.5 eller 0.25 delat med distansen. Det ger en ganska vettig reduktion med resp. steg. Normalfördelad reduktion d.v.s. användande en exponentiell funktion tycks populärt. Summerande reduktionerna över alla träningsoperationer bör dock normalt ge normalfördelning vid konstant träningskonstant och grannskap. Någon poäng med här större värde av att hålla nere grannskapet samtidigt som vi har en topologisk-dimension med att använda funktioner finns heller inte. Vi kan för-beräkna varje konstant och hårdkoda.


Tidigt reducerade jag normalt med 2-potenser. 1/2, 1/4, 1/8, 1/16. Men tror varianten ovan är sundare åtminstone i mening att det är lättare att se såväl som att föga samman med storlek grannskap meningsfullt (vi kan ju med resp. variant inte ha hur stort grannskap som helst och räkna med en effekt påverkande därför att pay-load efter några steg blir för låg - naturen av detta skiljer sig något från när vi istället för mer begränsat indata vi kan köra flera hundra tusen gånger).


Resp. tillstånd av de 300 segrande i mening uttryckande högst similarity enligt två algoritmer (en för samtliga utom den använda relationer som använder två) och viktigast cosinus-similarity (på normaliserade vektorer så summan av multiplikationer för resp. position) får modifiera tillståndet på vanligt sätt för alla varianter av vektor-kvantifiering (och för den delen ganska likt en den del Newtons åldrade algoritmer för att beräkna integraler).


Färdigt har vi 300 * 4 dimensioner. Framför dessa kan vi nu exempelvis träna perceptroner eller annat hebbianskt meningsfullt exempelvis om man önskar ha en beslutspunkt om ett koncept är person (vi kommer här eftersom utsträckning tillstånd avspeglar distributionen koncept ha mängder av dimensioner relaterade geografiska koncept såväl som historiska såväl som nulevande personer) genom att träna perceptronen att värdera samtliga person-dimensioner (oavsett association namn-kultur eller tid i historien, eller roll) medan övriga får föga eller 0 i vikter. Jag har ännu ej sett annat än att snabba varianter med en vikt per tillstånd snarare än igen göra motsvarande vektor-kvantifiering genom att stega de 400 dimensioner ger perfekt (0 defekta beslut över test 200 - 400 000 ord resp. cirka 80 000 två-gram koncept) resultat vilket gör denna träning fascinerande snabb jämfört med föregående steg (någon minut eller två kontra flera veckor).


Vidare har vi utgångspunkten att skapa vektor-representationerna för godtyckliga koncept. Oavsett om title-heading, ett fler-gram koncept av samma typ vi tränade på (ex. vector quantification) eller för den delen ord, får vi representationen exempelvis genom att beräkna likheten mellan indata för konceptet gjord efter vettig metod (vi är föga begränsade här så länge vi ej ogenomtänkt jämför mellan olika metoder) med varje tillstånd vilket maximalt här ger 1200 dimensioner (praktiskt lär jag reducera ner en gång till i ett sista steg men detta är ej gjort och det återstår att se hur det om så görs.


Viss dynamik träder in rörande ord kontra tydligast fler-gram koncept med representationer skapade med summerat och normaliserat. Ord som är platser kan ex. för dimension de är mest lika av och till hamna på dimensioner som egentligen för flergram kommer vara dominant begränsade till orter med tilläggs-data så som något från ort och varianter av det. Medan motsvarande problematik ej är vad jag typiskt upplever stör omvänt. Oavsett vilket vi gör - flergram till ord-tränade dimensioner eller tvärt-om - gäller dock att vi får mycket mer förståelse av vad det handlar om av att betrakta mer än just bara vinnande dimension (ord till flergram att vi har likhet över flera geo-associerade dimension men kanske ligger lågt på person-koncept förklarande ut ev. högt värde på ex. något som för fler-gram samlat koncept med personer, händelse och platser inom en stad) och för fler-gram kan vi ej utgå från att vi klarar oss med färre i utgångspunkt inför efterföljande beräkning och tolkning än vi har ord (och snarast fler än så).


Speciellt i samma kontrast är vidare att ord i träning oftare är sämre förstådda. Flergram koncept är typiskt "punkt-vetande" i större ämnen (physical chemistry inom kemi o.s.v.), entiteter så som personer, platser, varumärken, företag, organisationer, eller "punkt-vetande" positionerat i händelse, tid och rum, eller vilket ibland friare såväl som kanske oftare (men absolut ej unikt just för detta egentligen) kombinerar mellan allt sådant som är kultur-relaterat där en större andel ibland dominant så kan ligga på den abstrakta beskrivningen av något. Ord kan dock ofta ta olika roller. De kan motsvara koncept närmare entiteter eller punkter men kan ofta lika gärna användas för att beskrivna något. Vidare har vi ju operator-ord så som tydligast kanske för ex. if, the, and och or. Ordets varierade natur inte bara avspeglar aspekter av dess mening genom samtidigheten andra ord utan också omfånget och densiteten av denna.


Det är lätt idag att förstå detta omfång och densitet felaktigt när externa datakällor används. Vi värderar ju ex. tämligen unika ord men ovanliga normalt högre via sådant som inverse document frequency. Sådan användning ställer dock krav på en sund grundnivå i förståelse av det data man samplar. Jag noterade några ord-distributioner byggda externt som liksom jag själv (tills detekterat felkontrollen tämligen tidigt testande just ovanliga ord) fick enstaka problematiska ordvektorer. Orsaken ligger i ofta använda datakällan Wikipedia.

Wikipedia har förutom själva artiklarna kategorisystem resp. listor. Båda kombinerar relaterade koncept med varandra. Sådant som växter, djur m.m. Ibland abnormt ovanliga i löpande text. Kan där samförekomma med ordentligt många varierade ord i bästa fall inom ett ändå avgränsat ämne men via kategori-systemet förutom listan också av och till breda koncept i flertal såväl som bildtexter föga relevanta. Beroende på algoritm dimensions-reduktionen görs med kan detta ge mindre men märkbara problem (de två jag använda såväl mer kända LSA resp hotelling-transformationen samt i två en variant sannolikhet som utnyttjade halv-fabrikat data redan reducerat tänkt att ta externt data) eller vill jag tro (men kan ej bedöma det havande ej kört dessa algoritmer alls själv) mer för den lite nyare jag ej minns namnet på nu men tror någon medarbetare som har bluelight relationer Microsoft Research (men ej framgår om arbetat där) såväl som Google medan algoritmer har BL-relationer Google också direkt. Den finns också ofta länkad till en sida associerad Google. Jag är nästan 100% säker på att det är samma person som publicerade några artiklar med exempel på additionen och subtraktioner med ordvektorer så som kung minus man + kvinna för drottning: Mikolov är det och Google's sökförslag ger oss word2vec vilket helt säkert är namnet jag sökte och mer exakt är det kanske CBOW delen det handlar om.


Dessa ord-vektorer blir promiskuösa. Ofullständigt data ger sannolikt oftare överdriven likhet än som normalt önskvärt som princip reducerad sådan. Något av linjär-reduktion där exponentiellt snabbt fallande hade varit säkrare kanske. Finns nu något annat område man kan spekulera vi kan se samma sak? Av betydelse i mer spännande områden som big-money, cloak and dagger, och övervakning av alla jordens världsmedborgare istället för mer nördiga ord som bara förekommer som del av latinska blommor eller svamp-organismer? Det finns ingen mening som jag ser i något besläktat vad jag beskrivit här (d.v.s. koncept-vektorer - betänkt ex. namn, orter m.m. där kopplingen kultur, mening, namn och språk är uppenbar) att använda ordvektorer bara för ett språk. Utan vi utgår givetvis från ordvektorer för om inte alla språk så för ett försvarligt sample av de ej helt små (så kan man också roa sig med sådant som att köra in UWN cross-culture Wordnet (som jag sorterade den medan jag såg nu att Max-Planck ser den mer som cross-language vilket utan tvivel är korrektare) Wordnet-varianten och få namn förekommande idag i svenska, norska, danska, engelska positionerade långt före spanska m.m. när reduceras av mängden 1100-tals engelskan - inflyttnings-antal betyder allt här).


Ty ej olikt hur UWN skapats automatiskt lär sig alla möjliga maskin-intelligenser att översätta (såväl äldre som färskare algoritmer). Och ofta nog kan definition av ett ord i ett språk vara mager fullt naturlig. Eller expanderad ganska onaturligt egentligen likt våra växter och svampar. Wiktionary såväl som Wikipedia och tänker jag nog fler Wiki-projekt är fantastiska datakällor här. Och i denna domän tänker jag nog ett och annat similarity-överdrivande från samma mekanism algoritm såväl som Wiktionary-indata kan uppstå (jag hittade upp till ett tusental: själva metoden inkluderar nu manuellt tittande på rangordnade ord där man storligen begränsas av dom egna språkkunskaperna så lätt spekulerat från att mindre vanliga ord enligt mitt data olika aspekter internet d.v.s. uddare språk tenderar att vissa högre likhet än jämförbara tyska.


Vi får hoppas att muslomanerna ej utnyttjar Wiktionary's pro-stalinistiska kategori-struktur för att införa teokrati här i Sverige. I bästa fall har totalförsvaret tänkt igenom detta och krigsplacerat åtminstone ett hundratal bibliotekarier som kan gå inom svenska Wiktionary om förändring statsskick i andra mindre språkområden gör hotbilden mer aktuellt.


    Kriget var hårt men det kändes bra för alla när vi åt lunch att en av oss hade behövt slå upp ett fakta i en tryckt bok: Då vet man att det är en trovärdig kategori man stärker upp det svenskhets-mur-segmentet ordet representerar. Faktiskt fick Bosse cykla hela vägen från Boden till "sitt" länsbibliotek hemma i Flen där han mindes var boken fanns i hyllorna. "Den finns nog bara på dom gamla biblioteks-korten" sa han och cyklade iväg. Bosse's hjältedåd räddade oss alla där andra svenskars lata kontinuerliga kultur-förräderi ej skrivit ordet naturligt på flera hundra år görande sund sampling möjligt. Sådant klarar inga bibliotekarier från Stockholm vana vid buss, tunnelbana eller rent av miljöfarlig icke-kollektiv eller cykel-transport och kommunalt bredband av utan för det krävs någon formad av landsortsbibliotekets dagliga primitiva helvete för att orka.

Ett statligt kommun-bidrag säg kombinerande hanterande flykting-arbete med strids-beredskap är förslagsvis sunt så att hela Sverige med alla dialekter kan försvaras. Då kan man ju få in moderaternas idé om att även flykting hemmafruar ska lära sig svenska (i övrigt står jag förvirrad om tankarna: Om jag har en hemmafru från en kultur där det ännu inte försvunnit är det då verkligen bra för familjen att hon ska lära sig språket i den flum-vänster-kultur som den svenska blivit när det kommer till familj-värderingarna? Är det inte bättre att vi respekterar att hon villa leva ut sina val hemma med barnen och matlagningen? Kan vi kanske förstöra något fint och vackert med svenska-undervisning? Jag som feminist kan känna det). Hemmafruarna lär sig svenska, feminist-skapar än mer som bok-soldater, och sprider svenska kunskapen vidare självorganiserat via biblioteket på sikt tagande bort kostnaden för organiserad svenska undervisning. Och efter några år när dessa hemmafruar nått ut med denna massa flyktingar på biblioteket kan säkert staten skära bort hela bidraget utan att kommunerna vågar säga upp dem. Effektivt - kostnadseffektivt - Försvarat. Sedan får vi svenskar ta att man inte alltid lär förstå vad de säger skapande upp naturligt samplings-data för ovanliga ord med det är nu en fråga för grundskolans moral-undervisning i svenskheten att förklara för folket som den glädje det korrekt är. Och kanske är just länsbiblioteket med dess obligatoriska besök av skolklasser dessa kvinnors naturliga hemvist några timmar mitt på dagen när hemmet och familjen så tillåter?


Ett mycket allvarligt område som ej bör trivialiseras på det sätt jag tänker ungdomarna gör när de funderar över yrkesval.
Vektor-kvantifiering är inte primärt att coolt rädda världen eller en väg för bibliotekarier att få en myckenhet av romantiska belöningar därefter utan ett hårt kvalitetsarbete fyllt av rädsla för att enstaka fel ska innebära att ett litet kultur- och språkområde som Sverige dör ut ersatt av det muslimska språket.


Självklart kan vi kanske roligare se värde hos enskilda medarbetare som får mer övertidspengar p.g.a. fler falska språkträffar (om vi reflekterar NSA påstådda analys-projekt). Något av samma natur (för att försöka få till en mjuk övergång till ett till skämt egentligen) som när individen upplever att Trump mer pratar till dem på Twitter där han uttrycker bredare ämnes-träffar mer varierade om så vill mindre stilistiskt tränade kultur-korrekta i det spontana utan att de nödvändigtvis bär mening just i det icke-emotionella där effekt kommer. Vi jämför talande och tror jag mycket korrekt (kul om det blir av att rita någon gång) med våra italienska första eller andra-generationens (bedömt engelskan) invandrare serverande Lufsen med kvinna, i Lady och Lufsen, mat: Han pratar med mig.


I övrigt har endast följande två inlägg publicerats av mig relaterat Trump:



Ska något från primärvalen adderas jag reflekterat i övrigt är just större variation spontan och mindre stilistisk på samma sätt som typisk för politiker i samma område (därmed inte sagt att Trump ej har något av samma sak men ovant för publiken). D.v.s. större diskriminerbarhet kommer naturligt när Trump implicit jämförs mot den inlärda bakgrunden för hur typiska budskap och typiska ord från politikerna direkt presenteras. Emellertid kompletterande den direkta diskussionen om Trump vs Hillary rörande vad Hillary-folket kan behöva fundera över kan läggas att Hillary nu faktiskt - mindre konkret tydligt vid tiden för inläggen kanske - har mött en Trump-variant om än i vänster-paketering och bör så väl behöver om hon ej mycket väl ska förlora presidentvalet lära av det. Fantastisk möjlighet hon gavs verkligen. Jag svårligen tänka mig motståndare som bättre kan förberett henne för Trump än Bernie Sanders gjorde. Vänligt av honom att ta tiden trots föga trolig segrare. Och verkligen tränande upp henne hela vägen utan när delvis vek prestation hos henne var tydlig släppande henne sista delstaterna.


Nå jag lär väl sammanfatta en del erfarenheter här några gånger till. Det har värdet att jag lättare minns det utan att behöva använda anteckningarna. Några exempel känns meningsfulla för läsarna där jag tror ett par existerande om än ej överdrivet stora grupper kanske rent av är lite intresserade av det här området allmänt. Den intresserade kan reflektera korrelations-vektorerna föga kommenterade alls. "Medelvärdes vektorerna" som indata har viktigt sido-värde att uttrycka distributionen av indatat i tillstånds-representationen också i mening av de i dom förekommande orden vilket gör att de behöver göras. Korrelationsvektorerna bör emellertid komplettera dessa för vissa koncept genom att också kraftigt smalna av dem (de visar annars natur i form av typisk likhet mer med vektorerna för orden - nästan exakt samma form - medan medelvärdes-vektorerna som väntat gärna spontant hamnar högre tagande in mer. Men jag har prövat mindre med dem post-träning ännu och jag tränar dem ej likt medelvärdes-vektorerna på alla koncept utan har bl.a. uteslutit två-gram (elegantare med givet mängden tre-gram och större tror jag det samma hade jag kunnat uteslutit personer uttryckta med två-gram resp. varande det samma som ord-vektorer såväl som medelvärdesvektorerna 1-gram).


Optimalt använder man dem konceptuellt motsvarande relationerna adderande utökad vetskap när meningsfullt men ej förvirrande annars. D.v.s. någon smart dimensions-reduktion krävs på det hela vilket återstår att inse hur man bäst gör så att daglig addering av nytt data kan pågå.