Indirekt identifikation av bias i similarity-operationer

2012-08-11
Associerat till similarity-problematiken berört mycket kortfattat i slutet av Thesaurus och ontologier: Enkel standard skapar större värde i verksamhetskunskap endast av intresse för de med viss kunskap om aktuell modell och god kunskap allmän kunskap om problemområdet.



Betrakta ett do-kontext utan att blanda in projektionen från aktuellt describe-kontext följande gäller utan modifikation i modell respektive algoritmer Warrior och de egna senare versionerna:



  • Symboler i aktuellt do bildar en gemensam symbol motsvarande deras konvergens till mening och tolkning.


  • Ex. för bild och bild-text.


  • Det är förvisso möjligt att konvergens till mening och därmed inte gemensam symbol är möjlig. Detta fall är viktigt för förståelsen för förslagen komplettering:
    • Detta kan ske ex. när do-kontext är dåligt eller felaktigt skrivet eller är på ett främmande språk. Sådana möjligheter beaktar vi inte.
    • Intressantare är fallen när relationer som uttrycker grundkunskap saknas.
    • Det är ex. inte troligt att någon som ej läst matematik på högskolenivå (eller ens alla av dom några år efter studierna) klarar att konvergera många av titlarna på artiklar publicerade i journaler rörande forskning inom matematik.



  • Konvergensen till mening och en symbol uttrycker med andra ord relationer i långsiktig kunskap (d.v.s. statiskt närhet mellan biologiska neuroner genom reducerad distans när dendrit-träden ändrar formar och p.s.s. integrerar över grupper av neuroner) och aktuellt do-kontext (vi behöver ej beakta describe-kontext därför att do-kontext föregår det och sätter primacy effect - enligt den vanliga bredare definitionen respektive att vi kan betrakta describe kontext liggande närmare skribenten medan do-kontext kan ses som dennes och/eller redaktionens respons på dess stimulans).




  • Vi noterar att symbolen vi konvergerar mot ej har kravet på sig att vara en symbol standardiserad på något sätt eller som vi har ord eller bild för. Den kan vara det men behöver inte vara det. När den inte är det är troligare att konvergensen som uttrycks huvudsakligen är tillfällig utan att kvarstående relationer mellan grupperna av neuronerna finns efteråt (d.v.s. mer krävs för inlärning som uttrycker denna och vi kan inte för enskild person bedöma hur troligt det är att ett do-kontext ger inlärning).



Vi expanderar respektive symbol i do-kontext och uttrycker Blue light feature similarity mellan dem. På det sätt det hittills korrekt ska göras (med efterföljande indikation om möjlig förändring) gäller att:

  • Varje symbol uttrycker similarity mot respektive övrig från sitt perspektiv.


  • Motsvarande i biologiska neuronnät (snarare än de enklare att anknyta till från hur vi resonerar om världen där vi ser likhet hos andra från vad vi själva vet medan vad vi ej kan något om hos dem sammanfattas till en stor dimma mindre viktig än konkret likhet viktig för oss) gäller att korrelation mellan något ej anslutet hos respektive symbol kräver att den ansluter till något nytt (ev. indirekt) för att avståndet ska minskas under antagande att denne redan uttrycker en inlärning som kan konvergera till denna neuron som slutmål.


  • D.v.s. från perspektiv av symbol i betraktande symbol k gäller att features hos symbol k existerande i symbol i uttrycker likhet och similarity samlat ges som funktion av dessa (med vikter) och storleken för symbol i.
Operationen fungerar excellent för varje situation där vi betraktar relationen mellan två symboler motsvarande statisk inlärning. Ex. om vi jämför vi t.ex. USA med Sverige från svenskt perspektiv. När vi betraktar ett do-kontext är dock frågan hur vi gör motsvarande operation om en jämförelse behöver göras. Problematiken blir större av att genom att vi rör oss i do-kontext gäller bara från som allmänt mått på beräkningskostnaden att gemensamma features mellan alla aktuella givna symboler kan handla om cirka 2000 - 40 000. Genom att konvergensen dessa uttrycker är just tillfällig är det mindre troligt att den kan hanteras via cache-beräkning innan. Optimeringar är möjliga genom att helt enkelt skära alla symboler med mindre än viss Blue Light Entropy men i praktiken ger det mätbart sämre resultat (avseende sådana subområden av Blue Light där relationer mellan symbolerna uttrycker en god mängd medan optimeringen ger jämförbart resultat för kunskapsområden som bäst ska kompletteras upp med fler relationer och symboler ex. motsvarande vad som skedde för Afrika i pågående uppdatering med cirka 7000 symboler och cirka 45 000 relationer).

Avstå från att betrakta similarity annat än som sammanhang för följande möjliga algoritm. Utgå från en praktiskt implementation av generering av Blue Light Entropy (troligt i en underkatalog Applications). Tidiga versioner inklusive Warrior använder ej similarity för att bättre få kostnaden för diversity i genereringen men ger praktiskt ändå utmärkt värden för allmänna värderingar av symboler. Enligt:

  • För varje symbol identifiera likhet med samtliga övriga. Ändra kod för att ej vikta mot dess storlek.


  • Vikta med statiskt storleks-distans enligt Blue Light Entropy.


  • Summera dessa och ev. vid behov normalisera för de givna symbolerna i aktuellt do-kontext.


  • Detta ger oss den aktiva kraften som endast uttryckt av den långsiktiga inlärningen som grundförutsättning till nuet utan påverkan av denna.
Uttryck den tillfälliga symbolen som den gemensamma likheten och de givna symbolerna. Om möjligt skär bort ett antal symboler som uttrycker lägre likhet. Högst ev. kanske det rent av går att skära allt förutom de 100 000 mest potenta symbolerna om de ej är likhet som samtliga givna symboler sett men mer troligt handlar det om att man kanske kan skära alla symboler från likhet endast en av de givna symbolerna noterat med en av de andra och att det får praktiskt betydelse för do-kontext med mer än 10 - 15 givna symboler (osäker då jag aldrig i mina implementationer haft hårdvara för att praktiskt sett värde i att hantera annat än minsta givna do-kontext per nyhet och jag gör ex. aldrig själv analys av bilderna ens via namn eller bildtext trots värdet för stora nyheter).

Kör nu algoritmen för generering av Blue Light Entropy. Ev. beroende på hur kostsam aktuell förenklad algoritm är relativt hårdvara begränsa det till för aktiverade symbolens relationer och cirka 2 - 3 läger ut och ett varv d.v.s. cirka 500 000 operationer och normalisera sedan över alla symboler oavsett om aktiverade i uppdateringen eller ej.

Detta ger att något jämförbart med Blue Light Entropy projektionen från describe till do nu också uttrycks mellan symbolerna i do-rymden som definierade statiskt.

Komplettera nu analyskoden för att ta ut korrelation avseende förändringar. Absoluta-förändringar är troligen sämre funktionella. Mer troligt krävs att varje förändring sätts i kontext av symbolens egna tillstånd innan (och egentligen också bäst dess kategori, ämne eller jämförbart per aktivering men det är helt säkert för kostsamt oavsett hårdvara för annat än ytterst smal analys) d.v.s. hur förändringen tolkas av läsare snarare än dess faktiska förändring. Ingen riktigt bra approximation av det finns i Warrior men ta Fishers linjära diskriminant som bör ligga i API-katalogen under Mathematics (om jag minns rätt - arkiverade den själv så jag har inte tittat) och kontrollera koden avseende hur variansen beräknas. Om den använder kovarians är det helt fel.

Den funktionella approximationen motsvarande vad som ger skattningar med predikterbarhet på läsarens tolkning ligger i skattningsmötet mellan symbolernas respektive perspektiv där problematiken är att motsvarande i ANOMA-begrepp att "n" för respektive läsare ej vettigt kan skattas men där det praktiskt för mig visat sig i att motsatsen till att betrakta när n går mot oändligheten är 100% funktionellt under förutsättning att vi ej utgår från absoluta-begrepp annat än i den långsammare referenstiden och därmed för respektive förändring använder samma uttryck som Weber's lag där exponenten dock kan vara problematisk i den mening att givet exakt vilken kod som skattar intensiteterna för respektive egen-dimension ska den vara 1,2 eller mindre troligt upp till 3 (ännu mindre troligt något mellan 2 och 3). Flödet bör ge sig naturligt av diverse utkommenterad kod i aktuell fil med diskriminant-funktionen (ev. heter den math.pl).

Uttryck förändringen i korrelation mellan två meningsfullt repeterade tillsammans symboler normaliserat med statiskt similarity.

Jag har inte prövat det själv än som optimering men kommer helt säkert ge detektionen. Det är inte meningsfullt för mig eftersom jag implementerar mycket bättre modell-nära relationer där den här typen av detektion ges i plattformen från samma samband som för emergens m.m. Men detta räcker och kommer fungera för att identifiera de områden där du har okända faktorer som du ej ser som ger de bias (möjligheten att jag har fel rörande att ni har korrumperande bias i era resultat ser jag inte som praktiskt realistiskt och det var precis det jag flera gånger juli, augusti, september upprepade inte 1, 2 eller tio gånger utan varenda gång vi hade kontakt: ni kan inte aktivera algoritmerna för förändringsdektion utan att korrumpera tillstånden - oavsett hur vettigt datat är genom att det predikterar nyhetsrymden blir grid:en alltid psykotisk när det körts tillräckligt länge för mig när jag körde efter cirka tre dagar med första tecknen medan det för er eftersom ni gjort något med koden istället ligger utspritt svagare). Det bör bevisa det för er.