Subadditive reward discounting

2014-06-17

Här bör vad beskrivet bäst se som utgångspunkt till några algoritmer att testa ut men tror jag oavsett detaljer hur vi normaliserar resp. discounting (det icke-linjära från resp. diskret tidpunkt för hur vi där värderar ner) förklarande hur jag tror vi får samma fenomen i symbolvärlden skattat från språk enligt , och som för bankränta m.m. där vår defekta men mänskliga discounting ökar ju fler diskreta tidpunkter vi introducerar i samma segment. Se ex. Subadditive versus hyperbolic discounting: A comparison of
choice and matching
för allmänt reward discounting när icke-linjära tidssamband styrande hur stor faktor discounting som sker vid resp. tidpunkt visande tendens att öka med fler tidpunkter trots samma absoluta tid vi ex. skattar något relaterat pengar för.


En svaghet jag haft befintligt i algoritmer implementerade stabilt sedan länge har att göra med hur blanka diskreta samplingspunkter för en symbol hanteras. D.v.s. när vi ej överhuvudtaget märker den alls. Vad vi ser tror jag motsvarande subbadditiativ discounting för är just illustrerat i emlöaste algoritm i utgångspunkt till en mer anpassad lösning enligt samma koncept om fungerande som förväntat (d.v.s. läggande på det mer mång-dimensionella vi här och allmänt resonerande runt sådant här bäst undviker lösningar som tvingar oss att behöva tänka och resonera mång-dimensionellt rörande algoritmer och modeller: det är kognitivt krävande).


För första tidpunkt vi ser en symbol - tiden t - antar vi att vi ej sett symbolen på en längre tid. Innan påverkande dynamik finns från förra förekomsten. Vi har emellertid en inlärd centralitet för symbolen kanske etablerad av samplande stora delar seriöst språk från många år (kanske all publicerad forskning för ett antal år, alla produktbeskrivningar för de fem största webbutikerna i världen eller vad nu passande för området).


Vid första förekomst jämför vi uttryck där med inlärt. Detta ger oss en indikation om vad vi upplever som en discounting om vi ej kände till att vi faktiskt har värden resp. inlärning. Vi kan skatta ut faktor för det varierat och det har ingen betydelse här för resonemangen vilket system vi väljer men det har viss praktisk elegans att använda heaps law för att få discounting via zipf law även om den formen är något mindre vanlig rörande reward discounting.


Är intensitet vid den första tidpunkt större eller relevant nära denna inlärda centralitet säger vi att ingen discounting har skett, En implicit representation skapas motsvarande faktisk intensitet (säger vi här medan viss decay alltid bör göras och förväntas men tämligen låg här) som motsvarar representationen av symbolen fortgående till nästa diskreta tidpunkt. Denna representation är en förutsättning för att överhuvudtaget kunna se att upplevt fortgående eller upparbetat kortare tid bakåt påverkar hur vi tolkar vad vi upplever just nu trots att denna dynamik välkänt kan avvika från över lägre tid inlärd preferens.


Vi går till nästa dag och noterar vad vi får för faktisk intensitet (vi antar nu här att vi faktiskt får ett mätvärde). Jämförelsen såväl som representationen av föregående är ytterst användbar för en mängd moment relaterade tolkning och förståelse även utan för prediktion eller sökande interferens och dolda samband över större avstånd. Men det ändå viktigt här är vår möjlighet att se förändring. Är intensitet för resp. dag ungefär den samma märker vi ändå skillnad om discountng kommer varit tillräckligt stor för att representationens skillnad mot den faktiska intensiteten för nya dagen är stor nog.


Vanligen om inte en särskild insats gör bibehåller vi ej serier av skattningar om komplext inkluderande många neuroner. Ska vi göra det behöver vi typiskt upprepa motsvarade den intensitet som konvergerar symboler en mängd gånger (ex. lärande en listan utan till). Här tänker vi oss endast ett tidsfönster bakåt och ev. andra behov annat minne är bättre hanterat att ändra tidsfönstret till antingen större eller mindre.


Till nästa diskreta tidpunkt beräknar vi nu en ny discounting men denna gång från vår representation jämfört med det faktiska värdet efterföljande dag. Här är tänkbart att praktisk algoritm kan komma att inkludera mer än detta men jag är tillräckligt trygg i att detta fungerar för att se det som det självklara att börja pröva ut för faktiskt data från. Det är kanske praktiskt kan man tycka tilltalande om istället bara användande centraliteten men det är också problematiskt att blanda in den för mycket i pågående nyhetshändelser eftersom dynamiken där är väldigt annorlunda definierande en egen värld vilket gör att en del del beräkningar krävs (inte helt gratis i beräkningskostnad åtminstone om man som jag gärna när ej för dyrt föredrar att skriva kod som jag är van från universitetet i aktuella större kurser att skriva matematiken d.v.s. av och till multiplikationer och divisioner man hade kunnat arbeta bort - det mesta relaterat språkanalys har jag ej det problemet för p.g.a. annan vana).


Discounting från sista kända sambandet bedömt den representation vi räknade fram (ev. vad vi kompletterar algoritm användande faktiskt värde om representation visar sig dyr mågndimensionell om den ska vara välfungerande men jag tror inte det ska behövas och att detta är förväntat korrektare för de viktigaste användningsområdena).


Saknar vi nu istället en tidpunkt där inget data finns har vi fortfarande en representation. Vi känner ej heller att vi riktigt glömmer denna om ej under något lämpligt tröskelvärde. Ny intensitet vi vill kunna uppleva skillnad för kan ju dyka upp sent samma dag eller på morgonen nästa. Praktiskt kan vi förstå att i kortare tid över några dagar kan intensitet symboler en nyhetshändelse vara samma sak i påverkan oavsett vilken dag de kommer för. Det är ej tillräckligt tillbaka för att vi ska börja om med dyrare kognitiv kostnad.


Men hur beräknar vi nu vår nästa discounting om vi trots att inget mätvärde ska bibehålla representationen? Ty är den bibehållen går den över en distans i tid och därmed kommer discounting ske om det ej är vd särskilt bibehållet (motsvarande här att vi antar ingen discounting men egentligen färre fall än det)?


Vi har som antaget endast två värden att jämföra. Aktivitet representation och den inlärda centraliteten. Tidigaer faktiskt mätvärde eller representation innan är tappat i exakthet av vad vi egentligen upplevde. Vi har detta mer samlade rest-spår av det.


Vi beräknar därför discounting från representationen med centraliteten. Detta innebär att aktivitet representationen över tomma diskreta samplingspunkter snabbt kommer reduceras i aktivitet. Discounting kommer alltid vara fallet (när vi gör den korrektare hanteringen ej antagande noll discounting om första mätta aktivitet var större än centrlaiteten).


I nästa tidpunkt har vi inte fler möjligheter. Vi kan fortfarande endast jämföra samma sak. Därmed hökar nu discounting eftersom centraliteten är samma medan nu aktuell representation minskat i aktivitet.


För varje tidpunkt där vi behöver ha representationen uttryckt görande jämförelse av den där faktiskt data saknas kommer växande discounting ske. Faktorn uttryckande discounting ökar.


Divergent tänkande

Innan vi kort tydliggör hur ovan motsvarar subadditive discounting är det meningsfullt att försöka se vad dom diskreta tidpunkterna motsvarar biologiskt. Det kan förvissa vara tidpunkter vi skattar framåt i tiden motsvarande som när reward discounting mäts eller för den delen när reward prediction mäts.


Men vi kan också inse att underliggande handlar det inte just om ett ensamt koncept utan en kombination av en mängd neuroner fångande olika perspektiv, emotionella preferenser m.m. varierande över tiden. Itgår vi från dimensioner jag maximalt i beräkningsdyraste tänkbara fall hanterar finns just nu cirka 50 -80 egebndimensioner (om jag minns rätt: ett större antal och de flesta är ej stabilt utvecklade utan mer experimentiella men tror jag nära nog alla motsvarande verkliga perspektiv vi kan ta som människor). Vidare för ett koncept finns i Blue light en mängd motsvarande inlärda relationer. Sällan färre än förra versionen cirka 70 st (nu antagligen fler i genomsnitt - ev. många fler) och upp till tio tusentals för tugna koncept likt länder inverkande och inverkat av mycket. Skattar vi ut antal kombinationer vi får per symbol förenlade allt till existerande eller inte och tagande cirka 50 relationer per koncept får vi 100 000 000 * ( 50 egendimensioenr) per koncept. Jag tror det är minsta tänkbara komplexitet vi har i dom biologiska nätet per koncept.


Att acceptera flera diskreta tidpunkter där är att ta på sig en värre tanke-uppgift. Att behöva tänka ex. längre in i framtiden över fler tidpunkter där ett värde behöver tas ut vi kognitivt förstår och ex. kan uttrycka i tal med siffror. Mer diskret pågående aktivitet mindre kostsam behöver kovnergeras till en förståelse kommande med i sig en kostnad En del av den dynamiken är att vi behöver normalisera till något allmänt begripligt vilket ger vår discounting mot centraliteten. .


En till domän likartat som vi antagit i föregående inlägg är när vi istället går längre ut vid ungefär samma tidpunkt men nu med större distans ut till fler neuroner runt omkring. Är riskfaktorer indikerande dolda problem kan vi ta på oss en större kostnad evaluerande data för att upptäcka problem. Aktivitet divergerar från representationen vi initialt har där vi når fler neuroner men med mindre aktivitet också där discounting fktorer finns (ungefär jämförbara men även i enklaste modell som här inkluderande ett par moment till vi ej behöver diskutera här).


Medan vii som ibland kallas lateralt tänkande och som jag gärna vill anta motsvarar multi-modular inlärning kombinerande skilda perceptioner, kunskapsodmäner m.m. på större distans via hierarkiskt mer överskridande neuroner och delar i hjärnan istället snarare är vad vi söker en interferens för från ex. divergent tänkande lokaliserat men vi ett något väsenskillt medium bättre anpassat över hjärnans större distanser (det är populärt bland forskare kognition att se sådant som uttryckt via elektriska vågformationer) men det är knappast viktigt här. Detta är samma fenomen jag förr diskuterat från vad jag kallat stegen tolkande en dröm där drömmen tycktes experimentera med komponenter från väldigt olika domäner i verkligheten för att se om något användbart kunde identifieras (klättrande upp på en stege på en järnvägsstation som endast går upp till strömkablarna men där istället för drömmen inkluderande andra egenskaper relaterade stegar inkl. plan ovanför). S.v.s. sökande interferens över väldigt stora distanser i hjärnan från något i detaljer besläktat: lokala konvergenser.


I divergent tänkande tror jag att vi har nära nog samma dynamik som för diskreta tidpunkter: Discounting från ganska effektiva snabba funktioner. Emellertid för lateralt tänkande är avståndet vi ej uttrycker mellan konvergenser för motsvarande diskreta tidpunkter mycket stort. Mellan mer lokaliserade delar av hjärnan till andra sådana delar. Ex. delar i frontala cortex kombinerande information från olika domäner i perceptionen med kunskap och pågående resonerande.
/p>

Vi kan menar jag jämföra detta med vad vi för en nyhet eller mer sammanfattad vetskap om en symbol för en dag med att vi här flera symboler denna konvergerar till i DP. Vi förstår DO här enklast från exempel likt Wikipedias preferens att namnge sina uppslagssdior. Vad det hela tolkas handla om övergripande (inte alltid lika enkelt som för Wikipedia eller så gemensamt hela innehållet men samma prrincip). Här kan ju flera koncept konkurrera samtidigt som de samverkar. De kan ligga nära varandra d.v.s. föga lateralt tänkande nödvändigt (ex. namn på film (film) ) men kan även ha stor distans långt utanför vad vi är vana att förvänta flör ämnesområdena. Det kan var any inlärning alla människor elller helt enkelt att det är nytt för oss. Det är när distanserna är större ökad komplexitet och kognitiv kostnad. men vi har egentligen bara en uppenbar representation för resp. koncept.


Vill vi ändå försöka återanvända konceptet med diskreta tidpunkter discounting görs för kan vi tänka oss att dessa nu motsvaras av del-konvergenser på väg till tolkning och förståelse av vad symbolerna DO tillsammans betyder för oss. I all ärlighet gillar jag inte det tänket även om det knappast är ovanligt eller ens sämre skulle motsvara ett bra sett att tänka sig vad hjärnan gör här. Men det ställer en hel del krav på att rätt tolka ut relativa förhållande mellan symbolerna vilka kan fodra rent av att vi behöver göra natural language processing brödtexten allmänt.


Istället är lösningar jag för nära liggaoområden i algoritmer använt kombinationer av några mått skattande signal-to-noise där distanserna med samtidiga symboler kan uttrycka noise. Vidare mått relaterade enklare skattningar av "total" distans - ungefär som "Facebook kopplingar" med resp. symbol i mitten uttryckande distans till resp. i övrigt från dess perspektiv (d.v.s. motsvarande hur lokaliserade dess dendrit-träd är mot dessa).


Alla befintliga lösningar är förväntat nödvändiga här därför att datavärlden i vad samplat kan vareira där man behöver räkna lite olika. Men hur vi egentligen vill göra det här i alla fall när vi redan diskuterat Heaps law och Zipf law är att istället söka skatta totalt antal typer vvi konvergerar aktiviteten konkurrerande samtidiga symboler (vad vi ser som token). Där vi menar att det här ingår typer - unika konvergenser - vi tvunget behöver göra för att förstå hur vad de betyder tillsammans.


Oc h detta tror jag att man måste göra användande också distansmått som diskuterat tidigare mina baserade på similarity från perspektiv av en symbol eller symbolgripp. Relationen när vi konbinerar såg jag klart för mig tidigare idag men det känns just nu som jag kan blanda smaman riktningarna för vad som ökar resp. reducerar beräknande vad vi vill jämföra antalet typer vi faktiskt här i själva antalet givna symboler. Tänkbart är intensiteten som effekt given - annars påverkar de ju inte alls - och där denna aktivitet tvingas till större arbete (mer irritation, upplevt tråkigt och diverse fel i detaljer) när distansen är hög innebärande att vi kan som i den få-dimensionella fyrkantiga världen kan tänka oss att vi multiplicerar för en area. Mer area mer arbetsamt.


Problemet med det är här - därför ev. fel riktning och att viss varning för att jag tänker fel någonstans ovanför direkt eller här - att vi när distans är låg men intensitet hög ej nu korrekt fångar att konvergens befintligt givet är mycket mer entydig innebärande lägre kognitiv kostnad. Men också tänkbart är sådan dynamik parametriserad annan normalisering vi i detta inlägg ej valt att nu betrakta (om mycket kawaii och föga direkt hot vapen vad vi hellre just ser om enkel konvergens given symbol men om något farligt dolt finns aktivitet vi utnyttjar för att divergerat gå utåt). Men jag tror nog vi alla förstår vad det handlar om oavsett det: Känd lag i kemi kombinerad med känd lag inom psykologi är mer troligt jobbigare för resp. utbildad i vardera därför att de kan vara nya för dem och indikerande praktisk tillämpning längre ifrån normalt (om mer normalt vad de hade mött förr och varit mer en lag båda använder). ä'ven


Subadditive discounting: Representationer kostar

Vi har grundrelationen för hur discounting antas beräknas vid tomma tidpunkter där vi ej får faktiska mätvärden. Vi förstår också nu något av vad diskreta tidpunkter motsvarar. Och vad de inte riktigt lika enkelt ibland är.


Gör vi skattning värde för den absoluta tiden tre veckor gäller att vi initialt gör jämförelse mot en centralitet. Summa vi utgår från förstår och tolkar vi från denna. Exakthet möjlig att mäta upp för verkliga personer kommer därför påverkas av vid samma summa tunyttjad om de är fattiga studenter eller rika kapitalisterna med massor av pengar att små-slösa med i vardagen lite hur som helst. En chokladkaka i belöning kan tänkas fungera för båda men när det gäller pengar blir det för småsummor nog ganska annorlunda.


Vidare komemr vi alltid om jag tänker rätt ha en sista representation med en egen discounting. Det är denna som är vår slutsats vi förklarar för forskningsassisten är vår skattning av om vi ska ha en chokladkaka nu eller en chokladkaka och 100 kr om en vecka. Eller enklare om vi föredrar 1000 kr nu eller 5000 kr om en månad eller vad helst egentligen. Men för de mer välkända exemplen där man inte sällan söker jämföra med ränteberäkningar och liknande kan vilken som helst nästan av de många studier gjorda närmare forskning i domän av ekonomimetri läsas (några länkar finns i slutet).


För varke vot doslret tidpunkt vi adderar ju större discounting jämfört med föregåede tidpunkt gör vi. Varje sådan representation motsvarar att vi tar ut ett värde för förstår och kan tala med. Det indikeras för forskaren eller är vad vi resonerar med mentalt.
<(å>

<å>
Jar ett k',färamde soffertaö govots vo sla k',fära ,ed ett ammat- Fr ex. två tidpunkter är det resp. vad vi hanterar i detta. Vår sista representation kommer nu jämföras med den där faktiskt givna indikerande summan och vår ett uttryck för relativ discounting. Vi har kanske reducerat ner något vi utgick ifrån som blivit väldigt lite medan summan vi tycks kunna få är myycket större. Men här har vi nu via discounting fått normaliseringen vi kan tolka och förstå denna summa ifrån. När vi gått igenom distansen med relativa samplingspunkter förstår vi kostnaden vi tycker att den kommer med. Det är länge - och pengar jag ex. har nu har där hunnit blivit små eller omvänt att pengarna jag har där borta tycks bli större när jag förfl7ttar dem hit tillgående och jämför med pengarna jag antas ha här (stora pengar från framtiden just nu indikerar discounting av pengarna nu i framtiden - dock huruvdia vi faktiskt tänker båda riktningarna har jag inte tänkt på men det verkar väl inte otroligt) jfr att flytta perspektiv för en scen från övergripande seende fler saker men mindre i storlek eller färre med större exakthet).


Och vi bör ej förstå varje tidpunkt när döda tidpunkte kommer efter den frösta summan vi utgår från nödvändigtvis har samma rank för första fallet som de stor i turordning när en centralitet finns. Är summan större vid första diskreta tidpunkten mot normaliseringen - jämförande två summor - kommer den tomma tidpunkten där vi tar ut centraliteten när första faktiska summan är mindre än den andra bli nummer två medan den första skattade representationen blir nummer tre.


Oavsett en del sådana underligheter och utmärkt indikerande ett värde att ej tänka fler-dimensionellt i utgångspunkt för tidigt kan göra en enkel beräkning där vi väljer att göra det med Heaps law.


För symbol A havande en centralitet med ett stabilt inlärt värde. För oss som ex. rika kapitalister är 100 kr alltid värda 5 kr. Men för enkelheten säger vi helt enkelt att centraliteten är C.


Vid första tidpunkten t får vi en faktisk summa - en intensitet för vår symbol. Denna är I..


Antag nu att C mer konkret är 8 enheter vluta. I är 6 enheter valuta (lite mindre därför att det känns tråkigt att vara med i forskningsstudien).


1. Vi skattar decay för vår första representation skapad.


1.1. B = a * ln ( C / I ) , där a är en till konstant mer diskuterad tidigare inlägg. och vi här antar är 1 alltid.
= ln 8 - ln 6 = 0.28768207245


1.2. Vi beräknar representation görande discounting av 6.


I representation = 6 ^ 0.288 = 1.67


2. Och så nästa representation för tidpunkt utan mätvärde men där vi behöver en representatiob med utgångspunkt 1.67 i discounting mot den inlärda centraliteten.


Antar vi istället att inlärd centralitet är K. Och vi vid tiden t[0] får X kr och vid en tidpunkt t(0 + n) får Z kr. Är vårt första mätvärde vad som ger den initiala representation vi ska förstå och tolka värde två från. Har vi gjort större discounting initialt har vi mindre jämförelse att göra vid nästa mätvärde. Och dess när centraliteten är i samma domän discounting fortsätter men sättande värdet vi direkt får som jämförelse sig självt. Ju större discounting vi gjort desto mer reducrar vi också i sista steget. Och ju fler representationer vi behövt på vägen desto större arbetar vi upp discounting faktorn. Varje representation kostar lite att göra.


Och inget annan väg för att förstå distansen finns än denna. Förutom inlärda beräkningsregler och liknande vilka ju beskriver inlärda vägar mellan symboler för hur vi gör något (beräknande ränta exempelvis). Annars får vi värdera något och låta representation gå en sträcka eller finnas en tid och se hur mycket den minskar eller ökar (vi kan öka även om det fodrar ett inverkande kontext).