Fler konvergenser P(A,B): Inför Smash and grab operation i domän TV-nätet

2013-09-30

Smoothing enligt tidigare verkade av allt att döma mycket funktionell när value-typer adderades men jag valde ändå en förenklad metod som ger mindre flexibilitet men är funktionellt för alla viktiga användningar och behåller tidigare mindre lösning för övriga därför att förenklingar käver en till läsning av alla datafiler jämfört med skattade jag åtta till tio nya för flexiblare lösning (vilket tar väldigt lång tid) inte minst därför att filerna måste styckas upp mycket mer för att gå att ha minne för beräkning.


Oavsett det roade jag mig nyligen att ta ner större data rörande musik-lyrik och tog ut samförekomst rent binärt per meningsnivå av allt utan hänsyn resp. musik-lyrik-frekvens eller annan sådan spearering o.s.v. och från det samlad P(A,B) skattning.


Vidare från den viktade jag samförekomsten med ej normaliserad addition av förekomst två mått på intresse i två nära besläktade perspektiv: publicerande och upplevande (skattat från data jag tog ev. 2011 eller 2012 via möjligheter som då fanns via api:er hos en tämligen branschledande tjänst rörande publicering "media-stycken" bl.a. ofta på temat musik och film) - och normaliserat i kommersiellt möte av dessa data samlat från "internet marketing". Där värde adderas in i "antal" när det finns till resp. koncept oavsett om konceptet består av ett ord eller flera (om flera utan hänsyn förekomst av färre ord jfr wash your dog tar ingen hänsyn till samma värden för your dog eller dog) för resp. av de två koncepten.


För alla sådana förekomster - utan hänsyn till ordningen för A och B - dividerar vi värdet med alla värden för resp. de förekommer med.


Detta konvergerar avseende värde-typer förekommande - avrundat o.s.v. - för sannolikhet havande värde i resp. i+1 enligt proportionellt ökande eller minskande för lutningen som all förekomst av koncept-perspektiv vi är minus förekomsten vi bedömer dividerat med förekomsten vi bedömer.


Vilket innebär - är jag tämligen säker på - indikerar (trots tämligen rundimentärt hanterande av mätvärdena prospketerande om de är värda att använda seriösare) att de genomgått påverkande smoothing av tjänsten innan levererat ut. Antagligen enligt någon variant av bionominala-fördelningar. Det är kanske lite intressant eftersom jag aldrig annars fått intrycket att samma aktör just använt dom algoritmerna associerat sökresultat för annat.


Oavsett vilket gäller att för värde association mellan säg angenämnt belönande och våldsamt eller otrevligt gäller regelmässigt att förenkla till det till spontant uppenbara positiv och negativ hör till vad som oavsett någon förekommande viktlösning publicerad eller de bättre jag gjort själv i övrigt levererar regelmässigt signifikant sämre än andra motsvarande sådana "mer eller mindre" som jag brukar kalla för mig grundläggande. Normalt verkande påverkande globala tillstånd i vad som är beräkningskrävande ser jag föga värde av att låta positiv och negativ påverka därför att man får det typiskt mycket mindre med ex. up och down och Blu lght intensity och vid ev. behov utnyttja det till utgångspunkt att applicera positiv och negativ på riktat rörande något avgränsat koncept eller en koppling sådan till annan. Musik-lyriken när vikter som här mycket nära det reward-drivna - d.v.s. vad vi ser värde att publicera för, betala för att driva trafik till resp. lyssna eller titta på utan att behöva betala - precis som förväntat tycks ge mycket intressanta och potentiellt mycket kvalitativa skattningar.


Jag hade inte just räknat med att aktuellt musik- och film-specifikt viktdata skulle hålla tillräcklig kvalitet. Det gjorde det heller inte första körningarna men efter transformation / projektion på det datat med up och down fick jag vad jag spontant bedömer som riktigt mycket bättre data än jag någonsin sett för positiv och negativ. Åtminstone när vi ser mer värde i vad vi vill använda positiv och negativ till i det ärligt praktiskt reward-drivna snarare än vad som känns korrekt att indikera när mätt och tillfrågad i forsknings-lab i psykologi-forskning eller för ännu sämre positiv och negativ data i eventuellt ofullständigt roterade frågor på Amazon mechanical turk (för att indirekt referera två av de oftare uppmärksammade viktsystemen relaterade positiv och negativ vilka båda inte spontant ser fel ut enkelt när man tittar på dem men ej levererar predikterande människa eller människor i beteende från språk oavsett om vi går fram eller bak i tiden).


Åtminstone för stora delar av datakällans möjligheter via extraktionsmetod jag använde tror jag att den är slut nu. Förr kunde vad publicerat-tjänsten tas ut till sekundära tjänster (ex. omvandlande ett filmklipp innehållande musik till mp-3 eller motsvarande) vilket gav SEO-driven marketing för den tredje ganska viktiga värde-dimensionen. Andra vägar att ersätta finns säkert och ännu bättre är antagligen att försöka för musik längre tillbaka i tiden ta vikter från försäljning, marknadsföringsbudget m.m. Praktiskt här och nu för mig ser jag emellertid inte att det är intressant som funktion av tidskosgtnaden. Både rörande automatisering tolkning av datakällor reward såväl som att från data byggt av människor direkt eller indirekt avseende hur titlar på lyrik-sidorna m.m. ser jag många i och för sig säkert intressant glada små utmaningar (definition glatt: ej iriterande på nivå att man kastar ett lagringsmedia ex. exterm-hårddisk i väggen för att i ögonblickets sanning inse att kostnad några få-tusen ny hårddisk mot att garantera att långsammare delar av personligheten aldrig självplågar sig med skit-datat igen är korrekt) men just tidsödande.


En allmän oavsett viktsystem mycket trygg brytpunkt är att de 10 000 - 14 000 vanligaste koncepten över alla jag tillåter (och ej nödvändigtvis inkluderande alla ord oavsett om vanligare all det minst vanliga av dessa) är tryggt utdata om det tillämpas i mina algoritmer för transformation och projektion vid analys enskilda nyheter d.v.s. i kontext av ett större sammanhang där för enskildas koncepts ev. felaktigheter reduceras. D.v.s. när vi gör projektion till denna topp från deras kontext i nyheten där kontext består av en mängd koncept vikterna tillämpas på. Jag bedömer att om man hanterar datat jag utgick från mycket seriösare än nu prospekterande - särskilt något vettigt genomtänkt istället för additionen - kan det orka fram till det (vilket just för positiv och negativ nära nog unikt för viktsystem jag förvaltar långsiktigt ej orkar stabilitet givande förskjutningar och fel när vi räknar framåt i tiden utan nytt data görande att vi inte självklart kan betrakta säg nedanför topp 1000 - 5000 mycket bättre eller sämre än data långt nedanför vilket gör det ganska svår använt i de lösningar jag valde att skapa med många fler dimensioner än normalt - konkret problematiskt blir effekten att mer sällsynt data vi annars vet stabiliserar sig över allt inträffande görande att vi praktiskt kan ta data från säg topp 50 000 till 100 000 ej nödvändigtvis gäller och filtrering istället måste ske innan data går in i nöten vilket jag saknar lösningar för avseende så pass specialiserade problem som positiv och negativ där ju gäller tror jag att kan man se dom problemen för filtrering kan man antagligen lösa vikterna direkt istället - om inte vetskap och förståelse av världen just nu och hur den utvecklar sig handlar mindre om data från närmaste dagar, veckor resp. månad och mer om många år för att få det vettigt om ens alls görligt).


Positivt överraskad av datat från filmklippstjänsten. Gör mig nästan lite motiverad att socialisera samhällen relaterat sajter och tjänster implicit driven användar-initierad publicering av värde-innehåll (jfr musik- och filmsajter som vid förfrågan tar bort filmen som kom på bio förra veckan när ombedda om nu någon noterar att den publicerats från sekundära sajter publicerande inbäddat i brist på sökfunktioner m.m.). Ett segment där jag förövrigt kan notera att gällande rapporter åtminstone från amerikanska myndigheter runt frågan sista två åren såväl som är mitt intryck arbetsmetodik hos copyright-ägare ej riktigt förstått vad verksamheten som genererar intäkter är eller hur man effektivt kan detektera publiceringen. Fascinerande nog kommer det relaterat "antal" ner till vad vi kan applicera typer och instansier på precis som för för språket: Typen "This is a movie" såväl som ett språk-koncept vs. där det refererats skapande fler instansier. Ju mindre ditt sample du bedömer antalet instansier från är desto större relativa skattningar får du rörande egentligen allt om smoothing ej sker. Både faktiskt förekomst relativt hela världen såväl som dina förluster samtidigt som det faktiska resultat i borttagande av publicering i samma utsträckning blir sämre. Metoden att t.ex. göra stora delar - ytterst verkligt funktionell för affären - tillgänglig och uppenbar enkel för de metoder ex. leverantörer filmbolag använder medan säg 70% ej riktigt framgår - trivialt ex- spindlande dem - är ett exempel på dom divergenser verkliga också bara för en typ avseende publicister snarare än för själva copyright-koncepten.


Mitt återupptagande av teve-tittande sista åren - på laptop med liten skärm - efter många år helt utan teve, och utan att någonsin använt en fildelningssajt eller liknande (mycket post-kulturellt min tid som mediekonsument på nätet) - har kanske som ej otroligt representerande nu i all verklighet ytterst stora och väsentliga grupper med ålders-centralitet förskjuten uppåt allt mer också från min ålder (jag var nog tror jag äldre än år rörande internet-konsumption av populärkultur) avseende värde-mängd ex. för de betal-tevetjänster som nu marknadsför (tar betalt och har ytterst relativt gratistjänsterna verkar det mycket långsam såväl som smalare publucering åtminstone utanför som jag minns det den största lagliga i USA när den fortfarande var det drivande konceptet) har gissar jag i mitt motstånd från att behöva lär mig något nytt för rent hobby-ändåmål (jfr fildelning, thor och allt vad det heter) levererat en till den direkta kommersiella mitten här för åren som kommer. I samma utsträckning reduceras tid ex. på Youtube varande tror jag mer typiskt för samma då i storlek mindre centralitet för de teknik-tröga men ekonomiskt intressantare konsument-grupperna närmaste åren bakåt.


Datakällor för vikt viktsystem ska - vad som är kvalitetsdrivande upp till tung-nivå för mig - vara vad man rent personligen ligger nära i vad man egentligen mäter och där helst själv tillämpar. Att direkt personligen förstå typ av datakälla gör att man lättare detekterar när den börjar tappa och det är dags att försöka hitta fler alternativ att bredda upp den med. En gång dominanta datakällor har dock ännu för mig aldrig ännu kommit att reduceras till annat än stora - det är snarast nytt-nytt som behöver tillkomma för dem - vilket jag tycker pressmeddelanden är ett bra exempel på. En mängd fler kanaler finns - flera generationer av nya sådana - men det är likväl en god grundkälla man ej vill ta bort från en nu större parallell-mängd (där förövrigt den första kompletteringen var en till äldre datakälla: rekryterings-annonser, och pressmeddelanden lades förövrigt ovanpå den vid tiden också etablerade i patentansökningar).