Information overload angripande censur-system: Lätta mönster för att bygga träningsdata säkerhetsrisk att hantera via krypteringsteori

2013-05-03

Rörande Kriget seger i energieffektivitet: Vapeninnovationens hastighet relativt fiende och vårt försvars- och politiska-systems förmåga att tillämpa vapnen vi skapar (2013-05-02) bör för den som överväger metoden understrykas att en grupp potentiellt helt försvarande säkerhetshål (den ointresserad av säkerhetsfrågorna kan istället hoppa framåt till den komiska skämtteckning på temat sock-puppets som jag citerade från ett av mina äldre inlägg) särskilt tidigt måste hanteras via kvalitet i uttryck av språk, discourse, ämnen m.m. kan vara långsiktigt kritiskt:


  • Antag att tidig detektion av mönster i språket ett enklare problem att detektera automatiserat efter att ha konstaterat det manuellt i några fall.
  • Troligt finns i språket dessutom mönster mycket svårare att konstatera eller detektera som heller inte ens behöver vara verkande binärt med en rimlig sannolikhet men som kan få praktiska betydelse energiåtgång när vi betraktar populationen av allt språk mänskligt och övrigt som skapas.
  • För dessa mer svårdetekterade mönster är att förvänta när de ev. inte noteras under utveckling eller konfiguration befintliga lösningar att de fodrar en större mängd träningsdata för att lära in detektionen av rent statistiskt.
  • D.v.s. laborerande på en större population (bättre uppdelad i flera slumpmässigt dragna population från denna eller direkt maskin) kända sockpuppet-skrivna som ställs mot p.s.s. en mängd mänskligt skrivna uppdelad i motsvarande populationer.

För en aktör utan den Gud eller Gudinna makt Skaparen har över den mänskligt skapade intelligensen är den enklare vägen (även om vi självklart inser att flera andra också existerar: fysiskt inbrott, hacking, avlyssning telefon- eller lan-nät, upptagande vibration eller elektro-magnetiska vågor o.s.v.) att bygga tillräckligt träningsdata att upptäcka ett enklare detektionsmönster.


Korrigeras detta enklare mönster för detektion i kommande version kan fortfarande gälla att upparbetat träningsdata identifierat från versionen innan detekterat och hämtat automatiskt via robotar kan vara fungerande för att istället detektera mycket diskretare mönster fodrande statiskt-träning med just en given samling av träningsdata.


Vi kan förenklat också notera den likhet med det klassiska SP-nätverket i blockchiffer för hur vi gärna vill organisera språk åtminstone "meta" ex. ontologier eller mjukvaruimplementationer:


  • Att vår tänkta AI drar ex. (även om givetvis mer övergripande discourse högre upp är elegantare för ex.) enskilda begrepp slumpmässigt och genom någon lämplig fördelning kan vi jämföra med S-komponenten.
  • Vår S-komponent ger för symbol-fördelningarna om gjort bra en statistiskt-fördelning motsvarande det vanliga språket (om vi endast drar ord för ord kvarstår givetvis enorma mängder detektionsbara mönster i ngram liksom på meningsnivå, i olika sliding windows, per stycks o.s.v. så det är inte att rekommendera men att jämföra med normalt språk är ju enkelt rörande det S-baserade).
  • Inom natural language processing finns ett antal algoritmer som om än föga optimerade test eller angrepp enligt föregående bygger i dess tillämpning ex. för att detektera ämne för text på samma principer. De lösning som brukar kallas distribuerade där uttrycket av vektorer bestående av en statistisk mätning av olika ord eller nrams (eller koncept i annan betydelse) i texten är ett ex. Vi ska också räkna LSA, cosinus similarity och ett par funktions-basala exempel på större grupper av algoritmer (ev. inte helt bra exempel här eftersom båda är i min erfarenhet dyra i beräkningskostnad i förhållande av det värde dom levererar vilket har praktiskt stor betydelse för angreppet vi försöker reducera risken för).
  • P-komponenten d.v.s. permutationen av tecknen i resp. block och varv i chiffret motsvaras av språkets naturliga grammatiska genererande relationer - vanligast och en föga troligt sämre utgångspunkt än något annat åtminstone för engelska (jag kan inte bedöma det för dom kinesiska språket) - är dom vanliga fraserna med dess relationer där det ofta bör vara tillräckligt att utgå från lämplig större "regel" och "förekomst" samling av subkategorisering m.fl. fras-relationer och därefter från träningsdata efter behov där man kanske behöver tänka till i samspelet med övergripande discourse skapande och ev. kreativt resonerande "tänkande" ovanför (jag tror inte det men kan ha tänkt fel och ser heller inget trivialt sätt relativt tid jag har dom närmaste månaderna för att försöka avgöra det genom att mäta vilket antagligen fodrar en enorm generering om inget helt trivialt jag missat kring störning finns).

När vi tar in indata till blockchiffret resp. lämnar det gör den vise programmeraren eller mjukvaruarkitekt whitening. Whitening innebär att vi kraftigt reducerar med vanliga statistiska tester allt detekteringsbart så långt som möjligt som särskiljer datat från vittbrus.


Med mindre än att vi faktiskt kan generera kryptologiskt säkra slumptal ex. via hårdvara förekommer ändå visst läckage. Goda möjligheter boot-strapping resp. insamlande data förslagsvis via volativa text-datakällor som startsidan för ett ganska stort antal tidningar med snabb-publicering bör här räcka utmärkt om det görs av och till adderande till ett tillstånds vi därefter kan löpande (ett antal kända primitiver för detta finns och det snabbare alternativet är oftare när säkerhetskraven inte är högre än här MD5 på tillståndet, där tillståndet i varje steg förändras som i sig Md5-funktion av föregående tillstånd, indata, och en statiskt addition och där den som ej gjort det tidigare förslagsvis konsulterar protokoll för detta ex. som definierat för SSL eller liknande vid högre säkerhetskrav än här givetvis med uppföljning av att det protokoll alternativ för tillstånd man använder inte har allt för grova angrepp möjliga mot sig).


Målet här är inte att skapa text som ser ut som vitt-brus utan text vars skillnad på stora mängder inte skiljer sig från vanligt språk för en population människor. Detta är därför närmast en fråga om hur resp. agent och personlighet uttrycker sin preferenser i språk. Att dessa i sig är för mycket varierande är ju heller inte lämpligt. Whitening så vitt jag ser det från sådana arkitektur jag ser som naturliga (vilka mycket möjligt är mycket mer komplexa än praktiskt möjligt allmänt genom att jag har en ganska funktionellt utvecklad plattform för grammatik, språk, personlighet, koncept, attityder och allt i övrigt vi kan se påverkar vad en människa skriver om, vad de vill säga och hur de skriver det) är i:


  1. Skapande av en instansierad personlighet.
  2. I denna personlighets val av dsicource, daglig normal känsla o.s.v. Är han eller hon upprörda därför att deras chef på arbetet stulit en medtagen smörgås? Eller skryter den samma för någon av vardagens många trivialiteter vilka vi per individ-basis ofta upplever som storslaget uppmuntrande vilket kan märkas mer än väl i språk om inte explicit så implicit åtminstone när vi skriver naturligt utan allt för stort filtrerande och mängden är lite längre.
  3. En större antal parametrar relaterade den tid vi antar att personen ska spendera d.v.s. vad som reducerar ner till enklast antal ord och om en bild finns.
  4. En långsammare förändring av personlighetens grundtillstånd. Vi är ju aldrig riktigt samma person. En här ordentligt överdriven lösning är att istället göra det genom att låta whitening påverka en viss mängd av den information agenten väljer att läsa där denna i sin tur får representera denna inverkan. Kanske börjar hon att läsa The New Yorker vilket efter några månaders energiförluster i bokhyllan och i Wikipedia föranleder några för denna halv-kultur-elitiska--subkulturella typiska ord och ett citat eller referens i bloggpostning.

Vidare finns ju många gånger valmöjligheter också mycket lokalt i meningarna vilken grammatiska konstruktion vi väljer. Jag har inte följt upp hur säkerhetsmässigt bra det egentligen är men jag föreställer mig att det snarast kan vara exempel på den typ av diskreta mönster fienden kan detektera om de har större data. Snarare behöver man en mer genomtänkt grupp fördelningsfunktioner här (i och för-sig också liksom allt sådant lite sunt vardagligt förändrande enligt tidigare punkt men det i sig handlar inte om whitening utan är ju mer att jämföra P-nätverket - bäst jämförande när det är nyckelberoende där vi här eftersom vi inte har som mål att generera statistiskt vittbrus inte kan ha motsvarande jämfört med statiska P-boxar som i DES).


Förutom att whitening kommer reducera risken för att övriga komponenter läcker detekteringsbara mönster finns ett här troligt genomgående mycket viktigare motivation. Programmeringslogiken för den här typen språkanalys och språkgenerering, liksom semantiken och discourse, hör ju till vad som ger den mest komplicerade koden tänkbar både i logik och antal rader kod (även om området inte teoretiskt är särskilt krävande jämfört med mycket annat rörande vad som berör praktiska tillämpningar och programmering). Oavsett om det handlar om kod du skrivit själv eller rörande ev. moduler eller hela program från andra aktörer gäller att dessa kommer innehålla en försvarlig mängd logiska defekter som man kan testa många veckor utan att någonsin träffa på därför att det språk-corpus man praktiskt kan använda börjar bottna ut kännbart vid några tera-byte och det räcker verkligen inte för att udda genereringar och analyser som kan uppstå när något mer specialiserat ämnesområde råkar dyka upp. I andra sammanhang behöver nu inte det betyda något eller ens märkas praktiskt men här vore det ju katastrofalt om det t.ex. skulle resultera i att tillståndsmaskiner genererar just mönster lätta att detektera: vänder på en fras mot alltid normalt, eller i värsta tänkbara fall börjar upprepa sig i korta cykler. Whitening garanterar att du kan hindra att den ligger kvar i en riskabel domän längre än lämpligt (även om att beräkning den risken i sig är vad vi bäst låter bli att försöka oss på) och eliminerar risken för att defekter hos entropi-källor kan ställa till det allvarligt (t.ex. om en aktör som Reuter gör i en del paginationer publicerar samma nyhet två gånger efter varandra).


Även om idéerna jag utryckte kan vara problematiska för den som inte tittat på det innan bör det inte praktiskt bli allt för utmanande. Det kritiska är just att göra vettiga statistiska tester själv, ej ge möjlighet att ta ut mönster enkla att detektera i tidiga versioner för att bygga träningsdata, och vara noga med att viss whitening. I princip behärskar man det språkliga i kodningen ska absolut inte något problem finnas att börja med det, se till att ha kod normalt sund förvaltningsbar och när det fungerar vettigt se till att först för det praktiskt hammar-lösande för så mycket särskilt om man är oerfaren i området skyddande whitening-lagret. Där det är fungerande att addera whitening utan att det gör skada är det en bra sak.


Det utlovande roande citerat från mitt tidigare publicerade inlägg Sockpuppets: Barnpsykolog möter Internets belöningsinriktade barn (2013-02-09):


"Sockpuppet-konceptet mer till vänster (väldigt) fritt efter ett exempel i Childhood Language Disorders in Context (förövrigt inte ett dåligt komplement till andra typer av referensböcker relaterat språket i hjärnan) med barnets respons var inspirerat av en kommentar jag gjorde om det begränsade värdet av att använda tweets för att beräkna association mellan koncept i motsvarande "scen-scope" på discourse (där det är väldigt lätt i en hel del predikterat att vad du tar in data från i tweets är mindre relaterat den population du tror och mer kommer från sockpuppets som arbetar upp infrastruktur för att kunna driva trafik ex. relaterat filmer deras "ägare" tror kommer bli framgångsrika).



"A sockpuppet is an online identity used for purposes of deception. The term—a reference to the manipulation of a simple hand puppet made from a sock—originally referred to a false identity assumed by a member of an internet community who spoke to, or about himself while pretending to be another person.[1] The term now includes other uses of misleading online identities, such as those created to praise, defend or support a third party or organization,[2] or to circumvent a suspension or ban from a website. A significant difference between the use of a pseudonym[3] and the creation of a sockpuppet is that the sockpuppet poses as an independent third-party unaffiliated with the puppeteer."

Sockpuppet (Internet) | Wikipedia

Oavsett alla problem vi förstår att sockpuppets kan innebära får vi samtidigt erkänna att begreppet the puppeteer är mycket coolt balanserat mellan den lilla världen (oavsett hur många sockpuppets the puppeteer har) och något av Hollywoods myt om den mäktiga men osynliga manliga härskaren som styr ett otalig "kungar" och därmed nästan hela världen."