Microsoft: Okynnes-delning av data

2015-05-19

Kanske. Vi får väl se om det faktiskt är nedladdningsbar. Men som det tycks att skicka abnorma mängder enskilda request efter att suttit och följt en FAQ över hur man ska koda en liten klient till det hela. Önskan att dela data men inte riktigt att vill dela det heller tydligt. Andra anledning än den jag sökte information om hos Microsoft kan så klart finnas. En väg att göra något av det så här fungerande i det interna skapande leverabel utan att just tillgängligheten kanske pekar på vid den här tiden tydligare kvalitetsproblem hos Bing (som idag är ofantligt bättre) eller kanske samplings-tänkandet. Kanske var en idé med det ursprungligen också som en ortgonal QA-view ej direkt från resultaten (Bing vs Google: Högvärdes (sökmotor) sökningar).


Hur verifierar någon så mycket annat Google Research producerat härefter utifrån deras n-gram data? Det är ju framför allt i bred användning av ej få på stora delar av datat felen tenderar att visa sig.


Eller så tänker dehelt helt fel här. Här kan man tänka rätt och fel under förutsättning att datat är kvalitativt. Rätt är att erbjuda båda vägarna till det. Dessbättre är världen verkligen inte så att man för språk okategoriserade n-gram representationer behöver anstränga sig för dem. Nu börjar vi ju tillochmed av och till se dem närmare i särskilda ämnesområden:



Jag tycker det är lika bra ärligt säga vad man tycker till dem så kanske något rättas till. Det är som jag skrev att mer osynligt och orefererat i hela domänen frekvens av n-gram på långt kortare siffror än de erbjuder här får man leta efter. Dessutom som jag ser på det var det många år sedan man blev bjuden på någon media resa till Kalifornien (och det slutade illa några år senare när någon ännu okänd sociopatisk student på universitetet snattade silverpennan när jag var där för föreläsning krypteringskursen jag köpte). Och kan man nu inte ens ladda ner CSV filer utan att sitta och koda någon särskild liten applikation i Visual Studio efter att läst in sig på den rekommenderade sidan om själva standarden i Wikipedia ser jag som inte Norbert Wiener meningsfullhet här: Vad är varumärket Microsoft för mig? Vilka problem kan deras lösningar få att försvinna för mig? Och är priset vad jag är beredd att acceptera. 5-gram corpus att vikta in med övriga - men ej kritiskt. Jag kan ta nedladdning av några hundra till tusen filer men jag tänker inte sitta och skicka miljoner på miljoner enskilda requests månad för månad.


Det är lätt komiskt i hur meningslöst lite dumt. Så egen från världen i den här domänen. En idé om nu ej förklarat på annat sätt om att skapa för sig själv och de som är intresserade att använda deras API för att förnöja team-känsla med Microsoft kan skapande idén hos dem att sådan användning adderar värde för bredare marknadsföring. Men reducerande där så lär det väl knappast vara lösning. Då tror jag mer på deras stora reklam-kampanjer för The Cloud (om den nu faktiskt levererar fungerande när använd och som vi förstår från den här händelsen: Är rimlig att kunna börja använda i tid för särskilda standarder, särskilda utvecklingsmiljöer m.m. redundant ingen annan på nätet verkar kräva för att använda deras API:er - En url brukar fungera bra). Bara dåligt.


Komplettering: Här kom ett svar. Det verkar lovande. Snabbt såväl som inriktad på att lösa problemet. Gav en fin sammanfattning av vad jag skrev men utan min upplevelse som jag ju också kände till innan. Kanske ska jag roa mig lite runt det här och e-posta någon helt borta från det här så det blir förvirrat hos dem. Någon kulturbärare kanske och allmänt engagerad kanske. Ett enkelt svar vore förstås rent allmänt att hänvisa till någon enkel begriplig policy runt datakvalitet. Det lär tänker jag kunna spara lite tid såväl som kanske göra den egna organisationen smidigare också. Då har man alla svar om det där.


Hans Husman
18:31 (0 minuter sedan)

till Ricky
If I can get the data from it without taking months sending abnormal amounts of requests.

And it like any other API I used is functional from a url without installing this Visual Studio or something similar.

It isn't for an additional set non focused something I plan to start a small project of writing some little gui app to sit and view a few months.

Best regards
Hans

Och Microsoft uppmuntrar till att se alla deras teknik-kunniga som ute i Microsoft-samhället. De är uttalat av Microsoft i filosofi offentliga personer när relevant för deras teknikområde. Komplettering: Och nu också verifierat att minnet är rätt från flera år gamla anteckningar. Rätt från hästens dåvarande mule i USA.


2015-05-19 18:12 GMT+02:00 Ricky Loynd :
Hi Hans,

Our service does not provide for download of the N-gram files or the data used to generate them. Please let us know if you would like an access token for the service.

Ricky Loynd

från: Hans Husman 
till: webngram@microsoft.com
datum: 19 maj 2015 18:02
ämne: Token / CSV
skickat från: gmail.com

till webngram 
I am not sure at all I want the token if it is a lot
of work turning out to be slow since I really
would need if woth the all data. 

I feel sceptical why I can not download it as files.
Like it might have problems or that youy have problems
handling large file downloads from your services.

Verifying it regardless of articles I noticed perhaps isnt easy here.

That one easily find all other sharing large ngram sets while it is
extremly non-obvious probably for anyone might be related this or
that your search service on research didn't give any results for n-gram.

Had I not previous ready through your data to last page shared I would not knew of it.

If this service do function to download without hours of useless works taking
months if at all to get down. Really do not bother with it.

Best regards

Det duger verkligen inte att sitta och dumhålla på data.