Yahoo har frigivet et væld af anonyme brugerdata for at hjælpe maskinlæringsforskere

Maskinlæring griber fat i alle former for applikationer, fra selvkørende biler til billedgenkendelse til online anbefalingsmotorer. Men medmindre du er en Google eller en Facebook, er det svært at få dine hænder på den slags massive, virkelige verdens datasæt, der kræves for at teste og validere maskinlæringsprogrammer.

Yahoo har bidraget til at rette op med det med frigivelsen torsdag af det, det kaldte det "største nogensinde" datasæt, der blev stillet til rådighed for maskinlæringsforskere. Det er en samling af anonymiserede brugerinteraktioner med nyhedsdampene på websteder som Yahoo News og Yahoo Sports.

INSIDER: Hvordan TD Ameritrades Chief Data Officer driver forandring

Yahoo siger, at der er 110 milliarder begivenheder i filen - eller 110 milliarder optegnelser over, da en bruger klikkede på en nyhedshistorie eller udførte anden handling i feedet - og det omfatter 13,5 TB data, eller 1,5 TB komprimeret. Det er mere end ti gange størrelsen på det tidligere største datasæt, der er frigivet, siger Yahoo.

Yahoo

Dataene kommer fra interaktion med dets nyhedsfeed, området med rødt ovenfor

"Data er livets blod for forskning inden for maskinlæring," sagde virksomheden. "Adgang til virkelig storskala datasæt er et privilegium, der traditionelt er blevet reserveret for maskinlæringsforskere og dataforskere, der arbejder hos store virksomheder - og uden for rækkevidde for de fleste akademiske forskere."

Maskinlæring henviser til en klasse programmer, der "lærer" og forbedrer deres evne til at løse problemer over tid. Et tidligt eksempel var spamdetektion, men maskinlæring bruges til billedgenkendelse, sprogoversættelse og et utal af andre opgaver, herunder nogle til erhvervslivet. Google sagde for nylig, at det var "at genoverveje alt, hvad vi laver" omkring maskinlæring.

Computere skaber modeller og skriver algoritmer til vejledning i maskinlæringssystemer, men de har brug for store datasæt, som de kan teste modellerne og forbedre dem.

De kan bruge syntetiske, kunstigt oprettede datasæt, men de afspejler ikke det rod og uforudsigelige opførsel, som mennesker udviser online, sagde Suju Rajan, Yahoos direktør for forskning inden for personaliseringsvidenskab.

 "Data i den virkelige verden er rodet, de giver en masse udfordringer, og disse udfordringer tænkes ikke nødvendigvis på, når nogen opretter et kunstigt datasæt," sagde hun. "Hvis du ikke tager hensyn til min opførsel, fungerer den algoritme, du opretter, muligvis ikke så godt."

Hun forventer, at forskere vil bruge dataene til at hjælpe med at opbygge bedre anbefalingsmotorer, som dem på Netflix og Amazon. Men hun siger, at det også kan føre til andre forskningsområder, f.eks. Indhentning af information, ranking af social feed og endda systemteknik ved at hjælpe skyudbydere med at beslutte, hvordan de behandler data, når brugerne interagerer med det.

Brugerdataene skulle være tilgængelige til download torsdag gennem Yahoo Labs 'Webscope-datadelingsprogram, et bibliotek med anonyme datasæt til ikke-kommerciel brug.

Det er baseret på brugerinteraktioner med Yahoo News, Sport, Finance, Film og Real Estate. Data blev indsamlet over fire måneder begyndt sidste år fra 20 millioner Yahoo-brugere. Ud over interaktionsdata inkluderer det kategoriserede demografiske oplysninger, som aldersområde og køn, til en undergruppe af brugerne. Det frigiver også titlen, resuméet og nøglesætningerne for de relaterede nyhedsartikler.

Yahoo siger, at det tidligere største datasæt, der blev frigivet sidste år af online marketingfirmaet Criteo, var 1 TB i størrelse og omfattede omkring 4 milliarder begivenheder.

Det siger, at dets mål er at udjævne spillereglen lidt for akademiske forskere, som ofte har mere frihed til at forfølge projekter med lang rækkevidde end deres kolleger i virksomheder, men som mangler data fra den virkelige verden til at gøre det med.

"De kan muligvis løse problemer på en måde, som vi kan bruge på Yahoo, eller komme med nye forskningsproblemer, som vi ikke engang har tænkt på endnu," sagde Rajan.

Deltag i Network World-samfundene på Facebook og LinkedIn for at kommentere emner, der er øverste af sindet.