Meny Meny

Reddit signerer brukerdataene sine for å trene navnløs AI-modell

Etter hvert som brukerdata blir en stadig mer populær vare, planlegger et ikke navngitt AI-selskap et skudd på 60 millioner dollar for å skrape Reddit for AI-opplæringsformål. Bør vi være bekymret?

Tiår med Reddit-rusling kan bli drivstoff for neste generasjon AI-modeller.

Den selverklærte 'forsiden av internett' har angivelig forhandlet en innholdslisensavtale med et navngitt AI-selskap. For den kule prisen på 60 millioner dollar har denne virksomheten i teorien nå rett til å trene AI-modellen sin ved å bruke alt og alt som er lagt ut på Reddit.

Millioner av uopphørlige innlegg fra de mest populære subredditsene, lurkene og mengden av tvilsomme emner vil bli en rullende årlig handelsvare for denne ikke avslørte 'store spilleren' i Silicon Valley.

Denne overraskende avtalen kommer måneder etter Reddit truet å kutte av Google og Bings søkeroboter hvis en offisiell avtale ikke kunne inngås for å handle med dataene deres. En kilde fortalte Washington Post på det tidspunktet plattformen 'kan overleve' uten søk. Kanskje denne nåværende AI-avtalen var på trappene den gang?

Selv om Reddits årlige inntekt økte med 20 % i 2023, var den omtrent 200 millioner dollar sjenert av målet på 1 milliard dollar satt to år tidligere. Den forestående AI-pakten, parret med en åpning for offentlige investeringer neste måned vil imidlertid sannsynligvis sende Reddits beredskap nord for denne figuren.

Etter en tumultariske år, gir denne dataavveiningen perfekt mening for Reddit økonomisk sett. Nøyaktig hva det betyr for forbrukerne, og den stadig uklare etikken til AI er fortsatt opp til debatt.

Det er en av de verst bevarte hemmelighetene at brukerdataene våre er alt annet enn private i den moderne verden. Husk det siste vakthundstudie inn i Meta som viste at 48,000 XNUMX selskaper hadde sendt plattformdataene på en enkelt bruker uten samtykke?

Inntil nylig brukte de fleste AI-selskaper det åpne nettet for å trene modellene sine uten noen form for bekreftet grønt lys, men en kombinasjon av høyprofilerte tilfeller i 2023 så ut til å endre landskapet.

OpenAIs krangel med New York Times og Apples forhandlinger for store nyhetspartnere antydet at AI-selskaper begynte å etablere et sterkt juridisk rammeverk for dataskraping i tråd med lover om opphavsrett i andre sektorer.

På samme måte viser Reddits avtale at vertsselskaper begynner å kreve kompensasjon for data, men den viktigste forskjellen her er at dens 812 millioner månedlige brukere har ikke eksplisitt gitt sitt samtykke til å bli en del av AI-maskinen.

Uansett om Reddits vilkår for bruk oppdateres i fremtiden for åpenhet om hvor dataene våre går, vet vi at all digital informasjon før denne avtalen også er rettferdig. I lekmannstermer kan man vel ikke spørre om tillatelse i ettertid?

Kanskje dette er nøkkelforskjellen mellom å skrape nyhetskanaler og sosiale medieplattformer for AI-læring. Sistnevnte er nesten utelukkende befolket av brukergenerert innhold; bruken av disse synes å være helt opp til deres respektive ledelses skjønn.

I stedet for å lage AGI-plattformer (Artificial General Intelligence) med en mer utpreget menneskelig kvalitet, vil denne typen avtaler sannsynligvis bli mer vanlig i årene som kommer.

Selv om dette kan høres positivt ut, bare tenk på de endeløse mengdene av feilinformasjon og tull denne uidentifiserte læringsmaskinen vil bli utsatt for hvis alt går etter planen.

Det er Reddit for Petes skyld. Disse AI-sikringene må garantert forsterkes.

tilgjengelighet