Meny Meny

Reddit signerar sina användardata för att träna namnlös AI-modell

När användardata blir en alltmer hetare råvara, planerar ett icke namngivet AI-företag en satsning på 60 miljoner dollar för att skrapa Reddit för AI-träningsändamål. Bör vi vara oroliga?

Decennier av Reddit-promenader kan bli bränsle för nästa generations AI-modeller.

Den självutnämnda "internets förstasida" har enligt uppgift förhandlat fram en innehållslicensavtal med ett icke namngivet AI-företag. För det coola priset på 60 miljoner dollar har detta företag, i teorin, nu rätt att träna sin AI-modell med hjälp av allt och allt som publiceras på Reddit.

Miljontals oupphörliga inlägg från de mest populära subredditerna, lurarna och skräpet av tvivelaktiga ämnen kommer att bli en rullande årlig handelsvara för denna hemliga "stora spelare" i Silicon Valley.

Denna överraskande affär kommer månader efter Reddit hotade att stänga av Google och Bings sökrobotar om en officiell affär inte kunde träffas för att handla med dess data. En källa sa till Washington Post vid den tidpunkt då plattformen "kan överleva" utan sökning. Kanske var den här nuvarande AI-affären på gång då?

Även om Reddits årliga intäkter ökade med 20 % 2023, var det ungefär 200 miljoner dollar blyg av sitt mål på 1 miljard dollar som sattes upp två år tidigare. Den förestående AI-pakten, parad med en öppning för offentliga investeringar nästa månad kommer dock sannolikt att skicka Reddits redo norr om denna siffra.

Efter en tumultartade år, denna dataavvägning är perfekt för Reddit ekonomiskt sett. Men exakt vad det betyder för konsumenterna och den ständigt grumliga etiken kring AI är fortfarande uppe för debatt.

Det är en av de sämst bevarade hemligheterna att vår användardata är allt annat än privat i den moderna världen. Kom ihåg det senaste vakthundstudie till Meta som visade att 48,000 XNUMX företag hade skickat plattformsdata på en enda användare utan samtycke?

Tills nyligen använde de flesta AI-företag den öppna webben för att träna sina modeller utan någon form av verifierat grönt ljus, men en kombination av högprofilerade fall 2023 verkade förändra landskapet.

OpenAI:s käbbla med New York Times och Apples förhandlingar för stora nyhetspartners föreslog att AI-företag började etablera en stark rättslig ram för dataskrapning i linje med upphovsrättslagar i andra sektorer.

På samma sätt visar Reddits affär att värdföretag börjar kräva ersättning för data, men den viktigaste skillnaden här är att dess 812 miljoner månadsanvändare har inte uttryckligen gett sitt samtycke till att bli en del av AI-maskinen.

Oavsett om Reddits användarvillkor uppdateras i framtiden för transparens om vart vår data går, vet vi att all digital information före denna affär också är rättvist. I lekmannaspråk kan man väl inte be om lov i efterhand?

Kanske är detta nyckelskillnaden mellan att skrapa nyhetskanaler och sociala medieplattformar för AI-inlärning. Det senare är nästan helt befolkat av användargenererat innehåll; vars användning tycks vara helt beroende av deras respektive lednings bedömning.

I stället för att skapa AGI-plattformar (Artificial General Intelligence) med en mer distinkt mänsklig kvalitet, kommer den här typen av affärer sannolikt att bli vanligare under de kommande åren.

Även om detta kan låta positivt, tänk bara på de oändliga mängderna av desinformation och nonsens som denna oidentifierade inlärningsmaskin kommer att utsättas för om allt går enligt planerna.

Det är Reddit för Petes skull. Dessa AI-skydd kommer säkert att behöva förstärkas.

Tillgänglighet