Menu Menu

Reddit trasferisce i propri dati utente per addestrare un modello AI senza nome

Poiché i dati degli utenti diventano una merce sempre più richiesta, una società di intelligenza artificiale senza nome starebbe pianificando un colpo da 60 milioni di dollari per raschiare Reddit a fini di formazione sull'intelligenza artificiale. Dovremmo preoccuparci?

Decenni di divagazioni su Reddit potrebbero diventare carburante per la prossima generazione di modelli di intelligenza artificiale.

Secondo quanto riferito, l'autoproclamata "prima pagina di Internet" ha negoziato a accordo di licenza sui contenuti con una società di intelligenza artificiale senza nome. Per la cifra interessante di 60 milioni di dollari, questa azienda, in teoria, ora ha il diritto di addestrare il suo modello di intelligenza artificiale utilizzando qualsiasi cosa pubblicata su Reddit.

Milioni di post incessanti dai subreddit più popolari, dai lurker e dalla feccia di argomenti discutibili diventeranno una merce annuale continua per questo "grande attore" nascosto della Silicon Valley.

Questo sorprendente accordo arriva mesi dopo Reddit minacciato per tagliare i crawler di ricerca di Google e Bing se non fosse stato possibile raggiungere un accordo ufficiale per scambiare i suoi dati. Una fonte ha detto al Il Washington Post nel momento in cui la piattaforma "può sopravvivere" senza ricerca. Forse l’attuale accordo sull’intelligenza artificiale era in vista allora?

Sebbene le entrate annuali di Reddit siano aumentate del 20% nel 2023, è stato più o meno $ 200 milioni in meno del suo obiettivo di 1 miliardo di dollari fissato due anni prima. L’imminente patto sull’IA, abbinato a un’apertura per investimento pubblico il mese prossimo, tuttavia, probabilmente manderà i preparativi di Reddit ben oltre questa cifra.

Dopo un alcuni anni tumultuosi, questo compromesso sui dati ha perfettamente senso per Reddit dal punto di vista finanziario. Tuttavia, cosa significhi esattamente per i consumatori e l’etica sempre oscura dell’intelligenza artificiale rimane oggetto di dibattito.

È uno dei segreti peggio custoditi il ​​fatto che i dati dei nostri utenti siano tutt'altro che privati ​​nel mondo moderno. Ricordatelo recente studio del cane da guardia in Meta che mostrava che 48,000 aziende avevano inviato alla piattaforma dati su un singolo utente senza consenso?

Fino a poco tempo fa, la maggior parte delle aziende di intelligenza artificiale utilizzavano il web aperto per addestrare i propri modelli senza alcun tipo di via libera verificata, ma una combinazione di casi di alto profilo nel 2023 sembrava cambiare il panorama.

Il cavillo di OpenAI con il New York Times ed Le trattative di Apple per i principali partner giornalistici hanno suggerito che le società di intelligenza artificiale stavano iniziando a stabilire un solido quadro giuridico per lo scraping dei dati in linea con le leggi sul copyright in altri settori.

Allo stesso modo, l’accordo di Reddit mostra che le società host stanno iniziando a chiedere un compenso per i dati, ma la differenza fondamentale qui è che 812 milioni di utenti mensili non hanno dato esplicitamente il consenso a diventare parte della macchina dell’intelligenza artificiale.

Indipendentemente dal fatto che i termini di servizio di Reddit vengano aggiornati o meno in futuro per garantire trasparenza su dove vanno i nostri dati, sappiamo che anche tutte le informazioni digitali precedenti a questo accordo sono un gioco leale. In parole povere, non puoi chiedere il permesso dopo il fatto, vero?

Forse questa è la differenza fondamentale tra la raccolta di notizie e le piattaforme di social media per l’apprendimento tramite intelligenza artificiale. Quest'ultimo è quasi interamente popolato da contenuti generati dagli utenti; il cui utilizzo sembra essere completamente a discrezione dei rispettivi dirigenti.

Invece di creare piattaforme AGI (Artificial General Intelligence) con una qualità più distintamente umana, questo tipo di accordo diventerà probabilmente più comune negli anni a venire.

Anche se questo può sembrare positivo, basti pensare alle infinite quantità di disinformazione e sciocchezze a cui sarà soggetta questa macchina per l’apprendimento non identificata se tutto va secondo i piani.

È Reddit, per l'amor di Pete. Queste misure di salvaguardia dell’IA dovranno sicuramente essere rafforzate.

Accessibilità