Menu Menu

Reddit đăng nhập dữ liệu người dùng của mình để đào tạo mô hình AI giấu tên

Khi dữ liệu người dùng ngày càng trở thành một mặt hàng nóng, một công ty AI giấu tên được cho là đang âm mưu chi 60 triệu USD để mua Reddit cho mục đích đào tạo AI. Chúng ta có nên lo lắng không?

Những lời huyên thuyên của Reddit trong nhiều thập kỷ có thể trở thành nhiên liệu cho thế hệ mô hình AI tiếp theo.

'Trang nhất của Internet' tự xưng đã đàm phán một thỏa thuận thỏa thuận cấp phép nội dung với một công ty AI giấu tên. Về mặt lý thuyết, với mức giá hấp dẫn là 60 triệu USD, doanh nghiệp này hiện có quyền đào tạo mô hình AI của mình bằng cách sử dụng bất kỳ thứ gì và mọi thứ được đăng trên Reddit.

Hàng triệu bài đăng không ngừng từ các subreddits phổ biến nhất, những người ẩn giấu và những chủ đề nghi vấn sẽ trở thành một mặt hàng hàng năm cho 'người chơi lớn' không được tiết lộ này của Thung lũng Silicon.

Thỏa thuận đáng ngạc nhiên này đến vài tháng sau Reddit bị đe dọa để cắt các trình thu thập thông tin tìm kiếm của Google và Bing nếu không thể đạt được thỏa thuận chính thức để trao đổi dữ liệu của nó. Một nguồn tin nói với The Washington Post vào thời điểm nền tảng "có thể tồn tại" mà không cần tìm kiếm. Có lẽ thỏa thuận AI hiện tại này đã được thực hiện vào thời điểm đó?

Mặc dù doanh thu hàng năm của Reddit tăng 20% ​​vào năm 2023, nhưng con số này gần bằng 200 triệu USD ngượng ngùng trong số mục tiêu 1 tỷ USD được đặt ra hai năm trước. Hiệp ước AI sắp xảy ra, kết hợp với sự mở đầu cho đầu tư công tuy nhiên, vào tháng tới, có thể Reddit sẽ sẵn sàng vượt xa con số này.

Sau một vài năm hỗn loạn, sự đánh đổi dữ liệu này có ý nghĩa hoàn hảo đối với Reddit về mặt tài chính. Tuy nhiên, ý nghĩa chính xác của nó đối với người tiêu dùng và đạo đức luôn mờ mịt của AI vẫn còn là vấn đề tranh luận.

Một trong những bí mật được giữ kín tồi tệ nhất là dữ liệu người dùng của chúng ta không hề được coi là riêng tư trong thế giới hiện đại. Hãy nhớ rằng gần đây nghiên cứu giám sát vào Meta cho thấy 48,000 công ty đã gửi dữ liệu nền tảng của một người dùng mà không có sự đồng ý?

Cho đến gần đây, hầu hết các công ty AI đã sử dụng web mở để đào tạo mô hình của họ mà không có bất kỳ hình thức bật đèn xanh nào được xác minh, nhưng sự kết hợp của các trường hợp nổi bật vào năm 2023 dường như đang thay đổi cục diện.

Sự phân minh của OpenAI với Bán Chạy Nhất của Báo New York Timescuộc đàm phán của Apple đối với các đối tác tin tức lớn cho rằng các công ty AI đang bắt đầu thiết lập một khuôn khổ pháp lý mạnh mẽ cho việc thu thập dữ liệu phù hợp với luật bản quyền trong các lĩnh vực khác.

Tương tự, thỏa thuận của Reddit cho thấy các công ty lưu trữ đang bắt đầu yêu cầu bồi thường dữ liệu, nhưng điểm khác biệt chính ở đây là nó 812 triệu người dùng hàng tháng chưa đưa ra sự đồng ý rõ ràng để trở thành một phần của cỗ máy AI.

Cho dù các điều khoản dịch vụ của Reddit có được cập nhật trong tương lai hay không để minh bạch về nơi dữ liệu của chúng tôi đi, chúng tôi biết rằng tất cả thông tin kỹ thuật số trước thỏa thuận này cũng là trò chơi công bằng. Theo thuật ngữ thông thường, bạn không thể xin phép sau khi thực tế phải không?

Có lẽ đây là điểm khác biệt chính giữa các kênh tin tức và nền tảng truyền thông xã hội dành cho việc học AI. Phần sau gần như hoàn toàn được tạo bởi nội dung do người dùng tạo; việc sử dụng chúng dường như hoàn toàn phụ thuộc vào quyết định của ban quản lý tương ứng của họ.

Thay vì tạo ra các nền tảng AGI (Trí tuệ tổng hợp nhân tạo) với chất lượng con người rõ ràng hơn, loại thỏa thuận này có thể sẽ trở nên phổ biến hơn trong những năm tới.

Mặc dù điều này nghe có vẻ tích cực, nhưng hãy nghĩ đến vô số thông tin sai lệch và vô nghĩa mà cỗ máy học tập không xác định này sẽ phải đối mặt nếu mọi việc diễn ra theo đúng kế hoạch.

Đó là Reddit vì lợi ích của Pete. Những biện pháp bảo vệ AI đó chắc chắn sẽ cần được tăng cường.

Khả Năng Tiếp Cận