Một hệ thống AI mới có thể tạo ra nhiều loại hình ảnh cả chân thực và siêu thực từ các mô tả bằng ngôn ngữ tự nhiên. Nó có khả năng thay đổi trò chơi, nhưng không phải là không có một số lo ngại.
Thuật toán và AI tiếp tục tạo nên làn sóng trong ngành nghệ thuật.
Bước đột phá mới nhất đến từ một nhóm nghiên cứu có tên là OpenAI, nhóm vừa tiết lộ phiên bản mới của chương trình DALL-E. Phần mềm này là một công cụ tạo văn bản thành hình ảnh để tạo ra các tác phẩm nghệ thuật dựa trên mô tả do người dùng nhập vào.
Xem bài đăng này trên Instagram
Được gọi là DALL-E 2, AI mới này sẽ không được cung cấp cho công chúng, nhưng các nhà nghiên cứu có thể đăng ký để xem trước các khả năng của nó. OpenAI cho biết họ có kế hoạch cuối cùng cung cấp phần mềm của mình để sử dụng trong các ứng dụng của bên thứ ba - mặc dù không có thông tin nào về thời điểm điều này sẽ xảy ra.
Hiện tại, chương trình sẽ được thử nghiệm bởi các đối tác đã hiệu đính.
Người dùng không được phép tải lên các hình ảnh được tạo có thể 'gây hại' và phải tiết lộ họ đang sử dụng AI để làm gì.
DALL-E 2 hoạt động như thế nào?
Mặc dù tôi hoàn toàn không phải là một chuyên gia mã hóa, nhưng tôi có thể xác nhận rằng DALL-E 2 hoạt động bằng thư viện hình ảnh được tạo sẵn. Thuật toán cung cấp vô số hình ảnh được gắn thẻ và sau đó tạo ra các tác phẩm nghệ thuật mới dựa trên những gì nó đã biết.
Giả sử bạn muốn tạo hình ảnh một con hổ trên một chiếc ca nô. Kỳ lạ, phải không? Nhưng DALL-E 2 sẽ tìm kiếm các tệp của nó để tìm xem cả 'chiếc xuồng' và 'con hổ' trông như thế nào, đồng thời tạo ra một tác phẩm duy nhất kết hợp cả hai một cách thuyết phục.
Xem bài đăng này trên Instagram
DALL-E 2 được xây dựng dựa trên CLIP của lần lặp đầu tiên, một hệ thống thị giác máy tính. OpenAI nói rằng phần mềm mới này tạo ra hình ảnh bằng cách sử dụng 'sự khuếch tán', theo đó một phần bắt đầu dưới dạng một vài dấu chấm và dần dần được lấp đầy bằng các chi tiết.
Quá trình này xảy ra thông qua mô hình hai giai đoạn. CLIP trước tiên khớp văn bản của bạn với các bức ảnh và hình ảnh hiện có khác, sau đó 'bộ giải mã' sẽ tự tạo ra hình ảnh đó.
Video trên đưa ra một minh chứng ngắn gọn về những gì có thể xảy ra, cho thấy những con mèo do AI tạo ra, các phiên bản được chỉnh sửa thực tế của hình ảnh có sẵn và một hệ thống ghi nhãn đối tượng phức tạp cho phép DALL-E 2 hiểu được lời nhắc của bạn. Đó là công cụ thực sự ấn tượng.
Điều thú vị là OpenAI nhấn mạnh rằng vẫn còn những lỗi và vấn đề cần khắc phục.
Xem bài đăng này trên Instagram
Các đối tượng được gắn nhãn sai có thể khiến thuật toán tạo ra hình ảnh không chính xác không phù hợp với mô tả văn bản được cung cấp. Ví dụ, nếu trong mã hóa của nó có một bức ảnh có sẵn của một chiếc ô tô được dán nhãn là 'máy bay', thì điều này có thể khiến máy phát điện đi chệch hướng hoàn toàn, gửi lại một chiếc BMW thay vì một chiếc Boeing.
Ngoài ra, các lời nhắc rất cụ thể không thể thực hiện được cho đến khi AI đã gắn nhãn và tìm hiểu các đối tượng liên quan là gì.
Yêu cầu thị trấn hoặc loài động vật quý hiếm có thể dẫn đến hình ảnh không chính xác, mờ nhạt cho đến khi thuật toán được cải thiện. Hãy nhớ rằng đây chỉ là lần lặp lại thứ hai của DALL-E, vì vậy chắc chắn chúng ta sẽ thấy nhiều bản trình diễn đáng kinh ngạc hơn nữa trong tương lai.