Menu Menu

AI DALL-E 2 mới tạo hình ảnh từ lời nhắc văn bản

Một hệ thống AI mới có thể tạo ra nhiều loại hình ảnh cả chân thực và siêu thực từ các mô tả bằng ngôn ngữ tự nhiên. Nó có khả năng thay đổi trò chơi, nhưng không phải là không có một số lo ngại.

Thuật toán và AI tiếp tục tạo nên làn sóng trong ngành nghệ thuật.

Bước đột phá mới nhất đến từ một nhóm nghiên cứu có tên là OpenAI, nhóm vừa tiết lộ phiên bản mới của chương trình DALL-E. Phần mềm này là một công cụ tạo văn bản thành hình ảnh để tạo ra các tác phẩm nghệ thuật dựa trên mô tả do người dùng nhập vào.

Được gọi là DALL-E 2, AI mới này sẽ không được cung cấp cho công chúng, nhưng các nhà nghiên cứu có thể đăng ký để xem trước các khả năng của nó. OpenAI cho biết họ có kế hoạch cuối cùng cung cấp phần mềm của mình để sử dụng trong các ứng dụng của bên thứ ba - mặc dù không có thông tin nào về thời điểm điều này sẽ xảy ra.

Hiện tại, chương trình sẽ được thử nghiệm bởi các đối tác đã hiệu đính.

Người dùng không được phép tải lên các hình ảnh được tạo có thể 'gây hại' và phải tiết lộ họ đang sử dụng AI để làm gì.


DALL-E 2 hoạt động như thế nào?

Mặc dù tôi hoàn toàn không phải là một chuyên gia mã hóa, nhưng tôi có thể xác nhận rằng DALL-E 2 hoạt động bằng thư viện hình ảnh được tạo sẵn. Thuật toán cung cấp vô số hình ảnh được gắn thẻ và sau đó tạo ra các tác phẩm nghệ thuật mới dựa trên những gì nó đã biết.

Giả sử bạn muốn tạo hình ảnh một con hổ trên một chiếc ca nô. Kỳ lạ, phải không? Nhưng DALL-E 2 sẽ tìm kiếm các tệp của nó để tìm xem cả 'chiếc xuồng' và 'con hổ' trông như thế nào, đồng thời tạo ra một tác phẩm duy nhất kết hợp cả hai một cách thuyết phục.

DALL-E 2 được xây dựng dựa trên CLIP của lần lặp đầu tiên, một hệ thống thị giác máy tính. OpenAI nói rằng phần mềm mới này tạo ra hình ảnh bằng cách sử dụng 'sự khuếch tán', theo đó một phần bắt đầu dưới dạng một vài dấu chấm và dần dần được lấp đầy bằng các chi tiết.

Quá trình này xảy ra thông qua mô hình hai giai đoạn. CLIP trước tiên khớp văn bản của bạn với các bức ảnh và hình ảnh hiện có khác, sau đó 'bộ giải mã' sẽ tự tạo ra hình ảnh đó.

Video trên đưa ra một minh chứng ngắn gọn về những gì có thể xảy ra, cho thấy những con mèo do AI tạo ra, các phiên bản được chỉnh sửa thực tế của hình ảnh có sẵn và một hệ thống ghi nhãn đối tượng phức tạp cho phép DALL-E 2 hiểu được lời nhắc của bạn. Đó là công cụ thực sự ấn tượng.

Điều thú vị là OpenAI nhấn mạnh rằng vẫn còn những lỗi và vấn đề cần khắc phục.

Các đối tượng được gắn nhãn sai có thể khiến thuật toán tạo ra hình ảnh không chính xác không phù hợp với mô tả văn bản được cung cấp. Ví dụ, nếu trong mã hóa của nó có một bức ảnh có sẵn của một chiếc ô tô được dán nhãn là 'máy bay', thì điều này có thể khiến máy phát điện đi chệch hướng hoàn toàn, gửi lại một chiếc BMW thay vì một chiếc Boeing.

Ngoài ra, các lời nhắc rất cụ thể không thể thực hiện được cho đến khi AI đã gắn nhãn và tìm hiểu các đối tượng liên quan là gì.

Yêu cầu thị trấn hoặc loài động vật quý hiếm có thể dẫn đến hình ảnh không chính xác, mờ nhạt cho đến khi thuật toán được cải thiện. Hãy nhớ rằng đây chỉ là lần lặp lại thứ hai của DALL-E, vì vậy chắc chắn chúng ta sẽ thấy nhiều bản trình diễn đáng kinh ngạc hơn nữa trong tương lai.


Tại sao điều này có thể gây ra vấn đề cho các nghệ sĩ?

Sau khi xem qua tác phẩm nghệ thuật do DALL-E 2 tạo ra, thật khó để không cảm thấy phấn khích trước khả năng của công nghệ.

Tuy nhiên, chúng ta nên lưu ý đến những cạm bẫy tiềm ẩn. Các nghệ sĩ đã gặp rất nhiều khó khăn trong việc kiếm tiền cho công việc của họ trong thời đại internet - đó là lý do ban đầu cho NFT - và một công cụ hình ảnh dựa trên thuật toán mới có thể khiến nhiều họa sĩ minh họa kỹ thuật số thời gian nhỏ bị loại khỏi công việc kinh doanh.

Việc xác minh tính xác thực của một hình ảnh hoặc bức tranh trực tuyến cũng sẽ trở nên khó khăn hơn nhiều và có thể làm giảm giá trị tác phẩm của những con người chân chính. Khả năng đúc hình ảnh tức thì có thể trở thành một khả năng, tạo ra một thị trường NFT thậm chí còn khai thác nhiều hơn.

Nếu tất cả mọi người đều có thể tạo ra bất cứ thứ gì ngay lập tức, thì các bức tranh minh họa và tranh vẽ có mất hết giá trị thương mại không? Bản thân nghệ thuật có đơn giản trở thành một ứng dụng hoặc công cụ khác cho bất kỳ ai sử dụng không?

Có những câu hỏi lớn, tồn tại về tác động của phần mềm thực sự mang tính đột phá như vậy, nhiều câu hỏi trong số đó chúng ta không có câu trả lời.

Đối với tín dụng của OpenAI, có vẻ như rất ý thức về những nguy hiểm. Nó nói rằng DALL-E 2 sẽ không bao giờ được cung cấp đầy đủ cho công chúng và sẽ chỉ được triển khai từ từ cho các nhà nghiên cứu và đối tác đáng tin cậy dựa trên phản hồi. Người dùng sẽ cần phải nói lý do tại sao họ đang sử dụng phần mềm và không được tạo bất kỳ hình ảnh nào khiêu dâm hoặc có hại.

Nó muốn đảm bảo rằng thông tin sai lệch hoặc hình ảnh giả mạo sâu sắc sẽ không gây thêm sự tàn phá cho hệ thống chính trị và diễn ngôn trực tuyến của chúng ta.

Những ý định này nghe có vẻ đã đủ, nhưng ai có thể nói rằng những người lập trình khác, kém thiện chí hơn sẽ không đơn giản sao chép công việc của OpenAI? Chúng ta đã thấy một ứng dụng có tên là Wombo's Dream ra mắt vào năm ngoái, rõ ràng là dựa trên khái niệm này.

Bạn có thể truy cập nó ngay bây giờ - mặc dù nó kém tinh vi hơn nhiều so với DALL-E 2.

Cuối cùng, chúng tôi không biết công nghệ này có thể tác động đến thế giới nghệ thuật như thế nào. Những gì chúng tôi do biết rằng mọi thứ đang trở nên ấn tượng một cách đáng sợ, thậm chí có thể là một thung lũng nhỏ kỳ lạ. Hiện tại, OpenAI dường như đang tung ra các sản phẩm của mình một cách có trách nhiệm - và đó là điều tốt nhất chúng ta có thể hy vọng ở giai đoạn đầu này.

Khả Năng Tiếp Cận