AI DALL-E 2 mới tạo hình ảnh từ lời nhắc văn bản

văn hóa
Thiết kế
Đăng ngày 14 tháng 2022 năm XNUMX

Tín dụng: OpenAI

By Charlie Coombs

London, Vương quốc Anh

2 năng lượng - Loại bỏ năng lượng

0 comments

Một hệ thống AI mới có thể tạo ra nhiều loại hình ảnh cả chân thực và siêu thực từ các mô tả bằng ngôn ngữ tự nhiên. Nó có khả năng thay đổi trò chơi, nhưng không phải là không có một số lo ngại.

Thuật toán và AI tiếp tục tạo nên làn sóng trong ngành nghệ thuật.

Bước đột phá mới nhất đến từ một nhóm nghiên cứu có tên là OpenAI, nhóm vừa tiết lộ phiên bản mới của chương trình DALL-E. Phần mềm này là một công cụ tạo văn bản thành hình ảnh để tạo ra các tác phẩm nghệ thuật dựa trên mô tả do người dùng nhập vào.

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

Được gọi là DALL-E 2, AI mới này sẽ không được cung cấp cho công chúng, nhưng các nhà nghiên cứu có thể đăng ký để xem trước các khả năng của nó. OpenAI cho biết họ có kế hoạch cuối cùng cung cấp phần mềm của mình để sử dụng trong các ứng dụng của bên thứ ba - mặc dù không có thông tin nào về thời điểm điều này sẽ xảy ra.

Hiện tại, chương trình sẽ được thử nghiệm bởi các đối tác đã hiệu đính.

Người dùng không được phép tải lên các hình ảnh được tạo có thể 'gây hại' và phải tiết lộ họ đang sử dụng AI để làm gì.

https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship

DALL-E is coming… World-changing AI image generator (https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship)

DALL-E 2 hoạt động như thế nào?

Mặc dù tôi hoàn toàn không phải là một chuyên gia mã hóa, nhưng tôi có thể xác nhận rằng DALL-E 2 hoạt động bằng thư viện hình ảnh được tạo sẵn. Thuật toán cung cấp vô số hình ảnh được gắn thẻ và sau đó tạo ra các tác phẩm nghệ thuật mới dựa trên những gì nó đã biết.

Giả sử bạn muốn tạo hình ảnh một con hổ trên một chiếc ca nô. Kỳ lạ, phải không? Nhưng DALL-E 2 sẽ tìm kiếm các tệp của nó để tìm xem cả 'chiếc xuồng' và 'con hổ' trông như thế nào, đồng thời tạo ra một tác phẩm duy nhất kết hợp cả hai một cách thuyết phục.

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

DALL-E 2 được xây dựng dựa trên CLIP của lần lặp đầu tiên, một hệ thống thị giác máy tính. OpenAI nói rằng phần mềm mới này tạo ra hình ảnh bằng cách sử dụng 'sự khuếch tán', theo đó một phần bắt đầu dưới dạng một vài dấu chấm và dần dần được lấp đầy bằng các chi tiết.

Quá trình này xảy ra thông qua mô hình hai giai đoạn. CLIP trước tiên khớp văn bản của bạn với các bức ảnh và hình ảnh hiện có khác, sau đó 'bộ giải mã' sẽ tự tạo ra hình ảnh đó.

https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI

DALL·E 2 Explained (https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI)

Video trên đưa ra một minh chứng ngắn gọn về những gì có thể xảy ra, cho thấy những con mèo do AI tạo ra, các phiên bản được chỉnh sửa thực tế của hình ảnh có sẵn và một hệ thống ghi nhãn đối tượng phức tạp cho phép DALL-E 2 hiểu được lời nhắc của bạn. Đó là công cụ thực sự ấn tượng.

Điều thú vị là OpenAI nhấn mạnh rằng vẫn còn những lỗi và vấn đề cần khắc phục.

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

Các đối tượng được gắn nhãn sai có thể khiến thuật toán tạo ra hình ảnh không chính xác không phù hợp với mô tả văn bản được cung cấp. Ví dụ, nếu trong mã hóa của nó có một bức ảnh có sẵn của một chiếc ô tô được dán nhãn là 'máy bay', thì điều này có thể khiến máy phát điện đi chệch hướng hoàn toàn, gửi lại một chiếc BMW thay vì một chiếc Boeing.

Ngoài ra, các lời nhắc rất cụ thể không thể thực hiện được cho đến khi AI đã gắn nhãn và tìm hiểu các đối tượng liên quan là gì.

Yêu cầu thị trấn hoặc loài động vật quý hiếm có thể dẫn đến hình ảnh không chính xác, mờ nhạt cho đến khi thuật toán được cải thiện. Hãy nhớ rằng đây chỉ là lần lặp lại thứ hai của DALL-E, vì vậy chắc chắn chúng ta sẽ thấy nhiều bản trình diễn đáng kinh ngạc hơn nữa trong tương lai.

https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI

How does DALL·E 2 work? (OpenAI text-to-image model explained) (https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI)

Tại sao điều này có thể gây ra vấn đề cho các nghệ sĩ?

Sau khi xem qua tác phẩm nghệ thuật do DALL-E 2 tạo ra, thật khó để không cảm thấy phấn khích trước khả năng của công nghệ.

Tuy nhiên, chúng ta nên lưu ý đến những cạm bẫy tiềm ẩn. Các nghệ sĩ đã gặp rất nhiều khó khăn trong việc kiếm tiền cho công việc của họ trong thời đại internet - đó là lý do ban đầu cho NFT - và một công cụ hình ảnh dựa trên thuật toán mới có thể khiến nhiều họa sĩ minh họa kỹ thuật số thời gian nhỏ bị loại khỏi công việc kinh doanh.

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

Việc xác minh tính xác thực của một hình ảnh hoặc bức tranh trực tuyến cũng sẽ trở nên khó khăn hơn nhiều và có thể làm giảm giá trị tác phẩm của những con người chân chính. Khả năng đúc hình ảnh tức thì có thể trở thành một khả năng, tạo ra một thị trường NFT thậm chí còn khai thác nhiều hơn.

Nếu tất cả mọi người đều có thể tạo ra bất cứ thứ gì ngay lập tức, thì các bức tranh minh họa và tranh vẽ có mất hết giá trị thương mại không? Bản thân nghệ thuật có đơn giản trở thành một ứng dụng hoặc công cụ khác cho bất kỳ ai sử dụng không?

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

Có những câu hỏi lớn, tồn tại về tác động của phần mềm thực sự mang tính đột phá như vậy, nhiều câu hỏi trong số đó chúng ta không có câu trả lời.

Đối với tín dụng của OpenAI, có vẻ như rất ý thức về những nguy hiểm. Nó nói rằng DALL-E 2 sẽ không bao giờ được cung cấp đầy đủ cho công chúng và sẽ chỉ được triển khai từ từ cho các nhà nghiên cứu và đối tác đáng tin cậy dựa trên phản hồi. Người dùng sẽ cần phải nói lý do tại sao họ đang sử dụng phần mềm và không được tạo bất kỳ hình ảnh nào khiêu dâm hoặc có hại.

Nó muốn đảm bảo rằng thông tin sai lệch hoặc hình ảnh giả mạo sâu sắc sẽ không gây thêm sự tàn phá cho hệ thống chính trị và diễn ngôn trực tuyến của chúng ta.

Xem bài đăng này trên Instagram

Một bài đăng được chia sẻ bởi DALL · E bởi OpenAI (@openaidalle)

Những ý định này nghe có vẻ đã đủ, nhưng ai có thể nói rằng những người lập trình khác, kém thiện chí hơn sẽ không đơn giản sao chép công việc của OpenAI? Chúng ta đã thấy một ứng dụng có tên là Wombo's Dream ra mắt vào năm ngoái, rõ ràng là dựa trên khái niệm này.

Bạn có thể truy cập nó ngay bây giờ - mặc dù nó kém tinh vi hơn nhiều so với DALL-E 2.

Cuối cùng, chúng tôi không biết công nghệ này có thể tác động đến thế giới nghệ thuật như thế nào. Những gì chúng tôi do biết rằng mọi thứ đang trở nên ấn tượng một cách đáng sợ, thậm chí có thể là một thung lũng nhỏ kỳ lạ. Hiện tại, OpenAI dường như đang tung ra các sản phẩm của mình một cách có trách nhiệm - và đó là điều tốt nhất chúng ta có thể hy vọng ở giai đoạn đầu này.

Charlie Coombs

Tổng biên tập London, Vương quốc Anh

Tôi là Charlie (Anh ấy / Anh ấy), Tổng biên tập tại Thred. Tôi học tiếng Anh tại Đại học Birmingham và là một người đam mê âm nhạc và chơi game, tôi là một người mê văn hóa đại chúng. Bạn có thể thấy tôi quản lý danh sách phát, thiết kế hình ảnh tiêu đề bài viết và nhấm nháp rượu táo vào thứ Năm. Theo dõi tôi trên Twitter, LinkedIn và gửi cho tôi một số ý tưởng / phản hồi qua e-mail.

Thêm từ thred.

'Mắt sinh học' giải đáp bí ẩn về nơi an nghỉ cuối cùng của Plato

Tín dụng: Thred

phong cách sôi nổi

'Mắt sinh học' giải đáp bí ẩn về nơi an nghỉ cuối cùng của Plato

Nhà nghiên cứu người Ý, Graziano Ranocchia, cuối cùng có thể đã giải đáp được bí ẩn về nơi an nghỉ cuối cùng của Plato. Một 'con mắt sinh học' được hỗ trợ bởi AI đã quét một cuộn giấy carbon hóa 2,000 năm tuổi được viết vào khoảng năm 348 trước Công nguyên để xác định chính xác một địa điểm cụ thể ở Athens. Bí ẩn về nơi yên nghỉ của một trong những nhà triết học vĩ đại nhất thế giới có thể vừa được giải đáp – trớ trêu thay lại bằng một cỗ máy. Việc chôn cất Plato, được cho là tôn kính nhất trong số các nhà tư tưởng nền tảng của triết học Hy Lạp...

By Jamie Watts London, Vương quốc Anh

Thiên nhiên đã chính thức trở thành nhạc sĩ

Tín dụng: Pexels

Phương tiện truyền thông

Thiên nhiên đã chính thức trở thành nhạc sĩ

Là một phần của chiến dịch mới, Nature đã được công nhận là nghệ sĩ trên các nền tảng phát trực tuyến lớn, bao gồm cả Spotify. Tiền bản quyền sẽ hướng tới việc hỗ trợ các sáng kiến hành động về khí hậu trên toàn cầu. Nhiệt độ đang tăng lên, môi trường sống đang bị thu hẹp và các sông băng đang tan chảy với tốc độ chưa từng thấy. Khi khí hậu thay đổi, nỗi đau khổ của Trái đất tiếp tục đạt đến những tầm cao mới và thực tế là chúng ta sắp hết thời gian để làm điều gì đó để giải quyết vấn đề này trở thành...

By Sofia Phillips London, Vương quốc Anh

'Lý thuyết Internet chết' là gì và nó có thật không?

Tín dụng: Thred

phong cách sôi nổi

'Lý thuyết Internet chết' là gì và nó có thật không?

Với sự phát triển không ngừng của AI kể từ năm 2022, những âm mưu xung quanh cái gọi là “Lý thuyết Internet Chết” ngày càng mạnh mẽ hơn. Tuy nhiên, điều đầu tiên là nó là cái quái gì và nó có đáng tin cậy không? Đây có phải là một hố thỏ trực tuyến đáng để lạc vào không? Đó có phải là cơn bão thuần túy trong tách trà? Có phải con người đã viết bài báo này? Rất nhiều câu hỏi. Nếu bạn dành một khoảng thời gian đáng kể trên Twitter (X)...

By Jamie Watts London, Vương quốc Anh

'Những năm khoảng cách dành cho người trưởng thành' là gì và tại sao chúng lại gia tăng?

Tín dụng: Unsplash

phong cách sôi nổi

'Những năm khoảng cách dành cho người trưởng thành' là gì và tại sao chúng lại gia tăng?

Phổ biến nhất là một nghi thức trước đại học dành cho thanh thiếu niên và những người ở độ tuổi 20, tạm dừng mọi thứ để đi du lịch khắp thế giới đang nhanh chóng trở thành xu hướng của các thế hệ lớn tuổi đang tìm cách thoát khỏi bản chất không ngừng nghỉ của cuộc sống khi trưởng thành. Thường gắn liền với bờ vực của tuổi trưởng thành, Gap Year là giai đoạn phát triển của những người có thời gian và nguồn lực để đi du lịch, tình nguyện,...

By Sofia Phillips London, Vương quốc Anh