Menu Menu

Nowa AI DALL-E 2 tworzy obrazy z podpowiedzi tekstowych

Nowy system sztucznej inteligencji może tworzyć różnorodne obrazy, zarówno realistyczne, jak i surrealistyczne, na podstawie opisów w języku naturalnym. Ma potencjał, aby zmienić zasady gry, ale nie bez pewnych obaw.

Algorytmy i sztuczna inteligencja nadal wywołują fale w branży artystycznej.

Najnowszy przełom pochodzi od zespołu badawczego o nazwie OpenAI, który właśnie zaprezentował nową wersję swojego programu DALL-E. To oprogramowanie jest narzędziem do generowania tekstu na obraz, które tworzy grafikę na podstawie opisu wprowadzonego przez użytkownika.

Trafnie nazwana DALL-E 2, ta nowa sztuczna inteligencja nie będzie dostępna publicznie, ale naukowcy mogą zarejestrować się, aby wyświetlić podgląd jej możliwości. OpenAI twierdzi, że planuje w końcu udostępnić swoje oprogramowanie do użytku w aplikacjach innych firm – choć nie ma ani słowa, kiedy to się stanie.

Na razie program będzie testowany przez sprawdzonych partnerów.

Użytkownicy nie mogą przesyłać wygenerowanych obrazów, które mogą „spowodować szkody” i muszą ujawnić, do czego wykorzystują sztuczną inteligencję.


Jak działa DALL-E 2?

Chociaż w żadnym wypadku nie jestem ekspertem od kodowania, ja mogą potwierdź, że DALL-E 2 działa przy użyciu gotowej biblioteki obrazów. Algorytm otrzymuje bogactwo otagowanych zdjęć, a następnie tworzy nową grafikę na podstawie tego, co już wie.

Załóżmy, że chcesz stworzyć wizerunek tygrysa na kajaku. Dziwne, prawda? Ale DALL-E 2 przeszuka swoje pliki, aby znaleźć, jak wyglądają „kajak” i „tygrys”, i stworzy jeden element, który przekonująco łączy oba.

DALL-E 2 opiera się na CLIP, komputerowym systemie wizyjnym z pierwszej iteracji. OpenAI twierdzi, że to nowe oprogramowanie generuje obrazy za pomocą „dyfuzji”, w której element zaczyna się od kilku kropek i jest stopniowo wypełniany szczegółami.

Proces ten odbywa się w modelu dwuetapowym. CLIP najpierw dopasowuje tekst do innych istniejących zdjęć i obrazów, a następnie 'dekoder' sam generuje obraz.

Powyższy film przedstawia krótką demonstrację tego, co jest możliwe, pokazując koty generowane przez sztuczną inteligencję, realistycznie edytowane wersje wcześniej istniejących obrazów oraz złożony system oznaczania obiektów, który pozwala DALL-E 2 rozumieć twoje podpowiedzi. To naprawdę imponujące.

Co ciekawe, OpenAI podkreśla, że ​​wciąż istnieją błędy i problemy do naprawienia.

Obiekty, które są niewłaściwie oznaczone, mogą spowodować, że algorytm wygeneruje nieprawidłowe obrazy, które nie pasują do podanego opisu tekstowego. Jeśli w swoim kodowaniu zawiera wcześniej istniejące zdjęcie samochodu oznaczonego na przykład jako „samolot”, może to całkowicie zepchnąć generator z kursu, wysyłając z powrotem BMW zamiast Boeinga.

Ponadto bardzo konkretne podpowiedzi nie są możliwe, dopóki sztuczna inteligencja nie oznaczy i nie dowie się, jakie są odpowiednie obiekty.

Pytanie o miasto lub rzadki gatunek zwierzęcia może skutkować krzywymi, nieprawidłowymi obrazami, dopóki algorytm nie zostanie ulepszony. Należy pamiętać, że to dopiero druga iteracja DALL-E, więc bez wątpienia zobaczymy w przyszłości jeszcze więcej oszałamiających wersji demonstracyjnych.


Dlaczego może to powodować problemy dla artystów?

Po zapoznaniu się z grafiką stworzoną przez DALL-E 2, trudno nie czuć się podekscytowanym możliwościami tej technologii.

Powinniśmy jednak pamiętać o potencjalnych pułapkach. Artyści już teraz mają bardzo trudny okres zarabiania pieniędzy na swojej pracy w erze internetu – stąd początkowy powód NFT – a nowe narzędzie do tworzenia obrazów oparte na algorytmach może wykluczyć wielu drobnych ilustratorów cyfrowych.

Dużo trudniej będzie też zweryfikować autentyczność obrazu lub obrazu online i może zdewaluować pracę prawdziwych ludzi. Możliwością może stać się natychmiastowe tworzenie obrazów, tworząc jeszcze bardziej eksploatacyjny rynek NFT.

Jeśli każdy może zrobić coś od razu, czy ilustracje i obrazy stracą całą swoją komercyjną wartość? Czy sztuka sama w sobie staje się po prostu kolejną aplikacją lub narzędziem, z którego każdy może korzystać?

Istnieją poważne, egzystencjalne pytania dotyczące konsekwencji takiego prawdziwie przełomowego oprogramowania, na które na wiele nie mamy odpowiedzi.

Wygląda na to, że OpenAI bardzo świadomy niebezpieczeństw. Mówi, że DALL-E 2 nigdy nie będzie w pełni dostępny publicznie i będzie dopiero powoli udostępniany zaufanym naukowcom i partnerom na podstawie informacji zwrotnych. Użytkownicy będą musieli powiedzieć, dlaczego korzystają z oprogramowania i nie mogą tworzyć żadnych obrazów, które są nieprzyzwoite lub szkodliwe.

Chce zapewnić, że dezinformacja lub głęboko sfałszowane obrazy nie spowodują dalszego spustoszenia w naszych systemach politycznych i dyskursie internetowym.

Te intencje mogą być wystarczająco rozsądne, ale kto może powiedzieć, że inni, mniej mający dobre intencje programiści nie będą po prostu kopiować pracy OpenAI? W zeszłym roku widzieliśmy już jedną aplikację o nazwie Wombo's Dream, wyraźnie opartą na tej koncepcji.

Masz do niego dostęp teraz – choć jest znacznie mniej wyrafinowany niż DALL-E 2.

Ostatecznie nie mamy pojęcia, jak ta technologia może wpłynąć na świat sztuki. Co zrobiliśmyo Wiem, że wszystko robi się przerażająco imponujące, może nawet trochę niesamowita dolina. Na razie wydaje się, że OpenAI wdraża swoje produkty w sposób odpowiedzialny – i to najlepsze, na co możemy liczyć na tym wczesnym etapie.

dostępność