Nowy system sztucznej inteligencji może tworzyć różnorodne obrazy, zarówno realistyczne, jak i surrealistyczne, na podstawie opisów w języku naturalnym. Ma potencjał, aby zmienić zasady gry, ale nie bez pewnych obaw.
Algorytmy i sztuczna inteligencja nadal wywołują fale w branży artystycznej.
Najnowszy przełom pochodzi od zespołu badawczego o nazwie OpenAI, który właśnie zaprezentował nową wersję swojego programu DALL-E. To oprogramowanie jest narzędziem do generowania tekstu na obraz, które tworzy grafikę na podstawie opisu wprowadzonego przez użytkownika.
Zobacz ten post na Instagramie
Trafnie nazwana DALL-E 2, ta nowa sztuczna inteligencja nie będzie dostępna publicznie, ale naukowcy mogą zarejestrować się, aby wyświetlić podgląd jej możliwości. OpenAI twierdzi, że planuje w końcu udostępnić swoje oprogramowanie do użytku w aplikacjach innych firm – choć nie ma ani słowa, kiedy to się stanie.
Na razie program będzie testowany przez sprawdzonych partnerów.
Użytkownicy nie mogą przesyłać wygenerowanych obrazów, które mogą „spowodować szkody” i muszą ujawnić, do czego wykorzystują sztuczną inteligencję.
Jak działa DALL-E 2?
Chociaż w żadnym wypadku nie jestem ekspertem od kodowania, ja mogą potwierdź, że DALL-E 2 działa przy użyciu gotowej biblioteki obrazów. Algorytm otrzymuje bogactwo otagowanych zdjęć, a następnie tworzy nową grafikę na podstawie tego, co już wie.
Załóżmy, że chcesz stworzyć wizerunek tygrysa na kajaku. Dziwne, prawda? Ale DALL-E 2 przeszuka swoje pliki, aby znaleźć, jak wyglądają „kajak” i „tygrys”, i stworzy jeden element, który przekonująco łączy oba.
Zobacz ten post na Instagramie
DALL-E 2 opiera się na CLIP, komputerowym systemie wizyjnym z pierwszej iteracji. OpenAI twierdzi, że to nowe oprogramowanie generuje obrazy za pomocą „dyfuzji”, w której element zaczyna się od kilku kropek i jest stopniowo wypełniany szczegółami.
Proces ten odbywa się w modelu dwuetapowym. CLIP najpierw dopasowuje tekst do innych istniejących zdjęć i obrazów, a następnie 'dekoder' sam generuje obraz.
Powyższy film przedstawia krótką demonstrację tego, co jest możliwe, pokazując koty generowane przez sztuczną inteligencję, realistycznie edytowane wersje wcześniej istniejących obrazów oraz złożony system oznaczania obiektów, który pozwala DALL-E 2 rozumieć twoje podpowiedzi. To naprawdę imponujące.
Co ciekawe, OpenAI podkreśla, że wciąż istnieją błędy i problemy do naprawienia.
Zobacz ten post na Instagramie
Obiekty, które są niewłaściwie oznaczone, mogą spowodować, że algorytm wygeneruje nieprawidłowe obrazy, które nie pasują do podanego opisu tekstowego. Jeśli w swoim kodowaniu zawiera wcześniej istniejące zdjęcie samochodu oznaczonego na przykład jako „samolot”, może to całkowicie zepchnąć generator z kursu, wysyłając z powrotem BMW zamiast Boeinga.
Ponadto bardzo konkretne podpowiedzi nie są możliwe, dopóki sztuczna inteligencja nie oznaczy i nie dowie się, jakie są odpowiednie obiekty.
Pytanie o miasto lub rzadki gatunek zwierzęcia może skutkować krzywymi, nieprawidłowymi obrazami, dopóki algorytm nie zostanie ulepszony. Należy pamiętać, że to dopiero druga iteracja DALL-E, więc bez wątpienia zobaczymy w przyszłości jeszcze więcej oszałamiających wersji demonstracyjnych.