Nowa AI DALL-E 2 tworzy obrazy z podpowiedzi tekstowych

kultura
Wnętrze
Opublikowano 14 kwietnia 2022

Źródło: OpenAI

By Charliego Coombsa

Londyn, Wielka Brytania

2 energia - Usuń energię

0 komentarze

Nowy system sztucznej inteligencji może tworzyć różnorodne obrazy, zarówno realistyczne, jak i surrealistyczne, na podstawie opisów w języku naturalnym. Ma potencjał, aby zmienić zasady gry, ale nie bez pewnych obaw.

Algorytmy i sztuczna inteligencja nadal wywołują fale w branży artystycznej.

Najnowszy przełom pochodzi od zespołu badawczego o nazwie OpenAI, który właśnie zaprezentował nową wersję swojego programu DALL-E. To oprogramowanie jest narzędziem do generowania tekstu na obraz, które tworzy grafikę na podstawie opisu wprowadzonego przez użytkownika.

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

Trafnie nazwana DALL-E 2, ta nowa sztuczna inteligencja nie będzie dostępna publicznie, ale naukowcy mogą zarejestrować się, aby wyświetlić podgląd jej możliwości. OpenAI twierdzi, że planuje w końcu udostępnić swoje oprogramowanie do użytku w aplikacjach innych firm – choć nie ma ani słowa, kiedy to się stanie.

Na razie program będzie testowany przez sprawdzonych partnerów.

Użytkownicy nie mogą przesyłać wygenerowanych obrazów, które mogą „spowodować szkody” i muszą ujawnić, do czego wykorzystują sztuczną inteligencję.

https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship

DALL-E is coming… World-changing AI image generator (https://www.youtube.com/watch?v=alJdw4JDJ4o&ab_channel=Fireship)

Jak działa DALL-E 2?

Chociaż w żadnym wypadku nie jestem ekspertem od kodowania, ja mogą potwierdź, że DALL-E 2 działa przy użyciu gotowej biblioteki obrazów. Algorytm otrzymuje bogactwo otagowanych zdjęć, a następnie tworzy nową grafikę na podstawie tego, co już wie.

Załóżmy, że chcesz stworzyć wizerunek tygrysa na kajaku. Dziwne, prawda? Ale DALL-E 2 przeszuka swoje pliki, aby znaleźć, jak wyglądają „kajak” i „tygrys”, i stworzy jeden element, który przekonująco łączy oba.

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

DALL-E 2 opiera się na CLIP, komputerowym systemie wizyjnym z pierwszej iteracji. OpenAI twierdzi, że to nowe oprogramowanie generuje obrazy za pomocą „dyfuzji”, w której element zaczyna się od kilku kropek i jest stopniowo wypełniany szczegółami.

Proces ten odbywa się w modelu dwuetapowym. CLIP najpierw dopasowuje tekst do innych istniejących zdjęć i obrazów, a następnie 'dekoder' sam generuje obraz.

https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI

DALL·E 2 Explained (https://www.youtube.com/watch?v=qTgPSKKjfVg&ab_channel=OpenAI)

Powyższy film przedstawia krótką demonstrację tego, co jest możliwe, pokazując koty generowane przez sztuczną inteligencję, realistycznie edytowane wersje wcześniej istniejących obrazów oraz złożony system oznaczania obiektów, który pozwala DALL-E 2 rozumieć twoje podpowiedzi. To naprawdę imponujące.

Co ciekawe, OpenAI podkreśla, że wciąż istnieją błędy i problemy do naprawienia.

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

Obiekty, które są niewłaściwie oznaczone, mogą spowodować, że algorytm wygeneruje nieprawidłowe obrazy, które nie pasują do podanego opisu tekstowego. Jeśli w swoim kodowaniu zawiera wcześniej istniejące zdjęcie samochodu oznaczonego na przykład jako „samolot”, może to całkowicie zepchnąć generator z kursu, wysyłając z powrotem BMW zamiast Boeinga.

Ponadto bardzo konkretne podpowiedzi nie są możliwe, dopóki sztuczna inteligencja nie oznaczy i nie dowie się, jakie są odpowiednie obiekty.

Pytanie o miasto lub rzadki gatunek zwierzęcia może skutkować krzywymi, nieprawidłowymi obrazami, dopóki algorytm nie zostanie ulepszony. Należy pamiętać, że to dopiero druga iteracja DALL-E, więc bez wątpienia zobaczymy w przyszłości jeszcze więcej oszałamiających wersji demonstracyjnych.

https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI

How does DALL·E 2 work? (OpenAI text-to-image model explained) (https://www.youtube.com/watch?v=rdGVbPI42sA&ab_channel=What%27sAI)

Dlaczego może to powodować problemy dla artystów?

Po zapoznaniu się z grafiką stworzoną przez DALL-E 2, trudno nie czuć się podekscytowanym możliwościami tej technologii.

Powinniśmy jednak pamiętać o potencjalnych pułapkach. Artyści już teraz mają bardzo trudny okres zarabiania pieniędzy na swojej pracy w erze internetu – stąd początkowy powód NFT – a nowe narzędzie do tworzenia obrazów oparte na algorytmach może wykluczyć wielu drobnych ilustratorów cyfrowych.

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

Dużo trudniej będzie też zweryfikować autentyczność obrazu lub obrazu online i może zdewaluować pracę prawdziwych ludzi. Możliwością może stać się natychmiastowe tworzenie obrazów, tworząc jeszcze bardziej eksploatacyjny rynek NFT.

Jeśli każdy może zrobić coś od razu, czy ilustracje i obrazy stracą całą swoją komercyjną wartość? Czy sztuka sama w sobie staje się po prostu kolejną aplikacją lub narzędziem, z którego każdy może korzystać?

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

Istnieją poważne, egzystencjalne pytania dotyczące konsekwencji takiego prawdziwie przełomowego oprogramowania, na które na wiele nie mamy odpowiedzi.

Wygląda na to, że OpenAI bardzo świadomy niebezpieczeństw. Mówi, że DALL-E 2 nigdy nie będzie w pełni dostępny publicznie i będzie dopiero powoli udostępniany zaufanym naukowcom i partnerom na podstawie informacji zwrotnych. Użytkownicy będą musieli powiedzieć, dlaczego korzystają z oprogramowania i nie mogą tworzyć żadnych obrazów, które są nieprzyzwoite lub szkodliwe.

Chce zapewnić, że dezinformacja lub głęboko sfałszowane obrazy nie spowodują dalszego spustoszenia w naszych systemach politycznych i dyskursie internetowym.

Zobacz ten post na Instagramie

Wpis udostępniony przez DALL·E przez OpenAI (@openaidalle)

Te intencje mogą być wystarczająco rozsądne, ale kto może powiedzieć, że inni, mniej mający dobre intencje programiści nie będą po prostu kopiować pracy OpenAI? W zeszłym roku widzieliśmy już jedną aplikację o nazwie Wombo's Dream, wyraźnie opartą na tej koncepcji.

Masz do niego dostęp teraz – choć jest znacznie mniej wyrafinowany niż DALL-E 2.

Ostatecznie nie mamy pojęcia, jak ta technologia może wpłynąć na świat sztuki. Co zrobiliśmyo Wiem, że wszystko robi się przerażająco imponujące, może nawet trochę niesamowita dolina. Na razie wydaje się, że OpenAI wdraża swoje produkty w sposób odpowiedzialny – i to najlepsze, na co możemy liczyć na tym wczesnym etapie.

Charliego Coombsa

Redaktor naczelny Londyn, Wielka Brytania

Jestem Charlie (On/On), redaktor naczelny Thred. Studiowałem angielski na University of Birmingham i jako entuzjasta muzyki i gier jestem nerdem popkultury. Możesz mnie znaleźć jako kuratora playlist, projektującego zdjęcia nagłówków artykułów i popijającego cydr w czwartek. Śledź mnie na Twitter, LinkedIn i prześlij mi kilka pomysłów/opinii przez E-mail.

Więcej od thred.

„Bioniczne oko” rozwiązuje zagadkę miejsca spoczynku Platona

Źródło: Thred

niecodzienny

„Bioniczne oko” rozwiązuje zagadkę miejsca spoczynku Platona

Być może włoski badacz Graziano Ranocchia w końcu rozwiązał zagadkę miejsca spoczynku Platona. „Bioniczne oko” zasilane sztuczną inteligencją zeskanowało liczący 2,000 lat zwęglony zwój napisany około 348 roku p.n.e., który wskazywał konkretną lokalizację w Atenach. Być może zagadka miejsca spoczynku jednego z największych filozofów świata właśnie została rozwiązana – jak na ironię – za pomocą maszyny. Pogrzeb Platona, prawdopodobnie najbardziej szanowanego z założycieli myślicieli filozofii greckiej…

By Jamiego Wattsa Londyn, Wielka Brytania

Źródło: Pexels

Media

Natura oficjalnie została muzykiem

W ramach nowej kampanii natura została wyróżniona jako artystka na największych platformach streamingowych, w tym Spotify. Tantiemy zostaną przeznaczone na wspieranie inicjatyw klimatycznych na całym świecie. Temperatury rosną, siedliska maleją, a lodowce topnieją w niespotykanym dotąd tempie. W miarę jak zmienia się klimat, cierpienie Ziemi osiąga nowy poziom, a rzeczywistość, w której kończy się nam czas, aby coś z tym zrobić, staje się…

By Sofii Phillips Londyn, Wielka Brytania

Czym jest „teoria martwego Internetu” i czy jest ona prawdziwa?

Źródło: Thred

niecodzienny

Czym jest „teoria martwego Internetu” i czy jest ona prawdziwa?

Wraz z nieustannym rozwojem sztucznej inteligencji od 2022 r. spiski wokół tzw. „teorii martwego Internetu” przybrały na sile. Ale przede wszystkim, co to do cholery jest i czy ma jakąkolwiek wiarygodność? Czy warto się zatracić w internetowej króliczej norze? Czy to czysta burza w filiżance herbaty? Czy ten artykuł w ogóle napisał człowiek? Tak dużo pytań. Jeśli spędzasz znaczną ilość czasu na Twitterze (X)...

By Jamiego Wattsa Londyn, Wielka Brytania

Czym są „lata przerwy w dorosłości” i dlaczego ich liczba rośnie?

Źródło: Unsplash

niecodzienny

Czym są „lata przerwy w dorosłości” i dlaczego ich liczba rośnie?

Najczęściej jest to rytuał przejścia przed pójściem do szkoły dla nastolatków i osób po dwudziestce. Odkładanie wszystkiego na później, aby podróżować po świecie, szybko staje się trendem wśród starszych pokoleń, które szukają odskoczni od nieubłaganej natury dorosłego życia. Rok przerwy, zwykle kojarzony z wejściem w dorosłość, to okres rozwoju dla osób, które mają czas i środki na podróżowanie, wolontariat,...

By Sofii Phillips Londyn, Wielka Brytania