Sistem AI baru dapat membuat berbagai gambar baik realistis maupun surealis dari deskripsi bahasa alami. Ini memiliki potensi untuk mengubah permainan, tetapi bukan tanpa beberapa kekhawatiran.
Algoritma dan AI terus membuat gelombang di industri seni.
Terobosan terbaru datang dari tim peneliti bernama OpenAI, yang baru saja meluncurkan versi baru dari program DALL-E-nya. Perangkat lunak ini adalah alat pembuat teks-ke-gambar yang menghasilkan karya seni berdasarkan deskripsi yang dimasukkan pengguna.
Lihat posting ini di Instagram
Disebut DALL-E 2, AI baru ini tidak akan tersedia untuk umum, tetapi para peneliti dapat mendaftar untuk melihat kemampuannya. OpenAI mengatakan pihaknya berencana untuk membuat perangkat lunaknya tersedia untuk digunakan di aplikasi pihak ketiga pada akhirnya – meskipun tidak ada kabar kapan ini akan terjadi.
Untuk saat ini, program tersebut akan diuji oleh mitra terverifikasi.
Pengguna tidak diizinkan untuk mengunggah gambar yang dihasilkan yang dapat 'menyebabkan bahaya', dan harus mengungkapkan untuk apa mereka menggunakan AI.
Bagaimana cara kerja DALL-E 2?
Meskipun saya sama sekali bukan ahli pengkodean, saya bisa konfirmasikan bahwa DALL-E 2 beroperasi menggunakan perpustakaan gambar yang dibuat sebelumnya. Algoritme diberikan banyak gambar yang ditandai dan kemudian membuat karya seni baru berdasarkan apa yang sudah diketahuinya.
Katakanlah Anda ingin membuat gambar harimau di atas sampan. Aneh, kan? Namun DALL-E 2 akan mencari file-nya untuk menemukan seperti apa 'kano' dan 'harimau', dan membuat satu bagian yang menggabungkan keduanya secara meyakinkan.
Lihat posting ini di Instagram
DALL-E 2 dibangun di atas CLIP iterasi pertama, sistem visi komputer. OpenAI mengatakan bahwa perangkat lunak baru ini menghasilkan gambar menggunakan 'difusi', di mana sepotong dimulai sebagai beberapa titik dan secara bertahap diisi dengan detail.
Proses ini terjadi melalui model dua tahap. CLIP pertama-tama mencocokkan teks Anda dengan foto dan gambar lain yang ada, kemudian 'decoder' menghasilkan gambar itu sendiri.
Video di atas memberikan demonstrasi singkat tentang apa yang mungkin, memamerkan kucing yang dihasilkan AI, versi gambar yang sudah ada sebelumnya yang diedit secara realistis, dan sistem pelabelan objek yang kompleks yang memungkinkan DALL-E 2 untuk memahami perintah Anda. Ini benar-benar hal yang mengesankan.
Menariknya, OpenAI menekankan bahwa masih ada kesalahan dan masalah yang harus diselesaikan.
Lihat posting ini di Instagram
Objek yang salah label dapat menyebabkan algoritme menghasilkan gambar yang salah yang tidak sesuai dengan deskripsi teks yang diberikan. Jika dalam pengkodeannya memiliki foto mobil yang sudah ada sebelumnya yang diberi label sebagai 'pesawat', misalnya, maka ini dapat menyebabkan generator benar-benar keluar jalur, mengirim kembali BMW alih-alih Boeing.
Selain itu, permintaan yang sangat spesifik tidak mungkin dilakukan sampai AI memberi label dan mempelajari objek yang relevan.
Meminta kota atau spesies hewan langka dapat menghasilkan gambar yang miring dan salah hingga algoritme diperbaiki. Perlu diingat ini hanya iterasi kedua dari DALL-E, jadi kami pasti akan melihat lebih banyak demo yang membingungkan di masa mendatang.