Новая система искусственного интеллекта может создавать разнообразные изображения, как реалистичные, так и сюрреалистические, из описаний на естественном языке. У него есть потенциал, чтобы изменить правила игры, но не без некоторых опасений.
Алгоритмы и искусственный интеллект продолжают волновать индустрию искусства.
Последний прорыв произошел от исследовательской группы OpenAI, которая только что представила новую версию своей программы DALL-E. Это программное обеспечение представляет собой инструмент для преобразования текста в изображение, который создает иллюстрацию на основе введенного пользователем описания.
Посмотреть этот пост на Instagram
Этот новый ИИ, удачно названный DALL-E 2, не будет доступен для широкой публики, но исследователи могут зарегистрироваться, чтобы ознакомиться с его возможностями. OpenAI заявляет, что в конечном итоге планирует сделать свое программное обеспечение доступным для использования в сторонних приложениях, но не сообщает, когда это произойдет.
На данный момент программа будет протестирована проверенными партнерами.
Пользователям не разрешается загружать сгенерированные изображения, которые могут «причинить вред», и они должны раскрывать, для чего они используют ИИ.
Как работает ДАЛЛ-Е 2?
Хотя я ни в коем случае не эксперт по кодированию, я может убедитесь, что DALL-E 2 работает с использованием встроенной библиотеки изображений. Алгоритму дается множество помеченных изображений, а затем он создает новые изображения на основе того, что он уже знает.
Допустим, вы хотели создать изображение тигра на каноэ. Странно, да? Но DALL-E 2 будет искать в своих файлах, чтобы найти, как выглядят «каноэ» и «тигр», и создать единое произведение, которое убедительно сочетает в себе оба.
Посмотреть этот пост на Instagram
DALL-E 2 основан на CLIP первой версии, системе компьютерного зрения. OpenAI говорит, что это новое программное обеспечение генерирует изображения, используя «рассеивание», при котором фрагмент начинается с нескольких точек и постепенно заполняется деталями.
Этот процесс происходит по двухэтапной модели. CLIP сначала сопоставляет ваш текст с другими существующими фотографиями и изображениями, затем «декодер» генерирует само изображение.
Вышеприведенное видео дает краткую демонстрацию того, что возможно, демонстрируя кошек, созданных искусственным интеллектом, реалистично отредактированные версии ранее существовавших изображений и сложную систему маркировки объектов, которая позволяет DALL-E 2 понимать ваши подсказки. Это действительно впечатляющие вещи.
Интересно, что OpenAI подчеркивает, что все еще есть ошибки и проблемы, которые нужно сгладить.
Посмотреть этот пост на Instagram
Неправильно маркированные объекты могут привести к тому, что алгоритм создаст неправильные изображения, которые не совпадают с предоставленным текстовым описанием. Если в его коде есть ранее существовавшая фотография автомобиля, помеченного, например, как «самолет», то это может полностью сбить генератор с курса, отправив обратно BMW вместо Boeing.
Кроме того, очень конкретные подсказки невозможны, пока ИИ не пометит и не узнает, что представляют собой соответствующие объекты.
Запрос города или редких видов животных может привести к шатким, неправильным изображениям, пока алгоритм не будет улучшен. Имейте в виду, что это всего лишь вторая версия DALL-E, поэтому в будущем мы, без сомнения, увидим еще больше умопомрачительных демонстраций.