एक नई एआई प्रणाली प्राकृतिक भाषा विवरण से यथार्थवादी और वास्तविक दोनों तरह की छवियां बना सकती है। इसमें खेल बदलने की क्षमता है, लेकिन कुछ चिंताओं के बिना नहीं।
एल्गोरिदम और एआई कला उद्योग में लहरें बनाना जारी रखते हैं।
नवीनतम सफलता OpenAI नामक एक शोध टीम से आई है, जिसने अभी-अभी अपने DALL-E कार्यक्रम के एक नए संस्करण का अनावरण किया है। यह सॉफ्टवेयर एक टेक्स्ट-टू-इमेज जेनरेशन टूल है जो यूजर द्वारा दिए गए विवरण के आधार पर आर्टवर्क तैयार करता है।
Instagram पर इस पोस्ट को देखें
उपयुक्त रूप से DALL-E 2 कहा जाता है, यह नया AI जनता के लिए उपलब्ध नहीं होगा, लेकिन शोधकर्ता इसकी क्षमताओं का पूर्वावलोकन करने के लिए साइन अप कर सकते हैं। OpenAI का कहना है कि वह अपने सॉफ़्टवेयर को अंततः तृतीय-पक्ष ऐप्स में उपयोग के लिए उपलब्ध कराने की योजना बना रहा है - हालांकि यह कब होगा इस पर कोई शब्द नहीं है।
अभी के लिए, कार्यक्रम का परीक्षण किए गए भागीदारों द्वारा परीक्षण किया जाएगा।
उपयोगकर्ताओं को उत्पन्न छवियों को अपलोड करने की अनुमति नहीं है जो 'नुकसान पहुंचा सकती हैं', और उन्हें यह बताना होगा कि वे एआई का उपयोग किस लिए कर रहे हैं।
डैल-ई 2 कैसे काम करता है?
जबकि मैं किसी भी तरह से कोडिंग विशेषज्ञ नहीं हूं, मैं कर सकते हैं पुष्टि करें कि DALL-E 2 प्री-बिल्ट इमेज लाइब्रेरी का उपयोग करके संचालित होता है। एल्गोरिथ्म को टैग की गई तस्वीरों का खजाना दिया जाता है और फिर वह जो पहले से जानता है उसके आधार पर नई कलाकृति बनाता है।
मान लें कि आप डोंगी पर बाघ की छवि बनाना चाहते हैं। अजीब, है ना? लेकिन DALL-E 2 एक 'डोंगी' और 'बाघ' दोनों की तरह दिखने के लिए अपनी फाइलों की खोज करेगा, और एक ऐसा टुकड़ा तैयार करेगा जो दोनों को पूरी तरह से जोड़ता है।
Instagram पर इस पोस्ट को देखें
DALL-E 2 पहले पुनरावृत्ति के CLIP, एक कंप्यूटर विज़न सिस्टम पर बनाता है। ओपनएआई का कहना है कि यह नया सॉफ्टवेयर 'डिफ्यूजन' का उपयोग करके छवियां बनाता है, जिससे एक टुकड़ा कुछ बिंदुओं के रूप में शुरू होता है और धीरे-धीरे विवरण से भर जाता है।
यह प्रक्रिया दो-चरण मॉडल के माध्यम से होती है। CLIP पहले आपके टेक्स्ट को अन्य मौजूदा तस्वीरों और छवियों से मिलाता है, फिर एक 'डिकोडर' चित्र को स्वयं बनाता है।
उपरोक्त वीडियो एआई-जनरेटेड बिल्लियों, पूर्व-मौजूदा छवियों के वास्तविक रूप से संपादित संस्करणों और ऑब्जेक्ट लेबलिंग की एक जटिल प्रणाली को दिखाते हुए क्या संभव है, इसका एक संक्षिप्त प्रदर्शन देता है जो DALL-E 2 को आपके संकेतों को समझने की अनुमति देता है। यह वास्तव में प्रभावशाली सामान है।
दिलचस्प बात यह है कि ओपनएआई इस बात पर जोर देता है कि अभी भी त्रुटियां और मुद्दे हैं जिन्हें दूर किया जाना है।
Instagram पर इस पोस्ट को देखें
जिन वस्तुओं पर गलत लेबल लगाया गया है, वे एल्गोरिथम को गलत चित्र बनाने का कारण बन सकते हैं जो प्रदान किए गए पाठ विवरण के अनुरूप नहीं हैं। उदाहरण के लिए, यदि इसकी कोडिंग में 'विमान' के रूप में लेबल की गई कार की पहले से मौजूद तस्वीर है, तो इससे जनरेटर पूरी तरह से बंद हो सकता है, बोइंग के बजाय बीएमडब्ल्यू वापस भेज सकता है।
इसके अलावा, बहुत विशिष्ट संकेत तब तक संभव नहीं हैं जब तक एआई ने लेबल नहीं किया है और सीखा है कि प्रासंगिक वस्तुएं क्या हैं।
जब तक एल्गोरिथम में सुधार नहीं किया जाता है, तब तक किसी शहर या जानवरों की दुर्लभ प्रजातियों के लिए पूछने पर भद्दा, गलत चित्र हो सकते हैं। ध्यान रखें कि यह DALL-E की केवल दूसरी पुनरावृत्ति है, इसलिए निस्संदेह हम भविष्य में और भी अधिक आकर्षक प्रदर्शन देखेंगे।