मेन्यू मेन्यू

नया AI DALL-E 2 टेक्स्ट प्रॉम्प्ट से इमेज बनाता है

एक नई एआई प्रणाली प्राकृतिक भाषा विवरण से यथार्थवादी और वास्तविक दोनों तरह की छवियां बना सकती है। इसमें खेल बदलने की क्षमता है, लेकिन कुछ चिंताओं के बिना नहीं।

एल्गोरिदम और एआई कला उद्योग में लहरें बनाना जारी रखते हैं।

नवीनतम सफलता OpenAI नामक एक शोध टीम से आई है, जिसने अभी-अभी अपने DALL-E कार्यक्रम के एक नए संस्करण का अनावरण किया है। यह सॉफ्टवेयर एक टेक्स्ट-टू-इमेज जेनरेशन टूल है जो यूजर द्वारा दिए गए विवरण के आधार पर आर्टवर्क तैयार करता है।

उपयुक्त रूप से DALL-E 2 कहा जाता है, यह नया AI जनता के लिए उपलब्ध नहीं होगा, लेकिन शोधकर्ता इसकी क्षमताओं का पूर्वावलोकन करने के लिए साइन अप कर सकते हैं। OpenAI का कहना है कि वह अपने सॉफ़्टवेयर को अंततः तृतीय-पक्ष ऐप्स में उपयोग के लिए उपलब्ध कराने की योजना बना रहा है - हालांकि यह कब होगा इस पर कोई शब्द नहीं है।

अभी के लिए, कार्यक्रम का परीक्षण किए गए भागीदारों द्वारा परीक्षण किया जाएगा।

उपयोगकर्ताओं को उत्पन्न छवियों को अपलोड करने की अनुमति नहीं है जो 'नुकसान पहुंचा सकती हैं', और उन्हें यह बताना होगा कि वे एआई का उपयोग किस लिए कर रहे हैं।


डैल-ई 2 कैसे काम करता है?

जबकि मैं किसी भी तरह से कोडिंग विशेषज्ञ नहीं हूं, मैं कर सकते हैं पुष्टि करें कि DALL-E 2 प्री-बिल्ट इमेज लाइब्रेरी का उपयोग करके संचालित होता है। एल्गोरिथ्म को टैग की गई तस्वीरों का खजाना दिया जाता है और फिर वह जो पहले से जानता है उसके आधार पर नई कलाकृति बनाता है।

मान लें कि आप डोंगी पर बाघ की छवि बनाना चाहते हैं। अजीब, है ना? लेकिन DALL-E 2 एक 'डोंगी' और 'बाघ' दोनों की तरह दिखने के लिए अपनी फाइलों की खोज करेगा, और एक ऐसा टुकड़ा तैयार करेगा जो दोनों को पूरी तरह से जोड़ता है।

DALL-E 2 पहले पुनरावृत्ति के CLIP, एक कंप्यूटर विज़न सिस्टम पर बनाता है। ओपनएआई का कहना है कि यह नया सॉफ्टवेयर 'डिफ्यूजन' का उपयोग करके छवियां बनाता है, जिससे एक टुकड़ा कुछ बिंदुओं के रूप में शुरू होता है और धीरे-धीरे विवरण से भर जाता है।

यह प्रक्रिया दो-चरण मॉडल के माध्यम से होती है। CLIP पहले आपके टेक्स्ट को अन्य मौजूदा तस्वीरों और छवियों से मिलाता है, फिर एक 'डिकोडर' चित्र को स्वयं बनाता है।

उपरोक्त वीडियो एआई-जनरेटेड बिल्लियों, पूर्व-मौजूदा छवियों के वास्तविक रूप से संपादित संस्करणों और ऑब्जेक्ट लेबलिंग की एक जटिल प्रणाली को दिखाते हुए क्या संभव है, इसका एक संक्षिप्त प्रदर्शन देता है जो DALL-E 2 को आपके संकेतों को समझने की अनुमति देता है। यह वास्तव में प्रभावशाली सामान है।

दिलचस्प बात यह है कि ओपनएआई इस बात पर जोर देता है कि अभी भी त्रुटियां और मुद्दे हैं जिन्हें दूर किया जाना है।

जिन वस्तुओं पर गलत लेबल लगाया गया है, वे एल्गोरिथम को गलत चित्र बनाने का कारण बन सकते हैं जो प्रदान किए गए पाठ विवरण के अनुरूप नहीं हैं। उदाहरण के लिए, यदि इसकी कोडिंग में 'विमान' के रूप में लेबल की गई कार की पहले से मौजूद तस्वीर है, तो इससे जनरेटर पूरी तरह से बंद हो सकता है, बोइंग के बजाय बीएमडब्ल्यू वापस भेज सकता है।

इसके अलावा, बहुत विशिष्ट संकेत तब तक संभव नहीं हैं जब तक एआई ने लेबल नहीं किया है और सीखा है कि प्रासंगिक वस्तुएं क्या हैं।

जब तक एल्गोरिथम में सुधार नहीं किया जाता है, तब तक किसी शहर या जानवरों की दुर्लभ प्रजातियों के लिए पूछने पर भद्दा, गलत चित्र हो सकते हैं। ध्यान रखें कि यह DALL-E की केवल दूसरी पुनरावृत्ति है, इसलिए निस्संदेह हम भविष्य में और भी अधिक आकर्षक प्रदर्शन देखेंगे।


यह कलाकारों के लिए समस्याएँ क्यों पैदा कर सकता है?

DALL-E 2 द्वारा बनाई गई कलाकृति को पढ़ने के बाद, प्रौद्योगिकी की संभावनाओं से उत्साहित न होना कठिन है।

हालांकि, हमें संभावित नुकसान से सावधान रहना चाहिए। कलाकारों के पास पहले से ही इंटरनेट के युग में अपने काम के लिए पैसा कमाने में बहुत मुश्किल समय है - इसलिए एनएफटी का प्रारंभिक कारण - और एक नया एल्गोरिदम-आधारित छवि उपकरण कई छोटे-समय के डिजिटल चित्रकारों को व्यवसाय से बाहर कर सकता है।

किसी छवि या पेंटिंग की प्रामाणिकता को ऑनलाइन सत्यापित करना भी बहुत कठिन हो जाएगा, और वास्तविक मनुष्यों के काम का अवमूल्यन कर सकता है। तत्काल छवि ढलाई एक संभावना बन सकती है, और भी अधिक शोषक एनएफटी बाजार का निर्माण कर सकती है।

अगर हर कोई तुरंत कुछ भी बना सकता है, तो क्या चित्र और पेंटिंग अपने सभी व्यावसायिक मूल्य खो देते हैं? क्या कला स्वयं किसी के उपयोग के लिए एक अन्य अनुप्रयोग या उपकरण बन जाती है?

ऐसे वास्तविक रूप से महत्वपूर्ण सॉफ़्टवेयर के निहितार्थ के रूप में बड़े, अस्तित्व संबंधी प्रश्न हैं, जिनमें से कई के उत्तर हमारे पास नहीं हैं।

OpenAI के क्रेडिट के लिए, ऐसा लगता है खतरों से बहुत वाकिफ. इसमें कहा गया है कि DALL-E 2 जनता के लिए कभी भी पूरी तरह से उपलब्ध नहीं होगा, और फीडबैक के आधार पर इसे केवल भरोसेमंद शोधकर्ताओं और भागीदारों के लिए धीरे-धीरे रोल आउट किया जाएगा। उपयोगकर्ताओं को यह बताना होगा कि वे सॉफ़्टवेयर का उपयोग क्यों कर रहे हैं और कोई भी ऐसी छवि नहीं बना सकते जो अश्लील या हानिकारक हो।

यह सुनिश्चित करना चाहता है कि गलत सूचना या गहरी-फर्जी छवियां हमारी राजनीतिक व्यवस्था और ऑनलाइन प्रवचन को और अधिक नुकसान न पहुंचाएं।

ये इरादे काफी अच्छे हो सकते हैं, लेकिन कौन कह सकता है कि अन्य, कम अर्थ वाले कोडर केवल ओपनएआई के काम की नकल नहीं करेंगे? हमने पिछले साल Wombo's Dream लॉन्च नाम का एक एप्लिकेशन देखा है, जो स्पष्ट रूप से इस अवधारणा पर आधारित है।

आप इसे एक्सेस कर सकते हैं अभी - हालांकि यह DALL-E 2 की तुलना में बहुत कम परिष्कृत है।

अंततः, हमें नहीं पता कि यह तकनीक कला की दुनिया को कैसे प्रभावित कर सकती है। हम क्या करते हैंo पता है कि चीजें बहुत प्रभावशाली हो रही हैं, शायद एक छोटी सी अलौकिक घाटी भी। अभी के लिए, OpenAI अपने उत्पादों को जिम्मेदारी से रोल आउट कर रहा है - और यह सबसे अच्छा है जिसकी हम इस शुरुआती चरण में उम्मीद कर सकते हैं।

अभिगम्यता