मेन्यू मेन्यू

Google का Lumiere टेक्स्ट प्रॉम्प्ट से यथार्थवादी AI वीडियो तैयार करता है

एआई वीडियो तेजी से अलौकिक घाटी से वास्तव में यथार्थवादी में बदल रहा है, और Google का लुमियर सबसे परिष्कृत टेक्स्ट-टू-वीडियो जनरेटर है जिसे हमने आज तक देखा है।

विस्मय की भावना पैदा करना - और बेचैनी की एक बड़ी खुराक - Google ने हाल ही में प्रदर्शित किया कि विकास के कुछ ही वर्षों में AI वीडियो कितना परिष्कृत हो गया है।

उसी तरह जैसे बिंग इमेज क्रिएटर, DALL-E और मिडजर्नी जैसे टेक्स्ट-टू-इमेज जेनरेटर सिंगल-लाइन प्रॉम्प्ट से मूल छवियां बना सकते हैं, Google का 'Lumiere'एप्लिकेशन हमारे बेतहाशा विचारों को पूरी तरह से पांच सेकंड के वीडियो में बदल सकता है।

टेक्स्ट-टू-वीडियो जनरेटर के अन्य उदाहरण पहले से ही उपलब्ध हैं, लेकिन Google का प्रयास वास्तव में सीजीआई मानक के करीब आंदोलन के सटीक चित्रण को स्थापित करने का पहला प्रयास है।

यह एक बेस फ्रेम स्थापित करके और इसके अत्यधिक प्रचारित उपयोग से इसे प्राप्त करता है स्टुनेट (स्पेस-टाइम-यू-नेट) तकनीक स्वायत्त रूप से यह स्थापित करती है कि छवि में वस्तुओं को कहां और कैसे स्थानांतरित करना चाहिए। एक बार चुने जाने के बाद, उस प्रारंभिक फ्रेम के भीतर की वस्तुओं में स्वयं की कई परतें शामिल हो जाती हैं जो एक दूसरे में निर्बाध रूप से प्रवाहित होती हैं।

https://youtu.be/wxLr02Dz2Sc

ल्यूमियर प्रति छवि 80 फ्रेम उत्पन्न करने में सक्षम है, जबकि इसके निकटतम प्रतिद्वंद्वी स्टेबल वीडियो डिफ्यूजन ने पिछले अधिकतम 25 फ्रेम बनाए थे। हालाँकि Google द्वारा जारी किए गए कई शुरुआती परिणामों में कृत्रिमता का स्पर्श है, इसके बाद से समग्र गुणवत्ता में उछाल आया है डेमो नहीं चौंका देने वाला है।

टेक्स्ट-टू-वीडियो के अलावा, छवि-से-वीडियो पीढ़ी भी है जो एक स्थिर तस्वीर को जीवंत कर देगी, शैलीबद्ध पीढ़ी, जो एक विशिष्ट दृश्य शैली में वीडियो बना सकती है, और एक सिनेमोग्राफ सेटिंग जो किसी विशिष्ट हिस्से को एनिमेट करने में सक्षम है। मौजूदा छवि - उदाहरण के लिए, बहता पानी, टिमटिमाती आग, या ट्रेन इंजन से निकलने वाला धुआं।

बाज़ार रणनीति के संदर्भ में, लुमिएरे का देर से आगमन Google की फ़ैशनेबल देर से आने वाली नीति के अनुरूप है। इसके जनरेटिव भाषा उपकरण के प्रारंभिक पुनरावृत्ति के बाद से बार्ड फ्लॉप हो गया पिछले साल, तकनीकी दिग्गज ने चुपचाप पृष्ठभूमि में जेनरेटिव एआई के लिए अपना मल्टीमॉडल विज़न विकसित किया है।

इसकी नवीनतम घोषणा Google के जेमिनी भाषा मॉडल के प्रदर्शन का बारीकी से अनुसरण करती है, जिसे इस क्षेत्र के लिए बेंचमार्क के रूप में चैटजीपीटी के ताज के लिए देर से चुनौती देने के लिए तैयार किया गया है।

वीडियो एआई के लिए व्यावसायिक चर्चा से परे देखते हुए, प्रौद्योगिकी के दुरुपयोग की संभावना को नजरअंदाज करना गलती होगी क्योंकि काल्पनिक कार्यों को वास्तविक जीवन की सामग्री से अलग करना कठिन हो जाता है।

यौन रूप से स्पष्ट चित्रण से जुड़ी चल रही पराजय टेलर स्विफ्ट और यदि टेक्स्ट-टू-वीडियो समान पैमाने पर आगे बढ़ता है तो टेक्स्ट-टू-इमेज ऐप्स का उपयोग करने की उसकी समानता हिमशैल का टिप मात्र हो सकती है।

Google ने आश्वासन दिया है कि वह ल्यूमियर के उचित उपयोग को सुनिश्चित करने के लिए सुरक्षा उपाय बना रहा है, लेकिन पेपर के लेखकों ने इस बात की पुष्टि नहीं की है कि घटनाओं को कैसे रोका जाएगा। हम प्रौद्योगिकी पर अपना हाथ डालने के लिए उत्सुक हैं, लेकिन ऐसा नहीं है अगर यह कीड़ों का एक बड़ा पिटारा खोल देगा।

अभिगम्यता