एआई वीडियो तेजी से अलौकिक घाटी से वास्तव में यथार्थवादी में बदल रहा है, और Google का लुमियर सबसे परिष्कृत टेक्स्ट-टू-वीडियो जनरेटर है जिसे हमने आज तक देखा है।
विस्मय की भावना पैदा करना - और बेचैनी की एक बड़ी खुराक - Google ने हाल ही में प्रदर्शित किया कि विकास के कुछ ही वर्षों में AI वीडियो कितना परिष्कृत हो गया है।
उसी तरह जैसे बिंग इमेज क्रिएटर, DALL-E और मिडजर्नी जैसे टेक्स्ट-टू-इमेज जेनरेटर सिंगल-लाइन प्रॉम्प्ट से मूल छवियां बना सकते हैं, Google का 'Lumiere'एप्लिकेशन हमारे बेतहाशा विचारों को पूरी तरह से पांच सेकंड के वीडियो में बदल सकता है।
टेक्स्ट-टू-वीडियो जनरेटर के अन्य उदाहरण पहले से ही उपलब्ध हैं, लेकिन Google का प्रयास वास्तव में सीजीआई मानक के करीब आंदोलन के सटीक चित्रण को स्थापित करने का पहला प्रयास है।
यह एक बेस फ्रेम स्थापित करके और इसके अत्यधिक प्रचारित उपयोग से इसे प्राप्त करता है स्टुनेट (स्पेस-टाइम-यू-नेट) तकनीक स्वायत्त रूप से यह स्थापित करती है कि छवि में वस्तुओं को कहां और कैसे स्थानांतरित करना चाहिए। एक बार चुने जाने के बाद, उस प्रारंभिक फ्रेम के भीतर की वस्तुओं में स्वयं की कई परतें शामिल हो जाती हैं जो एक दूसरे में निर्बाध रूप से प्रवाहित होती हैं।
ल्यूमियर प्रति छवि 80 फ्रेम उत्पन्न करने में सक्षम है, जबकि इसके निकटतम प्रतिद्वंद्वी स्टेबल वीडियो डिफ्यूजन ने पिछले अधिकतम 25 फ्रेम बनाए थे। हालाँकि Google द्वारा जारी किए गए कई शुरुआती परिणामों में कृत्रिमता का स्पर्श है, इसके बाद से समग्र गुणवत्ता में उछाल आया है डेमो नहीं चौंका देने वाला है।
टेक्स्ट-टू-वीडियो के अलावा, छवि-से-वीडियो पीढ़ी भी है जो एक स्थिर तस्वीर को जीवंत कर देगी, शैलीबद्ध पीढ़ी, जो एक विशिष्ट दृश्य शैली में वीडियो बना सकती है, और एक सिनेमोग्राफ सेटिंग जो किसी विशिष्ट हिस्से को एनिमेट करने में सक्षम है। मौजूदा छवि - उदाहरण के लिए, बहता पानी, टिमटिमाती आग, या ट्रेन इंजन से निकलने वाला धुआं।
बाज़ार रणनीति के संदर्भ में, लुमिएरे का देर से आगमन Google की फ़ैशनेबल देर से आने वाली नीति के अनुरूप है। इसके जनरेटिव भाषा उपकरण के प्रारंभिक पुनरावृत्ति के बाद से बार्ड फ्लॉप हो गया पिछले साल, तकनीकी दिग्गज ने चुपचाप पृष्ठभूमि में जेनरेटिव एआई के लिए अपना मल्टीमॉडल विज़न विकसित किया है।