القائمة القائمة

يقوم Lumiere من Google بإنشاء مقاطع فيديو واقعية بتقنية الذكاء الاصطناعي من خلال المطالبات النصية

يتحول فيديو الذكاء الاصطناعي بسرعة من وادي غريب إلى واقعي حقًا، ويُعد Lumiere من Google أكثر مولدات تحويل النص إلى فيديو تطورًا التي رأيناها حتى الآن.

في إثارة شعور بالرهبة ــ وجرعة كبيرة من عدم الارتياح ــ عرضت شركة جوجل مؤخراً مدى تطور فيديو الذكاء الاصطناعي في غضون سنوات قليلة من التطوير.

بنفس الطريقة التي يمكن بها لمولدات تحويل النص إلى صورة مثل Bing Image Creator وDALL-E وMidjourney إنشاء صور أصلية من موجه من سطر واحد، فإن Google'sلومييريمكن للتطبيق تحويل أفكارنا الجامحة إلى مقاطع فيديو معروضة بالكامل مدتها خمس ثوانٍ.

تتوفر بالفعل أمثلة أخرى لمولدات تحويل النص إلى فيديو، ولكن محاولة Google هي الأولى التي تقدم تصويرًا دقيقًا للحركة إلى مستوى قريب من معايير CGI.

يحقق ذلك من خلال إنشاء إطار أساسي واستخدامه عالي الجودة STUNet تقنية (Space-Time-U-Net) لتحديد المكان الذي يجب أن تتحرك فيه العناصر الموجودة في الصورة بشكل مستقل. بمجرد تحديدها، تتكون الكائنات الموجودة داخل هذا الإطار الأولي من عدة طبقات خاصة بها تتدفق إلى بعضها البعض بسلاسة.

https://youtu.be/wxLr02Dz2Sc

Lumiere قادرة على إنشاء 80 إطارًا لكل صورة مقارنة بالحد الأقصى السابق البالغ 25 الذي حققته أقرب منافسيها Stable Video Diffusion. على الرغم من أن العديد من النتائج المبكرة التي أصدرتها Google تتسم بلمسة من المصطنعة، إلا أن القفزة في الجودة الشاملة منذ ذلك الحين ليس تجريبي مذهل.

بالإضافة إلى تحويل النص إلى فيديو، هناك أيضًا إنشاء صورة إلى فيديو والذي سيضفي الحيوية على الصورة الثابتة، والتوليد المنمق، الذي يمكنه إنشاء مقاطع فيديو بأسلوب مرئي محدد، وإعداد سينمائي قادر على تحريك جزء معين من الفيلم. الصورة الموجودة - مثل المياه المتدفقة، أو النار الوامضة، أو الدخان المنبعث من محرك القطار، على سبيل المثال.

فيما يتعلق باستراتيجية السوق، فإن الوصول المتأخر لـ Lumiere يتماشى مع سياسة Google المتأخرة العصرية. منذ التكرار المبكر لأداة اللغة التوليدية فشل بارد في العام الماضي، طورت شركة التكنولوجيا العملاقة بهدوء رؤيتها متعددة الوسائط للذكاء الاصطناعي التوليدي في الخلفية.

يتبع إعلانها الأخير عن كثب عرضًا لنموذج لغة Gemini من Google، والذي من المتوقع أن يشكل تحديًا متأخرًا لتاج ChatGPT كمعيار لهذا القطاع.

إذا نظرنا إلى ما هو أبعد من الضجة التجارية للفيديو AI، سيكون من التقصير تجاهل احتمال إساءة استخدام التكنولوجيا حيث يصبح من الصعب التمييز بين الأعمال الخيالية والمحتوى الواقعي.

الكارثة المستمرة التي تنطوي على صور جنسية صريحة لـ تايلور سويفت وقد يكون تشابهها في استخدام تطبيقات تحويل النص إلى صورة مجرد قمة جبل الجليد إذا انطلق تحويل النص إلى فيديو على نطاق مماثل.

تؤكد جوجل أنها تضع ضمانات لضمان الاستخدام العادل لـ Lumiere، لكن مؤلفي البحث لم يصدقوا بالضبط على كيفية منع وقوع الحوادث. نحن حريصون على وضع أيدينا على التكنولوجيا، ولكن ليس إذا كانت ستفتح علبة أكبر من الديدان.

إمكانية الوصول