يتحول فيديو الذكاء الاصطناعي بسرعة من وادي غريب إلى واقعي حقًا، ويُعد Lumiere من Google أكثر مولدات تحويل النص إلى فيديو تطورًا التي رأيناها حتى الآن.
في إثارة شعور بالرهبة ــ وجرعة كبيرة من عدم الارتياح ــ عرضت شركة جوجل مؤخراً مدى تطور فيديو الذكاء الاصطناعي في غضون سنوات قليلة من التطوير.
بنفس الطريقة التي يمكن بها لمولدات تحويل النص إلى صورة مثل Bing Image Creator وDALL-E وMidjourney إنشاء صور أصلية من موجه من سطر واحد، فإن Google'sلومييريمكن للتطبيق تحويل أفكارنا الجامحة إلى مقاطع فيديو معروضة بالكامل مدتها خمس ثوانٍ.
تتوفر بالفعل أمثلة أخرى لمولدات تحويل النص إلى فيديو، ولكن محاولة Google هي الأولى التي تقدم تصويرًا دقيقًا للحركة إلى مستوى قريب من معايير CGI.
يحقق ذلك من خلال إنشاء إطار أساسي واستخدامه عالي الجودة STUNet تقنية (Space-Time-U-Net) لتحديد المكان الذي يجب أن تتحرك فيه العناصر الموجودة في الصورة بشكل مستقل. بمجرد تحديدها، تتكون الكائنات الموجودة داخل هذا الإطار الأولي من عدة طبقات خاصة بها تتدفق إلى بعضها البعض بسلاسة.
Lumiere قادرة على إنشاء 80 إطارًا لكل صورة مقارنة بالحد الأقصى السابق البالغ 25 الذي حققته أقرب منافسيها Stable Video Diffusion. على الرغم من أن العديد من النتائج المبكرة التي أصدرتها Google تتسم بلمسة من المصطنعة، إلا أن القفزة في الجودة الشاملة منذ ذلك الحين ليس تجريبي مذهل.
بالإضافة إلى تحويل النص إلى فيديو، هناك أيضًا إنشاء صورة إلى فيديو والذي سيضفي الحيوية على الصورة الثابتة، والتوليد المنمق، الذي يمكنه إنشاء مقاطع فيديو بأسلوب مرئي محدد، وإعداد سينمائي قادر على تحريك جزء معين من الفيلم. الصورة الموجودة - مثل المياه المتدفقة، أو النار الوامضة، أو الدخان المنبعث من محرك القطار، على سبيل المثال.
فيما يتعلق باستراتيجية السوق، فإن الوصول المتأخر لـ Lumiere يتماشى مع سياسة Google المتأخرة العصرية. منذ التكرار المبكر لأداة اللغة التوليدية فشل بارد في العام الماضي، طورت شركة التكنولوجيا العملاقة بهدوء رؤيتها متعددة الوسائط للذكاء الاصطناعي التوليدي في الخلفية.