Video AI đang nhanh chóng chuyển từ thung lũng kỳ lạ sang thực tế thực sự và Lumiere của Google là trình tạo chuyển văn bản thành video phức tạp nhất mà chúng tôi từng thấy cho đến nay.
Gây ra cảm giác kinh ngạc – và một chút lo lắng – Google gần đây đã cho thấy video AI đã trở nên phức tạp như thế nào chỉ sau vài năm phát triển.
Theo cách tương tự mà các trình tạo văn bản thành hình ảnh như Bing Image Creator, DALL-E và Midjourney có thể tạo hình ảnh gốc từ lời nhắc một dòng, ' của Googlelumiere' ứng dụng có thể biến những ý tưởng điên rồ nhất của chúng tôi thành video được hiển thị đầy đủ năm giây.
Các ví dụ khác về trình tạo văn bản thành video đã có sẵn, nhưng nỗ lực của Google là nỗ lực đầu tiên thực sự mô tả chính xác chuyển động theo tiêu chuẩn CGI.
Nó đạt được điều này bằng cách thiết lập một khung cơ sở và sử dụng STUNet (Space-Time-U-Net) để tự động thiết lập các mục trong hình ảnh sẽ di chuyển như thế nào. Sau khi được chọn, các đối tượng trong khung ban đầu đó sẽ bao gồm một số lớp của riêng chúng liên kết với nhau một cách liền mạch.
Lumiere có thể tạo ra 80 khung hình cho mỗi hình ảnh so với mức tối đa trước đó là 25 khung hình mà đối thủ cạnh tranh gần nhất là Stable Video Diffusion đạt được. Mặc dù một số kết quả ban đầu do Google công bố có chút giả tạo, nhưng bước nhảy vọt về chất lượng tổng thể kể từ khi nó được đưa ra. KHÔNG phải bản demo đang loạng choạng.
Ngoài chuyển văn bản thành video, còn có cách tạo hình ảnh thành video sẽ mang lại hình ảnh tĩnh sống động, thế hệ cách điệu, có thể tạo video theo một phong cách hình ảnh cụ thể và cài đặt máy quay phim có thể tạo hoạt ảnh cho một phần cụ thể của hình ảnh hiện có – chẳng hạn như nước chảy, ngọn lửa bập bùng hoặc khói từ động cơ xe lửa.
Về mặt chiến lược thị trường, sự xuất hiện muộn của Lumiere phù hợp với chính sách muộn màng thời thượng của Google. Kể từ lần lặp đầu tiên của công cụ ngôn ngữ tổng quát của nó Bard thất bại Năm ngoái, gã khổng lồ công nghệ đã âm thầm phát triển tầm nhìn đa phương thức của mình cho AI tạo ra nền tảng.