Menu Menu

Lumiere của Google tạo video AI thực tế từ lời nhắc văn bản

Video AI đang nhanh chóng chuyển từ thung lũng kỳ lạ sang thực tế thực sự và Lumiere của Google là trình tạo chuyển văn bản thành video phức tạp nhất mà chúng tôi từng thấy cho đến nay.

Gây ra cảm giác kinh ngạc – và một chút lo lắng – Google gần đây đã cho thấy video AI đã trở nên phức tạp như thế nào chỉ sau vài năm phát triển.

Theo cách tương tự mà các trình tạo văn bản thành hình ảnh như Bing Image Creator, DALL-E và Midjourney có thể tạo hình ảnh gốc từ lời nhắc một dòng, ' của Googlelumiere' ứng dụng có thể biến những ý tưởng điên rồ nhất của chúng tôi thành video được hiển thị đầy đủ năm giây.

Các ví dụ khác về trình tạo văn bản thành video đã có sẵn, nhưng nỗ lực của Google là nỗ lực đầu tiên thực sự mô tả chính xác chuyển động theo tiêu chuẩn CGI.

Nó đạt được điều này bằng cách thiết lập một khung cơ sở và sử dụng STUNet (Space-Time-U-Net) để tự động thiết lập các mục trong hình ảnh sẽ di chuyển như thế nào. Sau khi được chọn, các đối tượng trong khung ban đầu đó sẽ bao gồm một số lớp của riêng chúng liên kết với nhau một cách liền mạch.

https://youtu.be/wxLr02Dz2Sc

Lumiere có thể tạo ra 80 khung hình cho mỗi hình ảnh so với mức tối đa trước đó là 25 khung hình mà đối thủ cạnh tranh gần nhất là Stable Video Diffusion đạt được. Mặc dù một số kết quả ban đầu do Google công bố có chút giả tạo, nhưng bước nhảy vọt về chất lượng tổng thể kể từ khi nó được đưa ra. KHÔNG phải bản demo đang loạng choạng.

Ngoài chuyển văn bản thành video, còn có cách tạo hình ảnh thành video sẽ mang lại hình ảnh tĩnh sống động, thế hệ cách điệu, có thể tạo video theo một phong cách hình ảnh cụ thể và cài đặt máy quay phim có thể tạo hoạt ảnh cho một phần cụ thể của hình ảnh hiện có – chẳng hạn như nước chảy, ngọn lửa bập bùng hoặc khói từ động cơ xe lửa.

Về mặt chiến lược thị trường, sự xuất hiện muộn của Lumiere phù hợp với chính sách muộn màng thời thượng của Google. Kể từ lần lặp đầu tiên của công cụ ngôn ngữ tổng quát của nó Bard thất bại Năm ngoái, gã khổng lồ công nghệ đã âm thầm phát triển tầm nhìn đa phương thức của mình cho AI tạo ra nền tảng.

Thông báo mới nhất của nó theo sát sự giới thiệu mô hình ngôn ngữ Gemini của Google, được cho là sẽ tạo ra thách thức muộn màng cho vương miện của ChatGPT làm chuẩn mực cho lĩnh vực này.

Nhìn xa hơn những tin đồn thương mại về AI video, sẽ thật thiếu sót nếu bỏ qua khả năng lạm dụng công nghệ này vì việc phân biệt tác phẩm hư cấu với nội dung đời thực ngày càng khó khăn hơn.

Sự thất bại đang diễn ra liên quan đến các mô tả khiêu dâm về Taylor Swift và khả năng sử dụng ứng dụng chuyển văn bản thành hình ảnh của cô ấy có thể chỉ là phần nổi của tảng băng chìm nếu tính năng chuyển văn bản thành video phát triển ở quy mô tương tự.

Google đảm bảo rằng họ đang tạo ra các biện pháp bảo vệ để đảm bảo sử dụng hợp lý Lumiere, nhưng các tác giả của bài báo vẫn chưa phê chuẩn chính xác cách ngăn chặn sự cố. Chúng tôi rất mong muốn có được công nghệ này, nhưng không phải liệu nó có mở được hộp sâu lớn hơn hay không.

Khả Năng Tiếp Cận