Giờ đây, bộ tổng hợp giọng nói AI có thể giống như một mánh lới quảng cáo mới lạ, nhưng khi công nghệ ngày càng trở nên phức tạp hơn, liệu chúng ta có thể thấy sự tích hợp toàn diện vào thế giới tiếp thị không?
Rõ ràng, bộ tổng hợp âm thanh AI sắp đạt được toàn bộ tải phức tạp hơn bộ tạo rap của Eminem. Giống như điều đó thậm chí có thể.
Bất chấp nhiều vấn đề đạo đức xung quanh việc sử dụng AI để giải trí và khả năng sử dụng bất chính của nó - với nội dung khiêu dâm deepfake không có sự đồng thuận, đã được nghiên cứu thông tin sai lệch chính trịvà được sửa đổi hình ảnh vệ tinh trong số những kẻ vi phạm chính của năm 2021 - có những khả năng thú vị để nó xâm nhập vào các ngành công nghiệp chính sớm hơn dự kiến.
Về mặt đó, tất cả các bằng chứng đều hướng tới giải trí như một con đường hứa hẹn nhất cho công nghệ.
Chỉ gần đây, chúng tôi đã nghe nói về Bằng sáng chế của Spotify đối với học máy sẽ sử dụng các tín hiệu âm thanh trong môi trường của chúng ta để giới thiệu âm nhạc dựa trên tâm trạng của chúng ta và nhà sản xuất Lucasfilm thuê nghệ sĩ deepfake trực tuyến 'Shamook' để giúp cải thiện bộ phận hiệu ứng hình ảnh.
Mặc dù một hoặc hai năm trước, việc tham gia một bộ phim bom tấn và 'cải thiện' CGI của nó có thể sẽ dẫn đến lệnh ngừng và hủy bỏ từ những người sáng tạo ra nó, dường như ngày càng có nhiều sự chấp nhận rằng công nghệ sẽ trở thành một phần của bộ phim của chúng tôi cuộc sống.
Khi xuất hiện nhiều hơn về khái niệm đó, các chuyên gia AI có cảm giác rằng công nghệ tiếp theo có thể nhắm mục tiêu vào ngành quảng cáo. Chỉ cần tưởng tượng giọng nói tổng hợp của những người nổi tiếng xuất hiện trên các vị trí đặt quảng cáo hoặc id trên đài phát thanh.
Cách thức hoạt động của AI bằng giọng nói
Giống như các trò chơi sâu bằng hình ảnh, AI bằng giọng nói (hoặc tổng hợp giọng nói) sử dụng hệ thống máy học để lấy bản ghi phân tán giọng nói của một người nào đó từ nhiều nguồn dữ liệu.
Bộ sưu tập âm thanh thô này sau đó được chạy thông qua một thuật toán, sử dụng các trình tổng hợp để ghép tất cả lại với nhau và tạo thành một câu do người dùng nhập.
Nếu bạn vẫn chưa lãng phí hàng giờ để làm cho Yoda hoặc David Attenborough phun ra những điều vô nghĩa, chúng tôi sẽ đợi ở đây trong khi bạn đùa giỡn với một trong nhiều chương trình bot miễn phí trực tuyến. Không thành công, hãy xem cái này Eminem tổng hợp bài diss Mark Zuckerberg.
Giống như ví dụ trên, phần lớn tài liệu nhân bản giọng nói trực tuyến có liên quan đến giả mạo hoặc chỉ đơn thuần là một bài tập của công nghệ, mặc dù điều đó không có nghĩa là nó chưa xuất hiện trong các dự án thương mại nghiêm túc.
Trở lại vào tháng XNUMX, một bộ phim tài liệu có tên Roadrunner đã sử dụng AI giọng nói để tái tạo giọng hát của đầu bếp Anthony Bourdain và nói ra những dòng anh ấy đã viết trước khi qua đời vào năm 2018. Như bạn có thể tưởng tượng, điều này không diễn ra tốt đẹp với một bộ phận lớn người xem.
Một tháng sau đó, một cuộc tranh cãi tiếp tục nổ ra khi nam diễn viên Val Kilmer sử dụng một công ty có tên Sonantic để mô phỏng giọng nói của anh ấy trước khi phẫu thuật mở khí quản để loại bỏ ung thư vòm họng vào năm 2014.
Trong khi nhiều người ca ngợi công nghệ trong trường hợp của Kilmer, Roadrunner phần lớn được xem là bóc lột - đặc biệt là khi bộ phim tài liệu không tiết lộ việc sử dụng tổng hợp giọng nói.