Menu Menu

Có phải AI bằng giọng nói đang trên đà bùng nổ tiếp thị?

Giờ đây, bộ tổng hợp giọng nói AI có thể giống như một mánh lới quảng cáo mới lạ, nhưng khi công nghệ ngày càng trở nên phức tạp hơn, liệu chúng ta có thể thấy sự tích hợp toàn diện vào thế giới tiếp thị không?

Rõ ràng, bộ tổng hợp âm thanh AI sắp đạt được toàn bộ tải phức tạp hơn bộ tạo rap của Eminem. Giống như điều đó thậm chí có thể.

Bất chấp nhiều vấn đề đạo đức xung quanh việc sử dụng AI để giải trí và khả năng sử dụng bất chính của nó - với nội dung khiêu dâm deepfake không có sự đồng thuận, đã được nghiên cứu thông tin sai lệch chính trịvà được sửa đổi hình ảnh vệ tinh trong số những kẻ vi phạm chính của năm 2021 - có những khả năng thú vị để nó xâm nhập vào các ngành công nghiệp chính sớm hơn dự kiến.

Về mặt đó, tất cả các bằng chứng đều hướng tới giải trí như một con đường hứa hẹn nhất cho công nghệ.

Chỉ gần đây, chúng tôi đã nghe nói về Bằng sáng chế của Spotify đối với học máy sẽ sử dụng các tín hiệu âm thanh trong môi trường của chúng ta để giới thiệu âm nhạc dựa trên tâm trạng của chúng ta và nhà sản xuất Lucasfilm thuê nghệ sĩ deepfake trực tuyến 'Shamook' để giúp cải thiện bộ phận hiệu ứng hình ảnh.

https://youtu.be/yK-l4gz4rUU

Mặc dù một hoặc hai năm trước, việc tham gia một bộ phim bom tấn và 'cải thiện' CGI của nó có thể sẽ dẫn đến lệnh ngừng và hủy bỏ từ những người sáng tạo ra nó, dường như ngày càng có nhiều sự chấp nhận rằng công nghệ sẽ trở thành một phần của bộ phim của chúng tôi cuộc sống.

Khi xuất hiện nhiều hơn về khái niệm đó, các chuyên gia AI có cảm giác rằng công nghệ tiếp theo có thể nhắm mục tiêu vào ngành quảng cáo. Chỉ cần tưởng tượng giọng nói tổng hợp của những người nổi tiếng xuất hiện trên các vị trí đặt quảng cáo hoặc id trên đài phát thanh.


Cách thức hoạt động của AI bằng giọng nói

Giống như các trò chơi sâu bằng hình ảnh, AI bằng giọng nói (hoặc tổng hợp giọng nói) sử dụng hệ thống máy học để lấy bản ghi phân tán giọng nói của một người nào đó từ nhiều nguồn dữ liệu.

Bộ sưu tập âm thanh thô này sau đó được chạy thông qua một thuật toán, sử dụng các trình tổng hợp để ghép tất cả lại với nhau và tạo thành một câu do người dùng nhập.

Nếu bạn vẫn chưa lãng phí hàng giờ để làm cho Yoda hoặc David Attenborough phun ra những điều vô nghĩa, chúng tôi sẽ đợi ở đây trong khi bạn đùa giỡn với một trong nhiều chương trình bot miễn phí trực tuyến. Không thành công, hãy xem cái này Eminem tổng hợp bài diss Mark Zuckerberg.

Giống như ví dụ trên, phần lớn tài liệu nhân bản giọng nói trực tuyến có liên quan đến giả mạo hoặc chỉ đơn thuần là một bài tập của công nghệ, mặc dù điều đó không có nghĩa là nó chưa xuất hiện trong các dự án thương mại nghiêm túc.

Trở lại vào tháng XNUMX, một bộ phim tài liệu có tên Roadrunner đã sử dụng AI giọng nói để tái tạo giọng hát của đầu bếp Anthony Bourdain và nói ra những dòng anh ấy đã viết trước khi qua đời vào năm 2018. Như bạn có thể tưởng tượng, điều này không diễn ra tốt đẹp với một bộ phận lớn người xem.

Một tháng sau đó, một cuộc tranh cãi tiếp tục nổ ra khi nam diễn viên Val Kilmer sử dụng một công ty có tên Sonantic để mô phỏng giọng nói của anh ấy trước khi phẫu thuật mở khí quản để loại bỏ ung thư vòm họng vào năm 2014.

Trong khi nhiều người ca ngợi công nghệ trong trường hợp của Kilmer, Roadrunner phần lớn được xem là bóc lột - đặc biệt là khi bộ phim tài liệu không tiết lộ việc sử dụng tổng hợp giọng nói.


Một tương lai sinh lợi cho những người nổi tiếng và những người có ảnh hưởng

Cảm giác đối với việc sử dụng chủ đạo giọng nói tổng hợp và những câu chuyện sâu sắc nói chung vẫn chưa được nhất trí, nhưng có lợi ích hai chiều nhất định từ cả người nổi tiếng và các công ty để cấp phép sử dụng chúng - giống như quyền hình ảnh.

Nhận thức được điều này, một công ty có tên là Veritone đã tung ra một dịch vụ vào đầu năm nay cho phép những người có ảnh hưởng, vận động viên và diễn viên bán quyền âm thanh ảo của họ để xác nhận.

Về bản chất, điều này cho phép những người nổi tiếng và những người có ảnh hưởng tạo ra doanh thu mà không cần phải di chuyển đến phòng thu hoặc địa điểm thu âm, trong khi một khách hàng trả tiền sẽ thu được lợi ích khi có tiếng nói của họ.

Tôi chắc chắn rằng các hợp đồng sẽ tốt hơn thế, nhưng bạn hiểu được ý chính.

Vì vậy, miễn là các tài năng hài lòng với việc cho thuê một nền tảng của chính họ, gần như chắc chắn sẽ có cơ hội trong tương lai cho các tên tuổi lớn kiếm tiền.

Bruce Willis, chẳng hạn, đã cấp phép cho hình ảnh của anh ấy được sử dụng làm deepfake bằng tiếng Nga quảng cáo trên điện thoại di động. Làm cho điều đó thực tế cũng lạc hậu hơn, chúng ta đang nói về Willis trẻ tuổi ngay từ Die Hard kỷ nguyên.

Ở đây và bây giờ, các ứng dụng như Veritone rất ít và xa, nhưng tổng hợp giọng nói đã được sử dụng bởi podcast.

Một công ty như vậy, Descript, đã tạo ra một tính năng có tên là 'quá tải'cho phép các podcast tổng hợp giọng nói của riêng họ. Bằng cách này, các chương trình và bảng điểm có thể được chỉnh sửa nhanh chóng.

Việc thảo luận về bất kỳ nội dung không xác thực nào sẽ luôn vấp phải sự quan tâm và chỉ trích, nhưng điều đó không ngăn cản các ngành công nghiệp nảy sinh ý tưởng về AI. Ngược lại, nó ngày càng trở nên tiên tiến hơn và khó bị phát hiện hơn.

Sẽ rất thú vị nếu ai là người nhảy trước ở những cơ hội này. Tôi sẽ sẵn sàng mua PPI hơn rất nhiều nếu Patrick Stewart nói như vậy.

Khả Năng Tiếp Cận