Menu Menu

Nowe narzędzie AI odtwarza twarze wyłącznie za pomocą danych głosowych

Ponieważ technologia deep fake staje się coraz trudniejsza do odgadnięcia w Internecie, od głosów AI po podobizny celebrytów, nowe narzędzie pozwoliło naukowcom odtworzyć twarze za pomocą nagrań głosowych.

Era deepfake'ów i sztucznych person nieustannie wkrada się do nas, jeden technologiczny przełom.

Chociaż być może widziałeś niesamowite konta TikTok tworzące deepfake filmy celebrytów, takich jak Tom Cruise, i generatory głosu celebrytów AI, takie jak Uberkacz, nowe narzędzie badawcze opracowane w MIT odtwarza twarz prawdziwej osoby, używając wyłącznie głosu.

Dotychczasowe wyniki są dość zróżnicowane – niektórzy mieszają pochodzenie etniczne, płeć i strukturę twarzy – ale istnieją dokładne próbki, które dają nadzieję na potencjalne zastosowanie w przyszłości.

Algorytm nazywa się Mowa2Twarz i był częścią artykułu badawczego opublikowanego po raz pierwszy w 2019 roku. Demo jest dostępne online, jeśli jesteś ciekawy sprawdź to sam.

Twarze wydają się być dokładniej odtworzone przy dłuższych klipach dźwiękowych, co nie powinno dziwić. Kod został stworzony przy użyciu milionów filmów z serwisu YouTube, a oprogramowanie zostało wymodelowane przez uczenie się „korelacji audiowizualnych i głos-twarz” z szerokiej gamy próbek.

Oczywiście wciąż trwają prace, więc nie za każdym razem jest to całkowicie na miejscu. Potencjał systemu, który rejestruje głosy i szybko identyfikuje osoby, może być ogromny, szczególnie w systemach prawnych i firmach nadzorujących.

Badania stojące za tą technologią są nieugięte, że jest to tylko do celów naukowych, ale wiemy już, że większe firmy – takie jak Facebook, Google, Amazon i wiele innych – są już bardzo zainteresowane zaawansowanymi programami Metaverse, Web 3.0 i zbieraniem danych użytkowników . Umiejętność szybkiego zidentyfikowania kogokolwiek może być druzgocąca w niepowołanych rękach.

Fotografia DIY wskazuje również że takie oprogramowanie może narazić na ryzyko tożsamość osób mających wpływ, zwłaszcza tych, którzy ukrywają twarze. TikTokery lub YouTuberzy, którzy świadomie starają się zamaskować swoją tożsamość, mogą zostać odkryci za pomocą fragmentów dźwiękowych ich głosów, od każdy klip, który kiedykolwiek opublikowali.

Mimo to prawdopodobnie jest to odległa przyszłość, ponieważ obecnie algorytm jest prywatny. Wygląda na to, że będziemy musieli pogodzić się z przyszłością, w której sztuczna inteligencja i technologia deepfake zacierają granicę między rzeczywistością a sztucznością, a dezinformacja będzie prawdopodobnie szerzyła się i będzie trudniej ją zlikwidować.

Wykrywanie tożsamości za pomocą krótkich klipów głosowych to po prostu kolejny krok na nieuniknionej ścieżce. Miejmy tylko nadzieję, że sprawy nie wymkną się spod kontroli.

dostępność