KI-Sprachsynthesizer mögen sich jetzt wie ein neuartiges Gimmick anfühlen, aber wenn die Technologie immer ausgefeilter wird, könnten wir eine vollständige Integration in die Marketingwelt sehen?
Anscheinend werden KI-Audiosynthesizer eine ganze Menge ausgefeilter als Eminems Rap-Generator. So ist das sogar möglich.
Trotz der vielen ethischen Probleme im Zusammenhang mit der Freizeitnutzung von KI und ihrem Potenzial für schändliche Verwendungen – mit nicht einvernehmlichen Deepfake-Pornos, manipuliert politische Fehlinformationen, und modifiziert Satellitenbilder zu den Haupttätern des Jahres 2021 – es gibt spannende Möglichkeiten, früher als erwartet in die Mainstream-Branchen einzudringen.
An dieser Front deuten alle Beweise auf Unterhaltung als den vielversprechendsten Weg für die Technologie hin.
Erst vor kurzem haben wir davon gehört Das Patent von Spotify für maschinelles Lernen, das Audio-Cues in unserer Umgebung verwendet, um Musik basierend auf unserer Stimmung zu empfehlen, und Produktionshaus Lucasfilm Einstellung des Online-Deepfake-Künstlers "Shamook", um seine Abteilung für visuelle Effekte zu verbessern.
Während vor ein oder zwei Jahren die Aufnahme eines Blockbuster-Films und die "Verbesserung" seiner CGI wahrscheinlich zu einer Unterlassungsanordnung von seinen Machern geführt hätten, scheint die Akzeptanz zu wachsen, dass die Technologie ein fester Bestandteil unseres werden wird lebt.
Da immer mehr zu dieser Vorstellung kommen, gibt es unter KI-Experten das Gefühl, dass die Technologie als nächstes auf die Werbebranche abzielen könnte. Stellen Sie sich synthetisierte Stimmen von Prominenten vor, die auf Anzeigenplatzierungen oder Radiokennungen auftauchen.
So funktioniert Sprach-KI
Ähnlich wie bei visuellen Deepfakes verwendet die Sprach-KI (oder Sprachsynthese) Systeme des maschinellen Lernens, um eine verstreute Aufzeichnung der Stimme einer Person aus mehreren Datenquellen zu ziehen.
Diese Sammlung von rohem Audio wird dann durch einen Algorithmus geleitet, der Synthesizer verwendet, um alles zusammenzufügen und einen vom Benutzer eingegebenen Satz zu bilden.
Wenn Sie noch keine Stunden damit verschwendet haben, Yoda oder David Attenborough Unsinn auszusprechen, warten wir hier, während Sie mit einem der vielen kostenlosen Online-Bot-Programme herumspielen. Wenn das nicht klappt, schau dir das an Eminem synthetisierten Mark Zuckerberg Diss-Track.
Wie im obigen Beispiel ist der Großteil des Online-Sprachklonmaterials entweder fälschungsbezogen oder lediglich eine Übung der Technologie, obwohl das nicht heißt, dass es nicht bereits in ernsthaften kommerziellen Projekten aufgetaucht ist.
Bereits im Juli wurde ein Dokumentarfilm namens Roadrunner verwendete Voice AI, um den Gesang von Küchenchef Anthony Bourdain nachzubilden und Zeilen auszusprechen, die er vor seinem Tod im Jahr 2018 geschrieben hatte. Wie Sie sich vorstellen können, kam dies bei einem großen Teil der Zuschauer nicht sehr gut an.
Eine weitere Kontroverse wurde einen Monat später entfacht, als Schauspieler Val Kilmer eine Agentur namens Sonantic nutzte, um seine Stimme vor einer Tracheostomie zur Entfernung von Kehlkopfkrebs im Jahr 2014 zu emulieren.
Während im Fall von Kilmer viele die Technik lobten, Roadrunner wurde weitgehend als ausbeuterisch – zumal der Dokumentarfilm die Verwendung der Sprachsynthese überhaupt nicht offenlegt.