AI-talesyntese kan føles som en ny gimmick nå, men når teknologien blir mer sofistikert, kan vi se en fullskala integrering i markedsføringsverdenen?
Tilsynelatende er AI-lydsyntese i ferd med å bli en hel mengde mer sofistikert enn Eminems rapgenerator. Som om det til og med er mulig.
Til tross for de mange etiske spørsmålene rundt rekreasjonsbruken av AI og dens potensiale for ondsinnet bruk – med dypfalsk porno uten samtykke politisk feilinformasjon, og modifisert satellittbilder blant hovedforbryterne i 2021 – det er spennende muligheter for å bryte inn i mainstream-næringer raskere enn forventet.
På den fronten peker alle bevis mot underholdning som den mest lovende veien for teknologien.
Først nylig har vi hørt om Spotifys patent for maskinlæring som vil bruke lydsignaler i miljøet vårt for å anbefale musikk basert på humøret vårt og produksjonshuset Lucasfilm ansette online deepfake-artisten 'Shamook' for å hjelpe til med å forbedre avdelingen for visuelle effekter.
Mens for et år eller to siden, å ta en storfilm og "forbedre" CGI-en sannsynligvis ville ha ført til en opphør-og-avstå-ordre fra skaperne, ser det ut til å være en økende aksept for at teknologien vil bli en del av vår bor.
Etter hvert som flere kommer til den oppfatningen, er det en følelse blant AI-eksperter at teknologien neste gang kan målrette seg mot reklamebransjen. Tenk deg syntetiserte kjendisstemmer som dukker opp på annonseplasseringer eller radioidentiteter.
Hvordan stemme AI fungerer
På samme måte som visuelle deepfakes, bruker stemme-AI (eller stemmesyntese) maskinlæringssystemer for å hente en spredt oversikt over noens stemme fra flere datakilder.
Denne samlingen av rålyd kjøres deretter gjennom en algoritme, som bruker synthesizere til å spleise det hele sammen og danne en setning som brukeren legger inn.
Hvis du ennå ikke har kastet bort timer på å lage tull fra Yoda eller David Attenborough, venter vi her mens du leker med et av mange gratis bot-programmer på nettet. Hvis ikke, sjekk ut dette Eminem syntetisert Mark Zuckerberg diss-spor.
Som eksemplet ovenfor, er flertallet av stemmekloningsmateriale på nettet enten spoofrelatert eller bare en utøvelse av teknologien, selv om det ikke er å si at det ikke allerede har dukket opp i seriøse kommersielle prosjekter.
Tilbake i juli het en dokumentar Roadrunner brukte stemme-AI for å gjenskape vokalen til kokken Anthony Bourdain og snakke ut replikker han hadde skrevet før hans død i 2018. Som du kan forestille deg, falt dette ikke særlig bra med en stor del av seerne.
Ytterligere kontrovers ble trommet opp en måned senere, da skuespilleren Val Kilmer brukte et byrå kalt Sonantic for å etterligne stemmen hans før en trakeostomi for å fjerne halskreft i 2014.
Mens mange berømmet teknologien i tilfellet med Kilmer, Roadrunner ble i stor grad sett på som utbyttende – spesielt ettersom dokumentaren ikke klarte å avsløre bruken av stemmesyntese i det hele tatt.