Sügavkülmikud ja sügavad videoportreed - mis need on ja milles erinevus on?

Te kahtlemata teate, mis on süvafaks, kuid te ei pruugi teada, mida seda nimetatakse või mida see tegelikult tähendab. Võib-olla ei tea te, et on olemas erinevat tüüpi tehnoloogiaid, mis võivad võltsvideoid ja -hääli luua.

Meile kõigile on tuttavad “photoshopped” piltidega ja kui ohjeldamatuks need on muutunud. Oleme tutvunud ka videotefektide (VFX) ja eriefektidega, mida on filmides kasutatud aastakümneid. Kuid meediumide uus ajastu on käes tänu „Deepfakesile“.

Deepfake ja Deep Video Portrait tehnoloogia on kaks sarnast, kuid erinevat tehnikat, mida kasutatakse Hollywoodi filmides, YouTube'i videotes ja jah, pornograafias. Kuid mis see tehnoloogia tegelikult on ja kuidas see kõik töötab?

Kui te pole veel näinud videot, kus Nicolas Cage'i nägu oleks teise filminäitleja kohal olnud, siis olete peaaegu kindlalt näinud ühte paljudest sotsiaalmeedia “filtritest” või “maskidest”, mis võivad teid muuta kassiks, lisada peakokk müts pähe või tee sinust ükssarvik.

Võib-olla olete näinud BuzzFeedi videot, milles koomik ja impressionist Jordan Peele demonstreerib, kuidas kellegi (antud juhul endise presidendi Barack Obama) nägu saab videos manipuleerida nii, et ta näib ütlevat midagi, mida ta kunagi ei teinud.

Võib-olla olete isegi kuulnud Wonder Womani staarist Gal Gadotist, kes väidetavalt ilmus täiskasvanute videol, mille võltsis Redditi kasutaja nimega “sügavad fakesid”. Gadoti nägu asetati pornostaari kehale eelmise aasta detsembris, millest sai üks esimesi laialt arutatud Sügavkülmikud.

Mis on “sügav võlts”?

Deepfakesi keskmes on see, mida võiksite mõelda kui “nägude vahetamist”.

Deepfake on AI-ga abistatav video, mis on loodud selleks, et teha mitu (tavaliselt sadu või tuhandeid) allikast pärit inimese fotosid. Neid pilte saab alla laadida paljudest allikatest, näiteks inimese Instagram, Facebook, Snapchat või isegi Google'i pildiotsing).

Tarkvara Deepfake AI kaardistab lähtepiltide nägu ja genereerib söödetud fotode põhjal 3D-näomudeli. Mudel kaardistab sihtnäitleja näo piiri ja funktsioone:

Allikas: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8, autor Cole Murray

Tarkvarale antakse ka lähtevideo, mis sisaldab sihtmärki, mida kasutaja soovib asendada. AI kaardistab ka videos oleva inimese näo, luues jällegi 3D-kaardistatud mudeli.

CMU dotsentprofessor Simon Lucey kasutab ennast näitena oma näokaardistamise tarkvara tutvustamiseks, mis on välja töötatud veebipõhisele prillide jaemüüjale. Autor: Simon Lucey / CMU

Siin hakkab AI sobitama lähtemudelit sihtmudeliga. See “õpib” nägusid talle antud piltide (treeningandmete) abil, mis näeb välja pisut selline:

Näovahetuse koolitusmudeli näide - Elon Musk Jeff Bezosile, autor Adi Robertson, Allikas: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

Seejärel liidab AI lähtefotodest genereeritud 3D-näo sihtvideo 3D-mudeli kohal ja väljastab video, milles näo, suu, silmade jms liigutused sobivad kokku, töötades originaalne nägu.

Deepfake'i allikaks on fotode seeria ja Deepfake'i tulemuseks on asendatud näoga video, näiteks need näited:

Mille poolest see erineb sügavast videoportreedest?

Sügavuse ja sügava videoportree (DVP, lühiduse huvides) erinevus seisneb kahes peamises eristuses:

  1. DVP-st väljunud video ei asenda nägu, vaid manipuleerib funktsioonidega
  2. DVP allikas on pärit näitlejatelt, mitte üksikutelt fotodelt.

DVP ei ole näovahetus. See on näo manipuleerimine. Video nukuteater.

Selle artikli varem lingitud video, milles näidatakse, kuidas Obama räägib võltsvideotest, on näide DVP-st, mitte sügavast võltsimisest. On näitlejat, kelle nägu on kaardistatud, ja kuna te ei asenda sihtnägu, vaid panite ainult sihtmärgi näo liikuma, võib tulemus olla veelgi usutavam kui fotopõhine sügavkülm.

DVP loojad saavad teha näiteks eesmärgi vilkuma panna suu, avada suu, tõsta kulmud üles ja pöörata pea külg küljele, lähtudes lähtenäitleja liigutustest. Deepfakes seevastu ei saa algse video liigutustest tegelikult kuidagi eralduda. Seetõttu on DVP usutavam kui sügavmõte.

See näide selgitab põhjalikumalt, kuidas see näohõive ja taasaktiveerimise tehnoloogia töötab:

Snapchati või Instagrami filtrimask on DVP, mitte Deepfake. Selle põhjuseks on see, et olete teie (sihtmärk ei muuda nägusid), kuid teie nägu on kaardistatud ja rakendus lihtsalt katab midagi teie enda nägu:

Hääl võltsinguid ja sügavaid videoportreesid

On veel üks tüüpi võltsitud sisu, mis on viimasel ajal muutunud paremaks ja kättesaadavamaks - hääle genereerimine.

Adobe demonstreeris 2016. aastal Adobe Maxi loovuskonverentsil VoCo: helikomplekt, mis aitab kasutajatel panna inimesi ütlema mida iganes nad tahavad. Mõelge tekstist kõnele, kuid tuginege kellegi päris häälele.

Ettevõtte sõnul võib 20-minutiline kuulamissisend võimaldada VoCol väljastada realistliku häälepala, mis kõlab nagu allikas. Väljund genereeritakse tarkvara töötava arvuti kaudu.

Adobe VoCost pole alates 2016. aastast tegelikult kuulda olnud, võib-olla pärast seda, kui tõstatati privaatsus- ja identiteediprobleemid. Seda esitleti ideede foorumis, mida ei kuulutatud uue tootena. See tekitas huvi, põnevust ja diskussiooni, kuid ei pakkunud konkreetset vabastamise ootust.

Nüüd, kui idee ja tehnoloogia on olemas, on teised ettevõtted andnud loomulikult välja oma hääle genereerimise tehnoloogia versiooni. Lyrebird on välja lasknud teenuse, mis genereerib teile „hääle avatari“, mis põhineb ainult 30 sisendkõne lausel (versus VoCo jaoks vajalike andmetega umbes 20 minutit).

Kui VoCo vajas oma väljundi genereerimiseks kohalikke arvutusressursse, siis Lyrebird kasutab skaleeritavaid pilveressursse, muutes väljundi genereerimise oluliselt kiiremaks. Lyrebird nõuab ka 30 konkreetset lauset versus 20-minutilisi põhilisi kõneskeeme, mis võivad pärssida võltsimist ja muid haavatavusi.

Koos DVP-ga võib võltshääl suurendada usutavust. Selle põhjuseks on see, et te ei kuula kellegi muljet, mis võiks võltsimise ära anda, vaid pigem kuulete palju lähedasemat esitusviisi, mis põhineb sihtri inimese enda häälel.

Hübriidtehnoloogia

FaceSwap on rakendus, mis võimaldab teil sisuliselt ühendada Deepfake'i näovahetuse, kuid reaalajas teise inimese nägu nukuteates omaenda väljenditega. Selles on ühendatud Deepfake ja DVP.

Järeldus

Nende tehnoloogiate täiustamist jätkatakse. Ehkki paljud kasutusalad on lõbusad ja pöörased, on selle tehnoloogia mõju märkimisväärne.

Sügavkülmutustel ja DVP-del on kahtlemata laiaulatuslik mõju meie vaadetele tegelikkusele, usaldusele ja privaatsusele. Arutelu eetika, probleemide ja ühiskondlike mõjude (hea ja halva) üle on aga kaugelt selle artikli ulatusest väljas.

Praegu on ainus lahendus (olla) skeptiline kõige selle suhtes, mida näete ja kuulete.

Foto: Mikes Fotod Pexelsilt