Čo sú to falzifikáty? AI, ktorá klame

Deepfakes sú médiá - často video, ale niekedy aj audio - ktoré boli vytvorené, zmenené alebo syntetizované pomocou hlbokého učenia, aby sa pokúsili oklamať niektorých divákov alebo poslucháčov, aby uverili falošnej udalosti alebo falošnej správe.

Pôvodný príklad hlbokého falošného videa (používateľom reddit / u / deepfake) vo videu vymenil tvár herečky za telo pornografického umelca - čo bolo samozrejme úplne neetické, aj keď pôvodne nebolo nezákonné. Ďalšie hlboké falzifikáty zmenili to, čo slávni ľudia hovorili, alebo jazyk, ktorým hovorili.

Deepfakes rozširujú myšlienku komponovania videa (alebo filmu), čo sa deje už celé desaťročia. Významné video zručnosti, čas a vybavenie sú potrebné pre zostavenie videa; hlboké falošné videá vyžadujú oveľa menej zručností, času (za predpokladu, že máte GPU) a vybavenia, aj keď sú pre pozorných pozorovateľov často nepresvedčivé.

Ako vytvárať falzifikáty

Falošné falzifikáty sa pôvodne spoliehali na autoenkodéry, typ neurónovej siete bez dozoru, a mnohé stále platia. Niektorí ľudia túto techniku vylepšili pomocou GAN (generatívne kontradiktórne siete). Na hlboké falzifikáty sa tiež použili iné metódy strojového učenia, niekedy v kombinácii s metódami iného ako strojového učenia, s rôznymi výsledkami.

Autoencoders

Automatické kódovače pre hlboko falošné tváre v obrázkoch v podstate prebiehajú v dvoch krokoch. Prvým krokom je použitie neurónovej siete na extrakciu tváre zo zdrojového obrazu a jej zakódovanie do množiny funkcií a prípadne masky, zvyčajne pomocou niekoľkých 2D konvolučných vrstiev, niekoľkých hustých vrstiev a vrstvy softmax. Krokom dva je použitie inej neurónovej siete na dekódovanie prvkov, upscalovanie generovanej tváre, rotáciu a zväčšenie tváre podľa potreby a použitie zmenšenej tváre na iný obrázok.

Výcvik automatického kódovača na generovanie hlbokých tvárí vyžaduje veľa snímok zdrojových a cieľových tvárí z viacerých uhlov pohľadu a za rôznych svetelných podmienok. Bez GPU môže tréning trvať týždne. S grafickými procesormi to ide oveľa rýchlejšie.

GANy

Generatívne kontradiktórne siete môžu vylepšiť výsledky automatických kódovačov napríklad postavením dvoch neurónových sietí proti sebe. Generatívna sieť sa pokúša vytvoriť príklady, ktoré majú rovnakú štatistiku ako pôvodná, zatiaľ čo diskriminačná sieť sa snaží zistiť odchýlky od pôvodnej distribúcie údajov.

Výcvik GAN je časovo náročná iteračná technika, ktorá výrazne zvyšuje náklady vo výpočtovom čase v porovnaní s automatickými kódovačmi. V súčasnosti sú siete GAN vhodnejšie na generovanie realistických snímkových snímok imaginárnych ľudí (napr. StyleGAN) ako na vytváranie hlbokých videí. To by sa mohlo zmeniť, keď sa hardvér na hlboké učenie stane rýchlejším.

Ako odhaliť falzifikáty

Začiatkom roku 2020 konzorcium spoločností AWS, Facebook, Microsoft, Riadiaceho výboru pre partnerstvo pre AI pre integritu médií a akademikov vytvorilo výzvu Deepfake Detection Challenge (DFDC), ktorá prebiehala na Kaggle štyri mesiace.

Súčasťou súťaže boli dve dobre zdokumentované prototypové riešenia: úvod a štartovacia súprava. Víťazné riešenie od Selima Seferbekova má tiež celkom dobrý zápis.

Ak nemáte hlboké neurónové siete a spracovanie obrazu, vaše oči sa detailne rozšíria. Víťazné riešenie v podstate urobilo detekciu tváre po snímkach a extrahovalo indexové masky SSIM (Structural Similarity). Softvér extrahoval detekované tváre plus 30-percentnú maržu a na kódovanie (klasifikáciu) použil program EfficientNet B7 predpripravený na ImageNet. Riešením je teraz open source.

Je smutné, že aj víťazné riešenie dokázalo zachytiť iba asi dve tretiny hlbokých testov v testovacej databáze DFDC.

Aplikácie na vytváranie a detekciu hlbokých falošných údajov

Jednou z najlepších aplikácií na vytváranie hlbokých falošných videí s otvoreným zdrojovým kódom je v súčasnosti Faceswap, ktorá stavia na pôvodnom hlbokomorovom algoritme. Spisovateľovi časopisu Ars Technica Timovi Leeovi trvalo dva týždne pomocou nástroja Faceswap vytvorenie hlbokého falzifikátu, ktorý vymenil tvár poručíka Data (Brent Spiner) zStar Trek: Nová generácia do videa Marka Zuckerberga svedčiaceho pred Kongresom. Ako je typické pre hlboké falzifikáty, výsledok neprejde testom nosa pre nikoho s výraznou grafickou prepracovanosťou. Súčasný stav techniky falzifikátov teda stále nie je veľmi dobrý, až na zriedkavé výnimky, ktoré závisia viac od zručnosti „umelca“ ako od technológie.

To je trochu potešujúce, pretože ani víťazné riešenie detekcie DFDC nie je príliš dobré. Spoločnosť Microsoft medzitým oznámila, ale v čase tohto písania nevydala program Microsoft Video Authenticator. Spoločnosť Microsoft tvrdí, že program Video Authenticator dokáže analyzovať statické fotografie alebo videá a poskytnúť tak percentuálnu šancu alebo skóre spoľahlivosti, že s médiami bude umelo manipulované.

Video Authenticator bol testovaný proti množine údajov DFDC; Spoločnosť Microsoft zatiaľ nenahlásila, o koľko je lepšia ako víťazné riešenie spoločnosti Kaggle od spoločnosti Seferbekov. Pre sponzora súťaže AI by bolo typické stavať na víťazných riešeniach zo súťaže a zlepšovať ich.

Facebook tiež sľubuje detektor falošných látok, plánuje však ponechať zdrojový kód uzavretý. Jedným z problémov s detektormi hlbokých falošných zdrojov s otvoreným zdrojom, ako je Seferbekov’s, je to, že vývojári generácií hlbokých falošných správ môžu používať detektor ako diskriminátor v sieti GAN, aby zaručili, že falošný detektor prejde, čo nakoniec podnieti preteky v zbrojení AI medzi generátormi hlbokých falošných detektorov a hlbokými detektormi.

Po zvukovej stránke môžu programy Descript Overdub a Adobe demonštrované, ale zatiaľ nevydané VoCo, urobiť prevod textu na reč realistickým. Trénujete Overdub asi 10 minút, aby ste vytvorili syntetickú verziu svojho vlastného hlasu; Po zaškolení môžete svoje hlasové prejavy upravovať ako text.

Príbuznou technológiou je Google WaveNet. Hlasy syntetizované pomocou WaveNet sú realistickejšie ako štandardné hlasy prevodu textu na reč, aj keď podľa vlastných testov spoločnosti Google nie sú celkom na úrovni prirodzených hlasov. Už ste počuli hlasy WaveNet, ak ste nedávno použili hlasový výstup z Asistenta Google, Vyhľadávania Google alebo Prekladača Google.

Hlboké falzifikáty a nedovolená pornografia

Ako som už spomenul, pôvodný hlboký falzifikát vo videu vymenil tvár herečky za telo pornohviezdy. Reddit odvtedy zakázal sub-Reddit / r / deepfake, ktorý hostil tento server, a ďalšie pornografické hlboké falzifikáty, pretože väčšina obsahu bola pornografia bez konsenzu, ktorá je dnes v niektorých jurisdikciách nelegálna.

Ďalší subreddit pre ne-pornografické hlboké falzifikáty stále existujú na / r / SFWdeepfakes. Zatiaľ čo obyvatelia tohto sub-Redditu tvrdia, že robia dobrú prácu, budete musieť sami posúdiť, či má, povedzme, vidieť, že tvár Joeho Bidena, ktorá je zle predstieraná v tele Roda Serlinga, nejakú hodnotu - a či nejaké hlboké falzifikáty prechádzajú čuchová skúška dôveryhodnosti. Podľa môjho názoru sa niektorí blížia k tomu, že sa predávajú ako skutoční; väčšinu možno charitatívne označiť ako surovú.

Zákaz / r / deepfake samozrejme nevylučuje pornografiu bez konsenzu, ktorá môže mať viac motivácií, vrátane pornografie z pomsty, ktorá je v USA sama o sebe trestným činom. Medzi ďalšie weby, ktoré zakázali nedovolené hlboké falzifikáty, patria Gfycat, Twitter, Discord, Google a Pornhub a nakoniec (po dlhom pretiahnutí) Facebook a Instagram.

V Kalifornii majú jednotlivci, na ktorých sa zameriava sexuálne explicitný, falošný obsah vyrobený bez ich súhlasu, dôvod proti autorovi obsahu. Rovnako v Kalifornii je zakázaná distribúcia škodlivých hlbokých falošných zvukových alebo vizuálnych médií zameraných na kandidáta kandidujúceho do verejnej funkcie do 60 dní od jeho zvolenia. Čína požaduje, aby boli falzifikáty takto jasne označené.

Hlboké falše v politike

Mnoho ďalších jurisdikcií nedostatok zákony proti politickým podvodom. To môže byť znepokojujúce, najmä keď sa kvalitné falšovania politických činiteľov dostanú do širokej distribúcie. Bol by falzifikát Nancy Pelosi horší ako konvenčne spomalené video Pelosi zmanipulované tak, aby to vyznelo, akoby znevažovala svoje slová? Mohlo by to byť, ak sa vyrába dobre. Napríklad si pozrite toto video od CNN, ktoré sa zameriava na falzifikáty týkajúce sa prezidentskej kampane v roku 2020.

Deepfakes ako výhovorky

„Je to podvod“ je možnou výhovorkou aj pre politikov, ktorých skutočné a trápne videá unikli. To sa nedávno stalo (alebo sa údajne stalo) v Malajzii, keď minister hospodárstva vylúčil homosexuálnu pásku ako falzifikát, hoci druhý muž uvedený na páske prisahal, že je to skutočné.

Na druhej strane, distribúcia pravdepodobného amatérskeho falzifikátu chorého prezidenta Aliho Bonga z Gabonu bola faktorom prispievajúcim k následnému vojenskému puču proti Bongovi. Toto hlboko falošné video upozornilo armádu na to, že niečo nie je v poriadku, dokonca viac ako Bongova dlhšia neprítomnosť v médiách.

Podrobnejšie príklady

Nedávne hlboké falošné video z All StarKlasika Smash Mouth z roku 1999 je príkladom manipulácie s videom (v tomto prípade kombináciou populárnych filmov) s falošnou synchronizáciou pier. Tvorca, užívateľ YouTube, ontyj, poznamenáva, že „Nechal som sa uniesť testovaním wav2lip a teraz toto existuje ...“ Je to zábavné, aj keď nie presvedčivé. Napriek tomu ukazuje, o koľko lepšie sa predstieranie pohybu pier dostalo. Pred niekoľkými rokmi bol neprirodzený pohyb pier zvyčajne smrteľným darom fingovaného videa.

Môže to byť horšie. Zoznámte sa s týmto hlbokým videom, na ktorom je prezident Obama ako cieľ a Jordan Peele ako vodič. Teraz si predstavte, že nezahŕňal žiadny kontext, ktorý by ho odhaľoval ako falošný, a zahŕňal aj zápalnú výzvu na akciu.

Už si vydesený?