Що таке глибокі відеоролики та їх виявлення блимає оком

По мірі нагрівання проміжних виборчих кампаній 2018 року нова форма дезінформації пошириться через інтернет-спільноти. Називається “deepfakes” після псевдонім онлайн-акаунт, який популяризував техніку - який, можливо, вибрав свою назву, оскільки в процесі використовується технічний метод, який називається «глибоке навчання» - ці фальшиві відео виглядають дуже реалістично.

До цього часу люди використовували глибоко фальшиві відео порнографія та сатира щоб здавалося, що відомі люди роблять те, що зазвичай не роблять.

Але це майже напевно під час передвиборчої кампанії з'являться глибокі підробки, нібито зображуючи кандидатів говорити речі або переїзд місця справжній кандидат не хотів би.

Це Барак Обама - чи правда?

{youtube}cQ54GDm1eL0{/youtube}

Оскільки ці методи настільки нові, у людей виникають проблеми з розрізненням між реальними відеороликами та глибокими відео. Моя робота, з моїм колегою Мін-Чін Чанг та нашим доктором наук студент Юезун Лі, знайшов спосіб надійно розпізнавати реальні відеоролики з відеороликів. Це не постійне рішення, оскільки технології будуть вдосконалюватися. Але це початок і дає надію, що комп’ютери зможуть допомогти людям відрізнити правду від художньої літератури.


Innersele підписатися графіка


Що взагалі таке "deepfake"?

Створення глибокого відео дуже нагадує переклад між мовами. Послуги на зразок Google Translate використовувати машинне навчання - комп’ютерний аналіз десятків тисяч текстів кількома мовами - до виявляти закономірності вживання слів що вони використовують для створення перекладу.

Алгоритми Deepfake працюють однаково: вони використовують тип системи машинного навчання під назвою a глибока нервова мережа дослідити рухи обличчя однієї людини. Потім вони синтезують образи обличчя іншої людини, роблячи аналогічні рухи. Таким чином ефективно створюється відеозапис того, як цільова особа з’являється, щоб зробити чи сказати те, що зробила особа -джерело.

Як створюються глибоко підроблені відео.

{youtube}8LhI-e2B8Lg{/youtube}

Перш ніж вони зможуть працювати належним чином, глибоким нейронним мережам потрібна велика кількість вихідної інформації, наприклад фотографії осіб, які є джерелом або метою міграції. Чим більше зображень буде використано для підготовки алгоритму deepfake, тим реалістичнішим буде цифрове втілення.

Виявлення моргання

У цьому новому типі алгоритму все ще є вади. Один із них пов’язаний з тим, як імітовані обличчя моргають - чи ні. Здорові дорослі люди моргають десь кожні 2-10 секунд, і триває одне блимання між однією десятою та чотирма десятими секунд. Це те, що було б нормально бачити на відео, як людина говорить. Але це не те, що трапляється у багатьох відеороликах із глибокою підробкою.

Справжня людина моргає під час розмови.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Імітоване обличчя не моргає так, як це робить справжня людина.

{youtube}EttSA9-YIuI{/youtube}

Коли алгоритм deepfake тренується на зображеннях обличчя людини, це залежить від доступних в Інтернеті фотографій, які можна використовувати як навчальні дані. Навіть для людей, які часто фотографуються, в Інтернеті доступно мало зображень із закритими очима. Мало того, що такі фотографії рідкісні - оскільки очі у більшості випадків відкриті - але фотографи зазвичай не публікують зображення, де очі основних суб’єктів закриті.

Без тренувальних зображень людей, що блимають, алгоритми deepfake рідше створюють обличчя, які нормально блимають. Коли ми розраховуємо загальну швидкість блимання та порівнюємо її з природним діапазоном, ми виявили, що персонажі у відео з глибоким фейком блимають набагато рідше, ніж у реальних людей. Наше дослідження використовує машинне навчання вивчити відкриття та закриття очей у відео.

Це дає нам натхнення виявляти глибокі відео. Згодом ми розробляємо метод виявлення, коли особа на відео блимає. Якщо бути більш точним, він сканує кожен кадр відповідного відео, виявляє в ньому обличчя, а потім автоматично визначає очі. Потім він використовує іншу глибоку нейронну мережу, щоб визначити, відкрите чи закрите око, використовуючи зовнішній вигляд ока, геометричні особливості та рух.

Ми знаємо, що наша робота використовує недолік у вигляді даних, доступних для підготовки алгоритмів deepfake. Щоб уникнути подібного недоліку, ми навчили нашу систему на великій бібліотеці зображень як відкритих, так і закритих очей. Здається, цей метод працює добре, і в результаті ми досягли понад 95 відсотків рівня виявлення.

Звичайно, це не останнє слово щодо виявлення фальшивих підробок. Технологія є швидко покращується, а змагання між створенням та виявленням фальшивих відео є аналогічним шаховій грі. Зокрема, блимання можна додати до відео з глибоким фейком, включивши зображення обличчя із закритими очима або використовуючи відеопослідовності для навчання. Люди, які хочуть ввести в оману громадськість, будуть краще створювати неправдиві відео - і нам та іншим у технологічному співтоваристві доведеться продовжувати шукати способи їх виявлення.Бесіда

про автора

Сівей Лю, доцент кафедри комп’ютерних наук; Директор, лабораторія комп'ютерного зору та машинного навчання, Університет Олбані, Державний університет Нью-Йорка

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.

Суміжні книги

at InnerSelf Market і Amazon