Биометрия
Дипфейк: как распознать подделку и почему это головная боль для биометрии

Весной 2025-го в Гонконге финансист одной международной компании перевёл мошенникам около 25 миллионов долларов. Его не взломали. Ему позвонили по видеосвязи — на экране сидел финансовый директор, рядом ещё несколько коллег, все знакомые лица, знакомые голоса. Совещание как совещание. Только живым на том звонке был один человек — сам жертва. Все остальные были дипфейками, собранными из публичных видео и фото с корпоративного сайта.
Вот в чём фокус. Раньше, чтобы выдать себя за директора, мошеннику нужен был актёр, грим и наглость. Сейчас нужна видеокарта и десяток фотографий из открытых источников. И это меняет всё — особенно для тех, кто строит безопасность на распознавании лиц.
Давайте разберёмся, что такое дипфейк на самом деле, как его делают, почему советы из интернета «смотрите, как человек моргает» уже почти бесполезны — и что вообще остаётся, когда глаз перестаёт быть детектором.
Что такое дипфейк простыми словами
Дипфейк — это синтетическое медиа. Видео, фото или аудио, где лицо, голос или мимика человека сгенерированы или подменены нейросетью так, что отличить от настоящего трудно. Само слово — гибрид deep learning (глубокое обучение) и fake (подделка). Появилось оно ещё в 2017-м, когда на Reddit некий пользователь под ником deepfakes начал клеить лица знаменитостей в чужие ролики.
С тех пор технология прошла путь от грубой кустарщины до инструмента, которым пользуются и в Голливуде, и в колл-центрах мошенников.
Принципиально есть три вещи, которые умеет современная подделка:
- Face swap — замена лица одного человека на лицо другого в готовом видео. Классический «дипфейк» в бытовом понимании.
- Face reenactment (управление мимикой) — берётся реальное фото жертвы, и нейросеть заставляет его говорить и двигаться по образцу актёра-«кукловода». Это то, что страшнее всего для видеозвонков: достаточно одной фотографии.
- Полная генерация лица — человека вообще не существует. Зайдите на сайты вроде thispersondoesnotexist — каждое обновление страницы рисует нового несуществующего гражданина. Идеально для фейковых паспортов и аккаунтов.
Голос — отдельная история. Клонировать речь сегодня можно с 10–30 секунд записи. А запись эту мошенник возьмёт из любого вашего голосового сообщения, сторис или интервью.
Как это вообще делают: GAN и диффузия
Не пугайтесь, без формул. Но понять механику полезно — она объясняет, почему искать артефакты «руками» становится всё бесполезнее.
GAN — две нейросети дерутся между собой
GAN (Generative Adversarial Network, генеративно-состязательная сеть) — это связка из двух моделей. Первая, генератор, рисует фейковые лица. Вторая, дискриминатор, пытается отличить фейк от настоящего фото. Их сталкивают лбами: генератор учится обманывать дискриминатора, дискриминатор учится его ловить. Раунд за раундом, миллионы итераций.
Что происходит в итоге? Генератор становится настолько хорош, что обманывает собственного «прокурора». А раз он научился обманывать машинного детектора — человеческий глаз для него вообще не проблема. Вся архитектура GAN буквально заточена под то, чтобы побеждать детекторы подделок. Прочувствуйте иронию: технология с рождения тренируется обходить именно то, чем мы пытаемся её ловить.
Диффузия — из шума в картинку
Диффузионные модели (на них работают Midjourney, Stable Diffusion и компания) идут другим путём. Берётся изображение, его пошагово «зашумляют» до состояния телевизионной ряби, а потом учат сеть разворачивать процесс назад — из шума восстанавливать осмысленную картинку. Натренированная модель умеет из случайного шума «проявить» любое лицо по описанию.
Диффузия в 2024–2025 годах подвинула GAN по качеству статичных изображений и всё активнее лезет в видео. Картинки получаются чище, без характерных GAN-артефактов вроде асимметричных серёжек и кривых зубов. Хорошая новость одна: видео в реальном времени (а именно оно нужно для атаки на видеозвонок или на биометрию банка) — всё ещё вычислительно тяжёлая задача. Здесь у защиты остаётся окно. Пока остаётся.
Где это реально угроза, а не страшилка
Дипфейк-«приколы» с лицом политика в смешном ролике — это шум. Настоящие деньги и настоящий ущерб лежат в трёх местах.
Видеозвонки и социальная инженерия
История из Гонконга — не единичная. Схема «фейковый руководитель просит срочно перевести деньги» (так называемый CEO fraud) получила в дипфейках второе дыхание. Звонок от «директора» теперь не голосом по телефону, а лицом по видео. Сотрудник видит начальника, слышит его интонации — психологически сопротивляться почти невозможно.
В корпоративной среде добавилась ещё и атака на найм: на собеседование по видео приходит один человек, а работать выходит другой. Или вообще никто — фейковый кандидат проходит интервью, получает доступы и исчезает.
Обход распознавания лиц
А вот это уже наша территория. Системы доступа по лицу, разблокировка, проходные — всё это можно попытаться обмануть. Самый примитивный способ известен годами: поднести к камере фотографию или видео с телефона. Это называется presentation attack — атака предъявлением.
Дипфейк выводит её на новый уровень. Вместо статичного фото — живое, моргающее, поворачивающееся «лицо» на экране. Мы подробно разбирали эту механику в материале про то, как обмануть распознавание лиц — спойлер: наивная система, которая просто сравнивает геометрию лица с эталоном, ложится на раз. Если вам интересно пощупать тему обхода нейросетей руками, у нас есть отдельная демонстрация — обмани нейросеть, где видно, на чём именно спотыкаются модели.
Мошенничество с банковской биометрией
В России работает Единая биометрическая система (ЕБС). Через неё можно открыть счёт, получить кредит, подтвердить операцию — удалённо, по лицу и голосу. Удобно? Безумно. Лакомо для мошенников? Не то слово.
Сценарий простой: злоумышленник добывает фото и образец голоса жертвы (соцсети, утечки, та самая сторис), генерирует дипфейк и пытается пройти удалённую идентификацию. Поэтому регулятор и не разрешает банкам пускать клиента в ЕБС по «голому» селфи. Требуется проверка живости — к ней мы сейчас и придём.
Признаки дипфейка на глаз: что искать (пока работает)
Договоримся честно сразу: всё, что ниже — это уходящая натура. На дешёвых и наспех сделанных подделках признаки ещё ловятся. На качественных — уже нет. Но знать их стоит, хотя бы чтобы отсеять явный треш.
Лицо и мимика
- Моргание. Классический ранний признак: фейковые лица моргали слишком редко или неестественно — в обучающих данных мало фото с закрытыми глазами. Сейчас это в основном вылечено, так что не полагайтесь только на него.
- Границы лица. Самое уязвимое место face swap — кромка. Присмотритесь к линии волос, к подбородку, к ушам: мерцание, размытие, лёгкое «плавание» текстуры на стыке вставленного лица и настоящей головы.
- Зубы, глаза, уши. Сетки часто халтурят на мелких деталях. Зубы как сплошная белая полоса без зазоров, разные по форме зрачки, серьга только в одном ухе, асимметричные блики в глазах.
- Кожа. Либо неестественно гладкая, восковая, либо, наоборот, шум не совпадает с остальным кадром.
Свет, тени, физика
- Освещение. Тени на лице не соответствуют источнику света в комнате. Блик в глазах есть, а окна, которое его даёт, в кадре нет.
- Рассинхрон губ и звука. На face reenactment и при наложении чужого голоса артикуляция часто не попадает в звук. Особенно на взрывных согласных — «п», «б», «м»: губы смыкаются не там.
- Шея и уши. Голова повёрнута, а тень от уха ведёт себя странно. Кадык не двигается при глотании.
Простой стресс-тест для видеозвонка
Если есть подозрение прямо в моменте разговора — попросите собеседника сделать что-то, чего модель в реальном времени не вытянет:
- Медленно провести ладонью перед лицом. На стыке руки и лица фейк часто «рвётся».
- Повернуться в профиль и подержать. Многие модели обучены в основном на фронтальных ракурсах и в профиль разваливаются.
- Резко наклониться к камере или отъехать.
Сработает? Иногда. Уверенно? Нет. И вот почему.
Почему «на глаз» — это уже плохая идея
Скажу прямо, без обтекаемости: визуальная проверка дипфейков на 2026 год — занятие почти безнадёжное, если речь о качественной подделке.
Тому есть несколько причин.
Первая — про неё уже сказано. GAN по своей сути тренируется обманывать детектор. Любой найденный исследователями артефакт — это просто данные для следующей итерации обучения. Нашли проблему с морганием? Через полгода её нет. Это гонка, в которой защита по определению на шаг позади.
Вторая — сжатие. Видеозвонок идёт через мессенджер с агрессивной компрессией. Артефакты дипфейка и артефакты кодека H.264/H.265 на низком битрейте выглядят одинаково — мыло, блочность, мерцание границ. Поди разбери, где подделка, а где просто плохой интернет.
Третья — человек устаёт и доверяет. Когда «начальник» давит срочностью, сотрудник не разглядывает кромку волос. Он выполняет распоряжение. Социальная инженерия бьёт по эмоциям, а не по зрению.
И вот ключевой вывод, который мы выносим из собственной практики: бороться с генерацией пикселей на уровне пикселей — проигрышная стратегия. Надо менять плоскость защиты. Не «настоящая ли это картинка», а «настоящий ли перед нами живой человек прямо сейчас». Это и есть liveness.
Liveness — проверка живости, и почему это главная защита
Liveness detection (проверка живости, или PAD — Presentation Attack Detection) отвечает не на вопрос «кто это», а на вопрос «это живой человек или его изображение / маска / экран / дипфейк?». Распознавание лица — отдельно. Liveness — отдельно. И второе сегодня важнее.
Есть международный стандарт, который это всё формализует — ISO/IEC 30107. Он описывает методику и уровни защиты от атак предъявлением. Когда вендор биометрии говорит, что прошёл сертификацию по 30107-3, это не маркетинг, а конкретная проверка на конкретных типах атак (фото, видео, маски).
Технически liveness делится на два больших класса.
Активная проверка живости
Система просит пользователя что-то сделать: повернуть голову, моргнуть, проследить взглядом за точкой, произнести случайные цифры на экране. Логика в том, что заранее заготовленный дипфейк не знает, какое именно действие потребуют, и не успевает отреагировать корректно в реальном времени.
- Плюс: надёжно против простых атак (фото, заготовленное видео).
- Минус: бесит пользователей и не всесилен против продвинутых систем, генерирующих видео налету.
Пассивная проверка живости
Здесь от человека ничего не требуют — он просто смотрит в камеру. Система анализирует то, что трудно подделать:
- Микродвижения и микротекстуру кожи — поры, блеск, едва заметную мимику, которой нет у экрана или маски.
- Отражения и блики — как свет отражается от настоящей трёхмерной кожи против плоского дисплея.
- Глубину сцены — настоящее лицо объёмное, фото и экран плоские. Часть систем подсвечивает лицо вспышкой разных цветов (challenge-response через свет) и смотрит, как поверхность реагирует.
- Муар и артефакты экрана — характерную сетку, которая появляется, когда снимают другой экран.
Пассивный liveness удобнее для человека и его всё чаще ставят первой линией, а активный подключают при подозрении. Подробнее про устройство и виды проверки живости мы написали в отдельном разборе — что такое liveness, там и про challenge-response, и про то, чем 3D-камеры и инфракрасный канал бьют дипфейк.
Чем «бьют» именно дипфейк
Против синтетического видео, подставленного прямо в видеопоток (атака не на камеру, а в обход неё — virtual camera injection), пассивный анализ кадра уже слабоват. Здесь спасает связка:
- Аппаратная привязка — доверять только изображению с реальной камеры устройства, а не с виртуального драйвера, через который льют дипфейк.
- Инфракрасный и 3D-каналы — дипфейк рисует видимый спектр, а тепловую карту лица и карту глубины подделать на лету несопоставимо сложнее.
- Анализ артефактов генерации — отдельные модели-детекторы, обученные ловить статистические следы GAN и диффузии. Да, это снова гонка, но в связке с liveness она уже осмысленна.
Что со всем этим делать на практике
Соберём по полкам, без воды.
Для людей и сотрудников:
- Перестаньте считать видео доказательством личности. Видео больше не пруф. Точка.
- Любая срочная финансовая просьба «от руководителя» по видео или голосу — повод перезвонить на известный вам номер по другому каналу. Завели в компании кодовое слово для подтверждения переводов — уже половина защиты.
- Меньше публичного видео и голоса в открытом доступе — меньше материала для клонирования вашего лица.
Для бизнеса и систем доступа:
- Если у вас распознавание лиц без проверки живости — считайте, что защиты от дипфейка нет вообще. Это база, без которой остальное бессмысленно.
- Liveness ставьте по стандарту ISO/IEC 30107, спрашивайте у вендора уровень сертификации и против каких типов атак тестировали. «У нас есть антиспуфинг» без деталей — пустые слова.
- Камеры на проходных и в точках идентификации лучше брать с поддержкой нескольких каналов (видимый + ИК), это резко поднимает планку для атакующего.
Если коротко подытожить весь этот текст одной мыслью — она такая. Эпоха, когда «увидел своими глазами» означало «правда», закончилась тихо и без объявления. Картинку теперь генерируют дешевле, чем проверяют. И единственный честный ответ на дипфейк — не вглядываться в пиксели до рези в глазах, а спрашивать систему другое: перед нами живой человек или его цифровая тень? На этот вопрос подделке ответить пока куда труднее.
Мы в UMSecurity такое и внедряем — liveness и антиспуфинг поверх обычных IP-камер, без замены парка железа, on-premise, с пилотом от двух недель. Если у вас стоит распознавание лиц, а живость никто не проверяет — это ровно та дыра, через которую заходят. Закрывается она быстрее, чем кажется.
// связанные услуги
Хотите так же на вашем объекте?
Покажем видеоаналитику на ваших камерах и рассчитаем окупаемость. Бесплатно.