Исследователи продемонстрировали уязвимость лучших детекторов дипфейков

10.02.2021 390 0.0 0

Широкое распространение в соцсетях дипфейков — видео, в которых реальные кадры видоизменены с помощью искусственного интеллекта — вызывает тревогу во всем мире, подрывая доверие к цифровым медиа.

Теперь, на проходившей в январе онлайн-конференции WACV 2021, компьютерные ученые из Калифорнийского университета в Сан-Диего (UC San Diego) впервые показали, что лучшие ИИ-системы, предназначенные для обнаружения дипфейков, можно обмануть, вставляя в каждый видеокадр так называемые состязательные примеры. Эти слегка изменённые входные данные, заставляют системы ИИ допускать ошибки.

В дополнение к этому было показано, что надежные состязательные дипфейки можно создавать, даже не располагая сведениями о том, как функционирует модель машинного обучения, используемая детектором.

Исследователи создали состязательные примеры для каждого лица в каждом кадре видео и даже сделали их устойчивыми к сжатию и изменение размера видео. Атаки тестировались для двух сценариев: в одном случае злоумышленники имеют полный доступ к детектору, включая архитектуру и параметры модели классификации; в другом они могут только запрашивать модель машинного обучения для определения вероятности того, что кадр будет признан настоящим или поддельным.

В первом сценарии вероятность успеха атаки для несжатых видео превысила 99%, а для сжатых — достигала 84,96%. Во втором сценарии обмануть детектор удавалось в 86,43% случаев для несжатого видео и в 78,33% — для сжатого.

Команда UC San Diego отказалась опубликовать свой код, чтобы исключить его злонамеренное использование.

Для улучшения детекторов исследователи рекомендуют так называемое состязательное обучение: когда «вражеская» нейросеть старается обмануть детектор, генерируя всё более искусные дипфейки, а детектор на этих примерах совершенствует своё умение выявлять подделки.

Наталия Ришко
Журналист/Mixinform

Комментарии (0)