Исследователи продемонстрировали уязвимость лучших детекторов дипфейков
10.02.2021 364 0
Широкое распространение в соцсетях дипфейков — видео, в которых реальные кадры видоизменены с помощью искусственного интеллекта — вызывает тревогу во всем мире, подрывая доверие к цифровым медиа.
Теперь, на проходившей в январе онлайн-конференции WACV 2021, компьютерные ученые из Калифорнийского университета в Сан-Диего (UC San Diego) впервые показали, что лучшие ИИ-системы, предназначенные для обнаружения дипфейков, можно обмануть, вставляя в каждый видеокадр так называемые состязательные примеры. Эти слегка изменённые входные данные, заставляют системы ИИ допускать ошибки.
В дополнение к этому было показано, что надежные состязательные дипфейки можно создавать, даже не располагая сведениями о том, как функционирует модель машинного обучения, используемая детектором.
Исследователи создали состязательные примеры для каждого лица в каждом кадре видео и даже сделали их устойчивыми к сжатию и изменение размера видео. Атаки тестировались для двух сценариев: в одном случае злоумышленники имеют полный доступ к детектору, включая архитектуру и параметры модели классификации; в другом они могут только запрашивать модель машинного обучения для определения вероятности того, что кадр будет признан настоящим или поддельным.
В первом сценарии вероятность успеха атаки для несжатых видео превысила 99%, а для сжатых — достигала 84,96%. Во втором сценарии обмануть детектор удавалось в 86,43% случаев для несжатого видео и в 78,33% — для сжатого.
Команда UC San Diego отказалась опубликовать свой код, чтобы исключить его злонамеренное использование.
Для улучшения детекторов исследователи рекомендуют так называемое состязательное обучение: когда «вражеская» нейросеть старается обмануть детектор, генерируя всё более искусные дипфейки, а детектор на этих примерах совершенствует своё умение выявлять подделки.
Теперь, на проходившей в январе онлайн-конференции WACV 2021, компьютерные ученые из Калифорнийского университета в Сан-Диего (UC San Diego) впервые показали, что лучшие ИИ-системы, предназначенные для обнаружения дипфейков, можно обмануть, вставляя в каждый видеокадр так называемые состязательные примеры. Эти слегка изменённые входные данные, заставляют системы ИИ допускать ошибки.
В дополнение к этому было показано, что надежные состязательные дипфейки можно создавать, даже не располагая сведениями о том, как функционирует модель машинного обучения, используемая детектором.
Исследователи создали состязательные примеры для каждого лица в каждом кадре видео и даже сделали их устойчивыми к сжатию и изменение размера видео. Атаки тестировались для двух сценариев: в одном случае злоумышленники имеют полный доступ к детектору, включая архитектуру и параметры модели классификации; в другом они могут только запрашивать модель машинного обучения для определения вероятности того, что кадр будет признан настоящим или поддельным.
В первом сценарии вероятность успеха атаки для несжатых видео превысила 99%, а для сжатых — достигала 84,96%. Во втором сценарии обмануть детектор удавалось в 86,43% случаев для несжатого видео и в 78,33% — для сжатого.
Команда UC San Diego отказалась опубликовать свой код, чтобы исключить его злонамеренное использование.
Для улучшения детекторов исследователи рекомендуют так называемое состязательное обучение: когда «вражеская» нейросеть старается обмануть детектор, генерируя всё более искусные дипфейки, а детектор на этих примерах совершенствует своё умение выявлять подделки.
Комментарии (0) |