AI 목소리는 딥페이크일지도 모른다는 걸 알면서도 알아차리기 어렵다

2019년에는 영국 회사의 이사가 사기에 빠졌습니다. 그는 관리자로부터 공급업체에 €220,000($240,000)를 송금해 달라는 가짜 음성 메일을 받았습니다. 1년 후, 홍콩의 한 은행 지점장은 낯익은 사람으로부터 전화를 받았습니다. 기존 비즈니스 관계가 있었기 때문에 은행가는 뭔가 잘못되었다는 사실을 깨닫기도 전에 $400,000를 이체했습니다. 인공지능(AI) 음성 복제 기술을 사용하는 이와 같은 사기가 점점 더 빈번해지고 있으며, AI가 빠르게 향상됨에 따라 훈련받은 사람이 특별한 도구를 사용하더라도 딥페이크 음성을 탐지하는 것은 더욱 어려워질 것입니다.

529명의 참가자를 대상으로 Plos One에 발표된 최근 연구에 따르면 인간은 실제 음성 메시지와 가짜 음성 메시지를 정확하게 구별하는 데 어려움을 겪고 있는 것으로 나타났습니다. 연구에 따르면 참가자들은 음성 딥페이크를 탐지하려고 시도할 때 25%의 시간 동안 실패했으며 훈련조차도 최소한의 영향을 미쳤습니다. 참가자 중 절반은 합성된 음성 예제 5개를 듣고 사전 훈련을 받았지만, 훈련을 받지 않은 그룹보다 성능이 3% 더 나았습니다.

University College London(영국) 연구진의 연구에서도 다양한 언어의 특성에 따라 문제가 더 쉽거나 어려운지 이해하는 것을 목표로 영어와 중국어로 테스트를 실시했습니다. 조사 결과에 따르면 두 그룹 모두 메시지의 진정성을 동일하게 평가했습니다. 그들은 자연스러움과 로봇처럼 들리는 목소리의 부족과 같은 특성을 중요한 요소로 간주했습니다. 연구의 수석 저자인 Kimberly Mai는 "영어를 사용하는 참가자와 중국어를 사용하는 참가자 모두 의사 결정 과정에 영향을 미치는 요인으로 사운드 클립의 잘못된 발음과 비정형적인 억양을 자주 언급했습니다."라고 말했습니다.

참가자들은 응답의 정확성에 관계없이 동일한 특성을 언급했습니다. 오디오는 주관적이기 때문입니다. 물체와 배경을 관찰하여 진위 여부를 판단할 수 있는 시각적 딥페이크를 탐지하는 것과는 달리, 음성의 주관적인 특성으로 인해 인식이 더욱 다양해집니다. “가짜일 가능성이 있는 사람의 이미지를 보면 손가락 수를 세거나 옷과 액세서리가 일치하는지 확인할 수 있습니다.”라고 Mai는 말했습니다.

인간과 기술적 능력을 비교하기 위해 연구원들은 두 가지 자동 탐지 시스템도 테스트했습니다. 관련 없는 데이터베이스에서 훈련된 최초의 사용된 소프트웨어는 인간의 반응과 유사한 75%의 정확도를 달성했습니다. 원본 음성 버전과 합성 음성 버전 모두에 대해 훈련된 두 번째 탐지기는 가짜 오디오와 실제 오디오를 식별하는 데 100% 정확도를 달성했습니다. Mai는 인간이 할 수 없는 미묘한 음향적 뉘앙스를 인식하는 능력으로 인해 고급 프로그램이 인간보다 성능이 뛰어나다고 말합니다.

인간의 말처럼 복잡한 소리는 다양한 주파수로 구성됩니다. 주파수란 음파가 1초 동안 반복되는 횟수를 말합니다. “훈련 단계에서 자동화된 탐지기는 수천 개의 음성 샘플을 분석하고 인간이 식별할 수 없는 특정 주파수 수준과 리듬 불규칙성의 특징을 학습합니다.”라고 Mai는 말했습니다.

자동화된 탐지기는 이 작업에서 인간보다 더 효과적인 것으로 나타났지만 한계도 있습니다. 첫째, 일상적인 사용에는 사용할 수 없습니다. 또한 오디오 레벨이 변동하거나 시끄러운 환경에서는 성능이 저하됩니다. 그러나 가장 큰 과제는 훨씬 더 빠르게 합성되고 점점 더 사실적인 콘텐츠를 생성하는 생성 인공 지능의 발전을 따라잡는 것입니다. 과거에는 딥페이크를 만들기 위한 프로그램을 훈련하는 데 몇 시간씩 녹음이 필요했지만 이제는 몇 초 만에 완료할 수 있습니다.

해당 분야 전문가인 페르난도 쿠치에티(Fernando Cucchietti)에 따르면 이번 연구 결과에는 몇 가지 한계가 있다고 한다. 실험 조건은 엄격하게 제어되었으며 이 기술로 인해 발생하는 실제 문제를 대표하지 않습니다. 바르셀로나 슈퍼컴퓨팅 센터와 스페인 사이언스 미디어 센터의 데이터 분석 및 시각화 책임자인 Cuchietti는 "모방당하는 사람을 개인적으로 아는 경우와 같이 딥페이크가 문제를 일으킬 수 있는 상황에서는 실제로 실용적이지 않습니다."라고 말했습니다. 그러나 Cucchietti는 이러한 결과가 통제된 환경에서의 다른 연구와 일치하며 "... 잘못된 정보에 대한 연구에서 볼 수 있듯이 결과는 편견이나 선입견과 같은 요인의 영향을 덜 받습니다"라고 지적합니다.