Nos tubos: tubos de PVC comuns podem hackear sistemas de identificação de voz

Shimaa Ahmed, um estudante de doutorado que trabalha no laboratório do professor Kassem Fawaz, determinou um método para derrotar os sistemas automáticos de identificação de alto-falantes usando o tipo de tubo de PVC encontrado em qualquer loja de ferragens. Todd Brown

Os pesquisadores estão em uma corrida armamentista com os hackers para evitar o roubo de dados. Suas ferramentas padrão incluem estratégias como sistemas de autenticação multifatorial, tecnologia de impressões digitais e varreduras de retina. Um tipo de sistema de segurança que está ganhando popularidade é a identificação automática do alto-falante, que usa a voz de uma pessoa como senha.

Esses sistemas, já em uso para serviços bancários por telefone e outras aplicações, são bons para eliminar ataques que tentam falsificar a voz de um usuário por meio de manipulação digital. Mas os engenheiros de segurança digital da Universidade de Wisconsin-Madison descobriram que esses sistemas não são tão infalíveis quando se trata de um novo ataque analógico. Eles descobriram que falar através de tubos de PVC personalizados – do tipo encontrado na maioria das lojas de ferragens – pode enganar algoritmos de aprendizado de máquina que suportam sistemas automáticos de identificação de alto-falantes.

Kassam Fawaz é professor assistente no Departamento de Engenharia Elétrica e de Computação. Foto de : Althea Dotzour

A equipe, liderada pelo estudante de doutorado Shimaa Ahmed e Kassem Fawaz, professor de engenharia elétrica e de computação, apresentou suas descobertas em 9 de agosto no Simpósio de Segurança Usenix em Anaheim, Califórnia.

Os riscos representados pelas falhas de segurança analógicas podem ser de grande alcance. Ahmed destaca que muitas empresas comerciais já vendem a tecnologia, sendo as instituições financeiras entre os seus primeiros clientes. A tecnologia também é usada para assistentes pessoais com suporte de IA, como o Siri da Apple.

“Os sistemas são hoje anunciados como tão seguros quanto uma impressão digital, mas isso não é muito preciso”, diz Ahmed. “Todos esses são suscetíveis a ataques à identificação do locutor. O ataque que desenvolvemos é muito barato; basta pegar um tubo na loja de ferragens e mudar sua voz.”

O projeto começou quando a equipe começou a investigar os pontos fracos dos sistemas automáticos de identificação de alto-falantes. Quando falavam com clareza, as modelos se comportavam conforme anunciado. Mas quando falavam pelas mãos ou em uma caixa, em vez de falar claramente, os modelos não se comportavam conforme o esperado.

Ahmed investigou se era possível alterar a ressonância, ou vibrações de frequência específica, de uma voz para derrotar o sistema de segurança. Como seu trabalho começou enquanto ela estava presa em casa devido à COVID-19, Ahmed começou falando através de tubos de papel toalha para testar a ideia. Mais tarde, após retornar ao laboratório, o grupo contratou Yash Wani, então estudante de graduação e agora estudante de doutorado, para ajudar a modificar tubos de PVC no UW Makerspace. Usando tubos de vários diâmetros comprados em uma loja de ferragens local, Ahmed, Yani e sua equipe alteraram o comprimento e o diâmetro dos tubos até que pudessem produzir a mesma ressonância que a voz que tentavam imitar.

Eventualmente, a equipe desenvolveu um algoritmo que pode calcular as dimensões do tubo de PVC necessárias para transformar a ressonância de quase qualquer voz para imitar outra. Na verdade, os pesquisadores enganaram com sucesso os sistemas de segurança com o ataque do tubo de PVC 60% das vezes em um conjunto de testes de 91 vozes, enquanto imitadores humanos inalterados conseguiram enganar os sistemas apenas 6% das vezes.

O ataque de falsificação funciona por alguns motivos. Primeiro, como o som é analógico, ele contorna os filtros de ataque digital do sistema de autenticação de voz. Em segundo lugar, o tubo não transforma uma voz numa cópia exata de outra, mas sim falsifica a ressonância da voz alvo, o que é suficiente para fazer com que o algoritmo de aprendizagem automática classifique incorretamente a voz atacante.

Fawaz diz que parte da motivação por trás do projeto é simplesmente alertar a comunidade de segurança de que a identificação por voz não é tão segura quanto muitas pessoas pensam, embora ele diga que muitos pesquisadores já estão cientes das falhas da tecnologia.

O projeto também tem um objetivo maior.