
Um estudo da Queen Mary University of London, publicado na revista científica PLOS One, mostrou que vozes geradas por inteligência artificial já atingiram um nível de realismo em que se tornaram praticamente indistinguíveis de vozes humanas. A pesquisa reuniu participantes para avaliar quais gravações soavam mais naturais e confiáveis, e concluiu que os clones de voz feitos por IA já conseguem enganar facilmente o ouvinte médio.
De acordo com os pesquisadores, os testes compararam vozes humanas reais com vozes sintéticas criadas por softwares de última geração, incluindo clones de pessoas conhecidas e modelos de voz sem correspondência humana.
Em muitos casos, os voluntários não conseguiram diferenciar uma gravação autêntica de uma feita por IA. Além disso, algumas vozes artificiais chegaram a ser percebidas como mais dominantes e confiáveis que as humanas.
A coautora do estudo, Nadine Lavan, professora sênior de psicologia, destacou que a criação dessas vozes pode ser feita de forma rápida e com pouco investimento. Segundo ela, bastam alguns minutos de gravação de uma voz real para que softwares comerciais consigam produzir cópias hiper-realistas.
Para a pesquisadora, esse avanço traz tanto oportunidades quanto riscos. Entre as preocupações levantadas estão as implicações éticas e de segurança. A facilidade de criar deepfakes de voz pode alimentar golpes, fraudes e campanhas de desinformação.

O alerta é de que a sociedade precisa compreender rapidamente como o público percebe e reage a esse tipo de tecnologia para mitigar possíveis danos. Por outro lado, Lavan ressalta que o avanço não deve ser visto apenas de forma negativa.
Vozerios artificiais de alta qualidade podem ser aplicados em áreas como acessibilidade, educação e comunicação, personalizando experiências e ampliando a inclusão digital. “Era apenas uma questão de tempo até que a IA produzisse fala naturalista. Esse momento chegou”, disse.
Os participantes do estudo também foram questionados sobre a sensação de “hiper-realismo”, conceito usado para imagens digitais que se tornam mais convincentes do que fotos reais. Embora esse efeito não tenha sido detectado de forma clara, os especialistas afirmam que a evolução da síntese de voz segue o mesmo caminho que já foi visto no campo das imagens geradas por IA.
Atualmente, já é possível criar clones de voz com ferramentas acessíveis ao público geral. O resultado é que ambientes digitais se tornaram mais confusos: muitas vezes não é mais possível saber se uma voz pertence a uma pessoa real ou se foi criada por uma máquina. Essa incerteza coloca pressão sobre governos, empresas de tecnologia e usuários.