Estatísticas de Fraude por Clonagem de Voz 2027

O FBI IC3 registrou mais de 22.000 queixas atribuídas a IA no seu Internet Crime Report 2025 — o primeiro ano em que o organismo designou formalmente “relacionado com IA” como descritor de crime (FBI IC3, 2025). O relatório Voice Intelligence and Security Report 2025 da Pindrop documentou aumento de 1.300% ano a ano nas tentativas de fraude com deepfake em todos os setores industriais em 2024. A FTC documentou mais de US$1,9 bilhão em perdas declaradas por golpes telefônicos e de impostura em 2023, e a pesquisa de consumidores da McAfee mostrou que 77% das vítimas de deepfake de voz perderam dinheiro — 36% entre US$500 e US$3.000 por incidente (McAfee, 2023).

No Brasil, a história tem nome e sobrenome: o golpe da voz clonada no WhatsApp. O esquema virou febre nos Procons estaduais, especialmente no Procon-SP, que registrou aumento expressivo de reclamações sobre esse tipo específico de fraude a partir de 2023. O Banco Central do Brasil reportou mais de R$2,5 bilhões em disputas de transações Pix em 2023, com parcela relevante atribuída a engenharia social — incluindo golpes de clonagem de voz (Banco Central do Brasil, 2023).

Este post agrega os melhores dados disponíveis da FTC, FBI IC3, EUROPOL, ENISA, Pindrop, McAfee, Sumsub e pesquisas acadêmicas para dar um panorama preciso da ameaça — e das defesas sendo implantadas contra ela.

TL;DR

FBI IC3 registrou 22.000+ queixas de crimes “relacionados com IA” pela primeira vez em 2025 (FBI IC3, 2025).
Pindrop mediu aumento de 1.300% ano a ano em tentativas de fraude por deepfake de voz em 2024 (Pindrop, 2025).
FTC: golpes telefônicos e de impostura superaram US$1,9 bilhão em perdas declaradas em 2023 (FTC, 2024).
FBI IC3: Business Email Compromise causou US$2,77 bilhões em perdas em 2024 (FBI IC3, 2025).
McAfee: 77% das vítimas de deepfake de voz perdeu dinheiro; 36% perdeu US$500–US$3.000 (McAfee, 2023).
Banco Central do Brasil: mais de R$2,5 bilhões em disputas de Pix em 2023, parte atribuída à engenharia social (BCB, 2023).
Humanos identificam corretamente áudio sintético apenas 60–73% das vezes em estudos controlados (PLOS One, 2023).
EUROPOL e ENISA apontam clonagem de voz como ameaça prioritária emergente para 2025–2027.
Artigo 50 do Regulamento de IA da UE sobre divulgação de conteúdo sintético entra em vigor em agosto de 2026.

1. A Dimensão do Problema: Métricas Principais

Antes de analisar as tipologias de fraude, vale calibrar com os números que definem a escala atual.

Métrica	Valor	Fonte
Queixas atribuídas a IA no FBI IC3 (relatório 2025)	22.000+	FBI IC3, 2025
Aumento ano a ano em tentativas de fraude deepfake (todos os setores, 2024)	+1.300%	Pindrop, 2025
Áudio mínimo necessário para clonar uma voz	30 segundos	Pindrop, 2025
Perdas por golpes telefônicos/impostura (FTC, 2023)	US$1,9 bilhão+	FTC, 2024
Perdas por BEC/fraude de CEO (FBI IC3, 2024)	US$2,77 bilhões	FBI IC3, 2025
Disputas de Pix (Brasil, 2023)	R$2,5 bilhões+	BCB, 2023
Vítimas de deepfake de voz que perderam dinheiro	77%	McAfee, 2023
Vítimas que perderam US$500–US$3.000 por incidente	36%	McAfee, 2023
Precisão de detecção humana para áudio sintético	60–73%	PLOS One, 2023
Precisão de detecção biométrica comercial	94–97%	Pindrop / NICE, 2025

Fontes principais: FBI IC3, FTC ReportFraud, Pindrop, McAfee.

A diferença entre detecção humana (mal acima do acaso) e detecção biométrica comercial (94–97%) justifica o investimento institucional em autenticação de voz — e representa a vulnerabilidade central de qualquer sistema que dependa só do ouvido humano.

2. O Golpe da Voz Clonada no WhatsApp: O Cenário Brasileiro

Esse é o golpe que mais cresceu no Brasil nos últimos dois anos e merece atenção especial. O esquema funciona em etapas:

O fraudador obtém um áudio da vítima — pode ser um status do WhatsApp, um reel do Instagram, um story do TikTok, ou até mesmo uma mensagem de voz em um grupo aberto.
Com o áudio de treinamento (bastam 30 segundos conforme Pindrop), o golpista usa uma ferramenta de síntese de IA para clonar a voz.
O acesso à conta do WhatsApp da vítima pode ser obtido por SIM swap, phishing ou simplesmente pedindo o código de verificação via engenharia social.
Com a conta comprometida e a voz clonada, o fraudador envia mensagens de voz para os contatos da vítima pedindo transferências Pix urgentes — “estou numa emergência, preciso de R$500 agora, te devolvo amanhã.”

O detalhe que faz o golpe funcionar: a voz soa exatamente como a pessoa real. Amigos e familiares que reconheceriam uma voz falsa em uma ligação telefônica comum são enganados pelo áudio que parece autêntico.

Procon-SP registrou aumento expressivo de reclamações envolvendo essa modalidade de fraude a partir de 2023, e o tema entrou na pauta da Senacon. O Banco Central do Brasil mantém dados sobre disputas de Pix e alertas sobre fraudes vinculadas ao sistema de pagamentos instantâneos.

Defesas específicas para o contexto brasileiro:

Ative a verificação em duas etapas no WhatsApp (Configurações > Conta > Verificação em duas etapas).
Estabeleça com a família uma palavra de código para pedidos de dinheiro — algo que só vocês sabem.
Nunca envie Pix antes de ligar de volta no número salvo e confirmar verbalmente.
Denuncie ao Procon do seu estado e ao consumidor.gov.br.

3. Fraude de Avó/Avô: Clonando Vozes de Família

A versão clássica do “grandparent scam” norte-americano tem seu equivalente no Brasil — normalmente via WhatsApp mas também por telefone. O golpe envolve um chamador se passando por neto em apuros (acidente, preso, emergência médica) pedindo transferência urgente. Com clonagem de IA, a voz soa como o neto real.

A FTC identificou a estafa do avô como categoria de denúncia persistente e em crescimento, especialmente mirando adultos acima de 60 anos. Segundo o Consumer Sentinel Network Data Book 2023, golpes de impostura foram o segundo tipo de fraude com maior perda total reportada entre idosos, com mais de US$700 milhões perdidos por pessoas de 60 anos ou mais em impostura de fraudes só em 2023 (FTC, 2023).

O que torna a clonagem de voz catastrófica aqui: clipes de redes sociais, vídeos de reuniões de família e posts em plataformas públicas fornecem material de treinamento abundante para atacantes sem qualquer acesso técnico ao dispositivo da vítima. Um vídeo de 15 segundos no TikTok é suficiente.

Medida de defesa: acordar previamente uma palavra de segurança familiar (uma frase aleatória conhecida apenas pela família imediata) e fazer uma ligação de retorno em número verificado antes de qualquer transação financeira.

4. Fraude de CEO e Business Email Compromise

O Business Email Compromise (BEC) evoluiu de ataques só por e-mail para campanhas multicanal que incluem chamadas de voz ou mensagens de voz geradas com IA. Um e-mail convincente de um “CFO” solicitando uma transferência urgente tem ainda mais peso quando acompanhado de uma ligação de acompanhamento com a voz real do CFO.

O Internet Crime Report 2024 do FBI IC3 documentou US$2,77 bilhões em perdas por BEC em 21.442 queixas — a categoria de crime cibernético com maior perda em dólares que o organismo registra (FBI IC3, 2025). Embora nem todas as queixas de BEC envolvam clonagem de voz, a análise narrativa do organismo apontou forte aumento em menções a componentes de voz nos processos de 2023 e 2024.

O exemplo real mais citado permanece sendo o caso de fevereiro de 2024 da empresa de engenharia Arup: um funcionário financeiro em Hong Kong transferiu US$25,6 milhões após uma videoconferência com deepfake que se passou pelo CFO da empresa no Reino Unido e outros colegas seniores (CNN / Polícia de HK, 2024). A síntese de áudio foi parte do stack de engano junto com deepfakes de vídeo.

Métrica	Valor	Fonte
Perdas por BEC do FBI IC3 (2024)	US$2,77 bilhões	FBI IC3, 2025
Queixas BEC do FBI IC3 (2024)	21.442	FBI IC3, 2025
Perda por chamada deepfake da Arup (HK, fev. 2024)	US$25,6 milhões	CNN / Polícia HK, 2024
BEC como proporção das perdas totais IC3 (2024)	Maior categoria individual	FBI IC3, 2025

Fonte: FBI IC3 Annual Report.

A defesa empresarial convergiu em duas camadas: verificação verbal fora de banda (ligar de volta em um número pré-registrado, nunca no que ligou para você) e detecção biométrica de atividade de voz a nível de call center, que detecta artefatos de síntese que o ouvido humano não capta com precisão superior a 94%.

5. Voice Spoofing: A Superfície de Ataque Maior

A clonagem de voz é um subconjunto do panorama mais amplo de ameaças de voice spoofing. O Internet Organised Crime Threat Assessment (IOCTA) 2024 da EUROPOL identifica mídia sintética de áudio e vídeo como facilitador transversal para fraude, engenharia social, extorsão e operações de desinformação, apontando que o uso criminoso de ferramentas de IA “não é mais domínio exclusivo de atores em nível estatal” (EUROPOL, IOCTA 2024).

O Threat Landscape 2024 da ENISA classifica igualmente o áudio gerado por IA como componente “significativo e crescente” dos ataques de engenharia social (ENISA, 2024).

A taxonomia de spoofing em 2026–2027:

Tipo de ataque	Base técnica	Detectabilidade (humana)	Detectabilidade (sistema biométrico)
Impersonação simples por modulação de tom	Apenas DSP	Alta	Alta
Reprodução de áudio gravado	n/a (detecção de atividade)	Variável	Alta
Text-to-speech na voz do alvo	Síntese IA	Baixa	Alta
Conversão de voz em tempo real	Síntese IA, transmissão ao vivo	Baixa	Média–Alta
Chamada deepfake completa (voz+vídeo)	Síntese multimodal	Muito baixa	Alta (ferramentas especializadas)

A conversão de voz em tempo real — transformar a voz de um chamante ao vivo na voz do alvo — é o que amplia a ameaça de criação de conteúdo (produzir um clipe falso) para fraude ao vivo (ser a pessoa falsa em tempo real). Essa é a variante mais relevante para fraude em call center, o golpe do avô e as chamadas de voz BEC.

6. Panorama Regional: FTC, FBI IC3, EUROPOL e Brasil

Estados Unidos

A FTC e o FBI IC3 são as principais fontes de dados dos EUA. O Consumer Sentinel da FTC recebeu 2,6 milhões de reportes de fraude em 2023, com ligações telefônicas sendo o método de contato mais comum para fraude (17% dos contatos) (FTC, 2024). Registre um reporte em reportfraud.ftc.gov ou ic3.gov.

União Europeia

A EUROPOL apontou a síntese de áudio e vídeo habilitada por IA como ameaça de primeiro nível no seu IOCTA 2024. O Regulamento de IA da UE (Artigo 50) exige rótulos de divulgação em áudio e vídeo sintéticos, com regras que entram em vigor de forma escalonada a partir de agosto de 2026 (Comissão Europeia, 2024). A ENISA fornece orientação a estados-membro sobre detecção de fraude de voz.

Documentos de referência: EUROPOL IOCTA 2024, ENISA Threat Landscape 2024.

Brasil: O Ecossistema Específico

O Brasil tem características únicas que amplificam o risco de golpes de voz clonada:

Dominância do WhatsApp: o app é a principal ferramenta de comunicação no Brasil, com mensagens de voz sendo parte do uso cotidiano — vetor perfeito para golpes de clonagem de voz.
PIX: o sistema de pagamento instantâneo do Banco Central facilita transferências rápidas que são difíceis de reverter após o golpe. O BCB reportou mais de R$2,5 bilhões em disputas de transações Pix em 2023.
Lacuna regulatória: a LGPD não tem provisões específicas para dados biométricos de voz no contexto de fraude, deixando a aplicação principalmente para o direito do consumidor.
Procon-SP e Senacon: têm registrado crescimento de reclamações sobre golpes que utilizam síntese de voz, particularmente a modalidade WhatsApp.

7. A Corrida Armamentista Biométrica

O lado da demanda de autenticação de voz está crescendo rapidamente. A Pindrop estima a exposição à fraude nos contact centers dos EUA em US$44,5 bilhões para 2025, o que impulsionou a adoção empresarial de detecção biométrica de voz ao vivo de fornecedores como Pindrop, Nuance (Microsoft), NICE Actimize e Verint. Sistemas comerciais agora atingem 94–97% de precisão de detecção em áudio sintético, embora esse número fique cerca de 24 meses atrás da qualidade de geração (Pindrop / consenso acadêmico, 2025).

A dinâmica adversarial: conforme a detecção melhora, as ferramentas de clonagem se adaptam. O desenvolvimento mais preocupante é a síntese adversarial adaptativa — modelos ajustados especificamente para evadir classificadores de detecção conhecidos adicionando padrões de micro-variação que contornam assinaturas biométricas específicas. Isso ainda não está disseminado em kits de fraude de uso massivo (em meados de 2026), mas a previsão de ameaças da ENISA para 2027 o identifica como progressão provável.

STIR/SHAKEN (framework de autenticação de caller ID dos EUA) não detecta síntese de voz, mas dificulta a falsificação de ID de chamada. A adoção completa em operadoras menores e rotas internacionais permanece incompleta.

8. Detecção Humana: Por Que o Ouvido Sozinho Não Basta

Um estudo do PLOS One de 2023 testou a capacidade dos participantes de distinguir fala humana de áudio sintetizado por IA em múltiplos sistemas de síntese. A taxa média de detecção foi de 73% em sistemas mais antigos e caiu para aproximadamente 60% em modelos modernos de alta qualidade — mal acima do acaso (PLOS One, 2023). Em condições de chamada ao vivo, onde a carga cognitiva é alta e o chamante aplica táticas de pressão social, o desempenho no mundo real provavelmente cai ainda mais.

Isso não é questão de inteligência — reflete a limitação fundamental do ouvido. Os artefatos que distinguem áudio sintético muitas vezes estão em faixas de frequência ou micro-variações de timing que requerem processamento de sinal para medir de forma confiável.

A implicação prática: as defesas voltadas ao consumidor devem ser procedurais (verificação por retorno de chamada, desafio de palavra-código), não perceptuais. Assumir que dá pra “ouvir” um falso é a vulnerabilidade.

9. Manual de Defesa: O Que Funciona de Verdade

Para pessoas físicas

Estabeleça uma palavra de código familiar. Combine uma frase sem sentido com familiares próximos. Se um chamante angustiado não conseguir fornecê-la, desligue e ligue de volta em número verificado.
Ligue de volta em números conhecidos. Nunca confie no número que ligou para identificação — use sua lista de contatos ou fontes oficiais.
Ative verificação em duas etapas no WhatsApp. Configurações > Conta > Verificação em duas etapas.
Reporte ligações suspeitas. reportfraud.ftc.gov (EUA), ic3.gov (FBI), consumidor.gov.br (Brasil) ou Procon do seu estado.
Reduza sua pegada de áudio pública. Clipes de voz em redes sociais são material de treinamento primário para clonagem.

Para empresas

Implante detecção biométrica de voz ao vivo em contact centers que tratam transações financeiras ou autenticação de clientes.
Estabeleça confirmação verbal fora de banda para transferências de alto valor — uma ligação de retorno em número pré-registrado, não o número que iniciou a operação.
Treine funcionários sobre riscos de chamadas de voz BEC. Impersonação executiva por voz agora é um passo documentado nos playbooks de BEC (FBI IC3, 2025).
Habilite STIR/SHAKEN onde disponível e monitore chamadas não autenticadas em rotas de alto risco.

Para reguladores e legisladores

A EUROPOL e a ENISA recomendam frameworks harmonizados de reporte transfronteiriço, tratados de assistência jurídica mútua cobrindo fraude habilitada por IA e padrões técnicos mínimos para autenticação de voz em serviços financeiros regulados — nenhum deles totalmente em vigor em meados de 2026.

10. Tecnologia de Voz com Consentimento: Uma Nota Rápida

O crescimento do fraude habilitado por IA de voz intensificou o escrutínio sobre toda a tecnologia de voz IA — incluindo aplicações de uso consentido e legítimo. Existe uma distinção significativa entre serviços de processamento de voz baseados em nuvem que fazem upload de gravações de voz para servidores de terceiros sem políticas claras de retenção de dados, e ferramentas projetadas para uso local com consentimento explícito.

O VoxBooster executa todo o processamento de voz com IA localmente no Windows — nenhum áudio é enviado a servidores externos. A abordagem de consentimento em primeiro lugar importa: os casos de uso legítimos (clonagem de voz pessoal para acessibilidade, entretenimento e produção criativa) dependem de que a tecnologia continue sendo confiável. Se você está avaliando ferramentas de voz com IA, pergunte se o processamento é local ou baseado em nuvem, quem retém o áudio de treinamento e se existe um framework de consentimento explícito.

FAQ

Quão comum é o golpe por clonagem de voz em 2027? O golpe por clonagem de voz é uma das categorias de ameaças cibernéticas que mais cresce. O FBI IC3 registrou mais de 22.000 queixas atribuídas a IA no relatório de 2025, e a Pindrop documentou aumento de 1.300% ano a ano nas tentativas de fraude com deepfake em todos os setores durante 2024. No Brasil, o golpe da voz clonada no WhatsApp tornou-se uma das principais denúncias nos Procons estaduais.

O que é o golpe da voz clonada no WhatsApp? O golpe funciona assim: o fraudador clona a voz da vítima a partir de um áudio público (redes sociais, grupo de WhatsApp), depois envia mensagens de voz para os contatos da vítima pedindo transferências Pix urgentes. Como o áudio soa exatamente como a pessoa real, amigos e familiares geralmente caem na armadilha.

Quanto dinheiro as pessoas perdem com golpes de voz por ano? A FTC reportou mais de US$1,9 bilhão em perdas declaradas por golpes telefônicos e de impostura em 2023. A pesquisa da McAfee de 2023 mostrou que 77% das vítimas perderam dinheiro. No Brasil, o Banco Central registrou mais de R$2,5 bilhões em disputas de transações Pix em 2023, com parcela atribuída a engenharia social.

O que é fraude de CEO (BEC) e como a clonagem de voz piora o problema? O Business Email Compromise agora frequentemente inclui uma ligação de acompanhamento com a voz clonada de um executivo. O FBI IC3 2024 documentou US$2,77 bilhões em perdas por BEC — a maior categoria individual de crime cibernético, com síntese de voz cada vez mais citada nas narrativas.

Como identificar se uma ligação usa voz clonada? Sinais de alerta: urgência inesperada, pedidos de transferências ou vale-presente, pausas não naturais, tonalidade robótica e número que não bate com os contatos salvos. Desligue e ligue de volta no número que você tem cadastrado.

Qual é a diferença entre voice spoofing e clonagem de voz? Voice spoofing é a categoria ampla: qualquer técnica para imitar uma voz. Clonagem de voz usa IA para gerar fala nova na voz de um alvo — muito mais convincente e escalável que os métodos antigos.

Quais ferramentas de defesa existem contra golpes de clonagem de voz? As defesas incluem verificação por retorno de chamada, palavras-código familiares, verificação em duas etapas no WhatsApp, detecção biométrica de voz em call centers, autenticação STIR/SHAKEN e o Artigo 50 do Regulamento de IA da UE com exigências de divulgação a partir de agosto de 2026.