Dados de Treino Contaminados — O Problema que Começa antes do Modelo

O que está acontecendo

Dados de treino contaminados incluem quatro categorias distintas: dados com viés histórico (decisões discriminatórias do passado usadas para treinar o futuro), dados desatualizados (padrões de comportamento de período não representativo), dados incompletos (sub-representação de grupos relevantes), e dados com erros de rotulagem (decisões incorretas do passado tratadas como verdade).

O modelo não distingue dado bom de dado ruim. Aprende o padrão que existe — qualquer que seja ele.

Pipeline de dados de treino com ponto de contaminação — viés histórico, PII sem remoção e dados sem linhagem | risco.ia.br

A escala é o problema adicional: um decisor humano com viés afeta um caso por vez. Um modelo com viés afeta milhares de decisões por dia.

Por que isso é problema do CFO

Modelo de crédito treinado com histórico de discriminação vai discriminar de forma sistemática e escalável. A empresa vai responder por isso — não a equipe de dados que construiu o modelo.

Para o EU AI Act, sistemas de alto risco com viés em dados de treino são proibidos. Para a LGPD, discriminação algorítmica viola o princípio de não discriminação do Art. 6º.

O risco não é intencional — é estrutural. Isso não atenua a responsabilidade legal.

O que acontece quando isso vai para auditoria

Auditores vão perguntar: qual é a origem dos dados de treino? Por qual período? Foi feita análise de viés antes do go-live? Se a resposta for "não foi feita análise de viés", você tem achado — independente de o modelo estar discriminando ou não.

Ausência de análise de viés documentada é, em si, um controle inexistente. Você não pode provar que o modelo não discrimina se nunca testou.

Impacto financeiro estimado

Litígio coletivo por discriminação algorítmica: valores variam. Casos nos EUA e Europa indicam exposição de dezenas a centenas de milhões. No Brasil, ainda em desenvolvimento, mas a base legal existe.

Multa ANPD por violação do princípio de não discriminação: até 2% do faturamento, limitado a R$ 50 milhões.

Custo de remediação: re-treinamento com dados limpos + nova validação + auditoria de conformidade. Estimativa: R$ 300k a R$ 1,5M dependendo da complexidade do modelo.

O que fazer

Documentar a origem de todos os dados usados no treinamento: base, período, como foram coletados, quem os aprovou
Antes do go-live: fazer análise de disparate impact — existem ferramentas open source (IBM AI Fairness 360, por exemplo)
Testar distribuição de resultados por grupos demográficos relevantes para o contexto do modelo
Estabelecer limiar aceitável de disparidade — "zero disparidade" não é realista, mas "disparidade dentro de X%" é defensável
Rever dados de treino a cada ciclo de revalidação do modelo — padrões históricos mudam