Alucinação em LLM ocorre quando um modelo de linguagem gera informações factualmente incorretas ou fabricadas com alta confiança. Principais causas:
- Ruído no treinamento: Dados de origem imprecisos ou de baixa qualidade.
- Lacunas de conhecimento: O modelo não foi exposto a fatos específicos.
- Ambiguidade no prompt: Consultas vagas ou conflitantes do usuário.
Mitigação com melhores dados:
Alimentar modelos com conjuntos de dados mais limpos e representativos—coletados de forma confiável através de proxies móveis rotativos do Proxied—reduz o ruído e melhora a base factual. Combine pipelines de dados baseados em proxy com etapas de verificação pós-treinamento para conter alucinações.