Modelos LLM do Azure: Um Caso de Desempenho Degradante

Um desenvolvedor construindo um produto usando LLMs e modelos de áudio do Azure descobriu uma tendência preocupante: os mesmos modelos estão ficando progressivamente piores com o tempo. Usando prompts e mensagens de sistema idênticos, a precisão das respostas de ambos os modelos GPT-4o-mini e GPT-5-mini/nano diminuiu significativamente. O GPT-5, embora inicialmente esperado para ser superior, mostrou-se mais lento e menos preciso do que o GPT-4o-mini mais antigo. O desenvolvedor suspeita que a Microsoft está deliberadamente degradando modelos mais antigos para direcionar os usuários para versões mais novas, menos confiáveis. Essa prática prejudica a experiência do usuário e pode levar os desenvolvedores a procurar plataformas alternativas.