Google alerta: LLMs abandonam respostas corretas sob pressão

São Paulo — InkDesign News — Um estudo conduzido por pesquisadores do Google DeepMind e da University College London revela como modelos de linguagem de grande porte (LLMs) formam, mantêm e perdem confiança em suas respostas. As descobertas mostram semelhanças notáveis entre os vieses cognitivos dos LLMs e dos humanos, além de diferenças marcantes.
Tecnologia e abordagem
Os LLMs, como o GPT, dependem de técnicas de deep learning para gerar respostas baseada em padrões lingüísticos. O estudo analisou como estes modelos atualizam suas percepções de confiança ao receber conselhos externos. "Esse efeito – a tendência de permanecer com a escolha inicial quando essa escolha é visível – está relacionado a um viés conhecido como viés de apoio à escolha" (“This effect – the tendency to stick with one’s initial choice to a greater extent when that choice was visible – is closely related to a phenomenon described in the study of human decision making”)— Pesquisador, Google DeepMind.
Aplicação e desempenho
Os pesquisadores desenvolveram um experimento controlado, onde um LLM respondeu a perguntas de escolha binária. A visibilidade da resposta inicial do LLM afetou sua disposição para alterar decisões. Observou-se que quando a resposta estava visível, a alteração era menos provável. Além disso, os LLMs mostraram uma sensibilidade acentuada a conselhos opostos. Os modelos tendiam a ser excessivamente receptivos a informações contrárias, realizando mudanças de confiança desproporcionais.
“Os LLMs dão peso excessivo a informações opositoras em comparação com conselhos de apoio, o que pode ser provocado por técnicas de aprendizado de reforço a partir de feedback humano (RLHF)” (“LLMs overweight opposing rather than supportive advice, both when the initial answer of the model was visible and hidden from the model”)— Pesquisador, University College London.
Impacto e mercado
As implicações para aplicações empresariais são significativas. "Os sistemas de IA não são agentes puramente lógicos; eles exibem seus próprios vieses, o que pode tornar seu comportamento imprevisível em termos humanos" (“AI systems are not the purely logical agents; they exhibit their own set of biases, which can make their behavior unpredictable in human terms”)— Pesquisador, Google DeepMind. Em interações prolongadas entre humanos e agentes de IA, as informações mais recentes poderiam impactar desproporcionalmente o raciocínio do LLM, levando-o a descartar respostas inicialmente corretas.
Os desenvolvedores devem considerar maneiras de manipular a memória de um LLM para mitigar esses vieses. Resumos de conversas podem ser usados para fornecer um novo contexto ao modelo, minimizando a influência de decisões passadas. A compreensão das nuances nos processos decisórios dos LLMs é crucial à medida que estes se tornam integrados aos fluxos de trabalho empresariais.
Diante do avanço contínuo na inteligência artificial, próximas etapas incluirão a pesquisa sobre métodos de controle de viés e a aplicação de estratégias de gerenciamento de contexto.
Fonte: (VentureBeat – AI)