
São Paulo — InkDesign News — A crescente adoção de modelos de inteligência artificial (IA), especialmente aqueles baseados em LLM (modelos de linguagem de larga escala), trouxe à tona a necessidade de garantir que as avaliações feitas por esses modelos sejam confiáveis e alinhadas com as expectativas humanas. A LangChain introduziu o Align Evals, uma ferramenta que visa reduzir as lacunas entre avaliações automatizadas e humanas.
Tecnologia e abordagem
O Align Evals permite que os usuários criem avaliadores baseados em LLM e calibrá-los de acordo com as preferências específicas da empresa. Essa abordagem é fundamentada em um trabalho de Eugene Yan, da Amazon, que descreveu um sistema para automatizar partes do processo de avaliação. O conceito de "LLM como juiz" permite que esses modelos conduzam avaliações em um painel integrado de testes, facilitando comparações e análises.
Aplicação e desempenho
Para usar o Align Evals, as empresas devem inicialmente determinar os critérios de avaliação para suas aplicações, como precisão em aplicativos de chat. Os usuários selecionam dados para revisão humana que refletem tanto aspectos positivos quanto negativos. A avaliação se torna um processo iterativo, onde os desenvolvedores ajustam critérios com base no feedback das análises humanas.
A LangChain destacou um desafio recorrente: “As pontuações de avaliação não correspondem ao que esperaríamos de um ser humano em nossa equipe” (“Our evaluation scores don’t match what we’d expect a human on our team to say.”). Isso leva a comparações imprecisas e ao desperdício de tempo em busca de sinais falsos.
Impacto e mercado
Com um aumento na demanda por frameworks de avaliação em IA, empresas como Salesforce e AWS estão oferecendo ferramentas que permitem a avaliação de desempenho. A capacidade de fornecer uma pontuação clara sobre o desempenho de modelos promove não apenas a confiança na implementação de aplicações de IA, mas também facilita a comparação entre diferentes soluções.
À medida que mais desenvolvedores e empresas solicitam métodos mais personalizados e integrados para avaliação de desempenho, a expectativa é que mais plataformas ofereçam ferramentas adaptadas para a avaliação de modelos de IA.
Porém, a escalabilidade dessa abordagem depende da capacidade de ajustar dinamicamente as métricas e benchmarks utilizados nas avaliações.
Os próximos passos incluem a integração de análises para rastrear o desempenho e automatizar a otimização de prompts, garantindo que as avaliações continuem a melhorar com o tempo.
Fonte: (VentureBeat – AI)