
São Paulo — InkDesign News — O campo do machine learning (aprendizado de máquina) avança rapidamente, trazendo inovações significativas na forma como interagimos com sistemas baseados em inteligência artificial. Neste artigo, exploramos a evolução da engenharia de contexto em modelos de linguagem grande (LLMs) para aprimorar a qualidade das respostas em sistemas de perguntas e respostas.
Arquitetura de modelo
A arquitetura atual de muitos sistemas de perguntas e respostas baseia-se na técnica de retrieval-augmented generation (RAG)
. Esta técnica funciona buscando documentos relevantes a partir de um banco de dados e alimentando-os em um LLM junto com a pergunta do usuário. A simplicidade desta abordagem é uma de suas forças, mas as novas demandas exigem métodos mais sofisticados.
A cofundadora da Chroma, uma provedora de banco de dados vetorial, afirmou que "RAG está morto" (“RAG is dead”)— Nome, Cargo, Instituição. Embora essa afirmação possa ser exagerada, sublinha a necessidade de explorar alternativas para otimizar a qualidade de saída dos sistemas.
Treinamento e otimização
Uma abordagem eficaz para melhorar o desempenho dos sistemas de perguntas e respostas é focar na redução do número de tokens irrelevantes. Isso pode ser alcançado através de três métodos principais: reranking
, summarization
e prompting GPT
. O reranking
envolve a reordenação dos documentos retornados com base em um modelo de reranking, como o Qwen Reranker, que prioriza os documentos mais relevantes.
Além disso, a summarization
pode ser utilizada para condensar a informação, mantendo o conteúdo mais relevante. Por exemplo, preservar documentos completos de fontes mais similares e resumir aqueles que possuem menor relevância. Finalmente, o prompting GPT
permite avaliar a relevância dos documentos por meio de chamadas paralelizadas ao LLM que valida a pertinência de cada documento.
Resultados e métricas
A precisão e a recuperação são métricas cruciais no design de sistemas de questionamento. O uso de modelos de embedding de alto desempenho, como os disponíveis no HuggingFace, pode aumentar a qualidade da recuperação de informações e, consequentemente, a satisfação do usuário.
Enquanto a busca por mais documentos pode aumentar a chance de encontrar informações relevantes, é importante equilibrar isso com o objetivo de evitar a "diluição do contexto", que pode prejudicar a qualidade do output final. Cada token irrelevante tem um custo, não apenas monetário, mas também em termos de eficiência e velocidade de resposta.
A implementação de uma abordagem de agentic search
, onde um agente orquestra um conjunto de sub-agentes que processam a informação, também pode levar a resultados mais precisos e um maior controle sobre o sistema.
Diante da crescente complexidade dos sistemas de IA, é fundamental considerar a engenharia de contexto como uma prática essencial, não apenas para a melhoria contínua dos modelos, mas também como um elemento central na experiência do usuário.
Fonte: (Towards Data Science – AI, ML & Deep Learning)