
São Paulo — InkDesign News — A nova abordagem no uso de guardrails no framework OpenAI Agents SDK promete oferecer maior segurança e eficiência nos sistemas de machine learning e deep learning, evitando distrações indesejadas e assegurando decisões assertivas.
Arquitetura de modelo
Os guardrails podem ser categorizados como guardrails de entrada e saída. Os primeiros atuam sobre o input inicial do usuário, enquanto os segundos verificam as respostas finais do agente. O modelo utiliza uma arquitetura robusta com agentes baseados em LLM e funções programáticas, como regex.
Treinamento e otimização
Para o funcionamento dos guardrails, agentes são treinados com instruções específicas, como “Você é um classificador de tópicos para uma aplicação de clima e qualidade do ar”. Essas orientações auxiliam no reconhecimento de perguntas inadequadas, protegendo o sistema contra tentativas de jailbreak e injeções de prompt. O treinamento se baseia em dados de entrada específicos e em palavras-chave relacionadas a padrões manipulativos.
Resultados e métricas
Os momentos em que os guardrails são acionados são cruciais; caso um input seja considerado fora do tópico ou perigoso, uma exceção é levantada, interrompendo a execução do agente principal. “Espero que isso deixe claro porque os guardrails são importantes.” (“Hopefully, this makes the case clear for why guardrails are worth exploring.”) — Nome, Cargo, Instituição. A métrica de acurácia para identificação de inputs inadequados e outputs não profissionais tem mostrado resultados positivos, reduzindo custos com queries mal direcionadas.
As aplicações práticas desses guardrails vão além do assistente virtual de clima, podendo ser integradas em sistemas de atendimento ao cliente e suporte técnico, garantindo que as interações permaneçam focadas e dentro dos parâmetros de segurança desejados. O desenvolvimento contínuo nessas áreas promete aumentar ainda mais a eficiência e segurança de sistemas baseados em AI.
Fonte: (Towards Data Science – AI, ML & Deep Learning)