Modelos causais melhoram generalização em offline reinforcement learning

Nanjing — InkDesign News — Pesquisadores da Universidade de Nanjing e da Carnegie Mellon University desenvolveram uma abordagem inovadora em machine learning que melhora o aprendizado de máquinas a partir de dados históricos, um avanço significativo em offline reinforcement learning (RL).
Contexto da pesquisa
O offline reinforcement learning é essencial para sistemas que tomam decisões baseadas apenas em dados passados, sem necessidade de interação em tempo real com o ambiente. No entanto, uma grande dificuldade dessa área é que modelos tradicionais frequentemente aprendem relações espúrias, confundindo correlações com causalidade. Por exemplo, um sistema pode erradamente associar o acionamento do limpador de para-brisa à desaceleração do veículo, quando na verdade o que causa a desaceleração é o ato de frear.
Método proposto
A nova técnica desenvolvida pelos pesquisadores utiliza modelos causais estruturados para discernir relações genuínas de causa e efeito em dados históricos sequenciais e contínuos. Utilizando testes estatísticos especializados, o método reduz a complexidade computacional e aprimora a capacidade de o sistema identificar corretamente as causas reais por trás das ações observadas, superando modelos tradicionais como MOPO, MOReL, COMBO e LNCM.
O modelo empregado é baseado em aprendizado por reforço offline com estrutura causal, que combina análise estatística de dados sequenciais com a construção de um modelo do mundo que respeita as relações causais.
Resultados e impacto
Nos testes realizados, o método provou reduzir drasticamente os erros decorrentes de relações espúrias e apresentou desempenho superior aos benchmarks convencionais em termos de segurança e confiabilidade das decisões tomadas. O modelo foi validado em ambientes de condução autônoma e outras aplicações autônomas, mostrando maior precisão na generalização de políticas aprendidas a partir de dados offline.
“Nosso estudo aproveita o poder do raciocínio causal para eliminar ruídos nos dados históricos, possibilitando que sistemas tomem decisões mais precisas e seguras—um avanço que pode melhorar a implementação da tecnologia autônoma em diversos setores.”
(“Our study harnesses the power of causal reasoning to cut through the noise in historical data, enabling systems to make decisions that are both more accurate and safer—an advancement that could improve how autonomous technology is deployed across industries.”)— Prof. Yang Yu, Universidade de Nanjing
Este avanço tem implicações diretas para a segurança em veículos autônomos, sistemas médicos de suporte à decisão e robótica, onde a precisão nas decisões é crítica. Também pode influenciar futuras regulações e aumentar a confiança pública em sistemas automatizados. Pesquisas futuras poderão expandir a aplicação da causalidade em outras áreas do machine learning.
Leia mais em Machine Learning e Deep Learning.
Fonte: (TechXplore – Machine Learning & AI)