
São Paulo — InkDesign News —
A pesquisa recente em machine learning se potencializa com o desenvolvimento do DataSAIL, uma ferramenta que otimiza a separação de dados de treinamento e teste, garantindo que modelos de inteligência artificial (AI) sejam avaliados de forma mais precisa.
Contexto da pesquisa
Desenvolvido por bioinformáticos da Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) e do Helmholtz Institute for Pharmaceutical Research Saarland (HIPS), DataSAIL busca resolver deficiências na avaliação de modelos de AI. A divisão adequada dos dados é essencial para garantir que os modelos não apenas funcionem bem no conjunto de dados com o qual foram treinados, mas também em dados não vistos, conhecidos como dados fora da distribuição.
Método proposto
O DataSAIL utiliza um algoritmo que automaticamente classifica os dados de modo que o conjunto de teste seja o mais diverso possível em relação ao conjunto de treinamento. Essa metodologia visa minimizar a superestimação da performance dos modelos de AI, um problema recorrente em algoritmos convencionais. “Somente se os dados forem divididos de tal forma que os dados de teste diferem significativamente dos de treinamento podemos determinar se o modelo pode lidar com dados novos”, explica Prof. Dr. David Blumenthal, bioinformático da FAU.
“DataSAIL é uma ferramenta gratuita e pode ser utilizada para todos os tipos de dados, não apenas em pesquisa biológica”
(“DataSAIL is a free tool and can be used for all types of data, not just in biological research.”)— Prof. Dr. David Blumenthal, Bioinformático, FAU
Resultados e impacto
Com a capacidade de lidar com dados de interação, essenciais em pesquisas farmacêuticas, DataSAIL avança significativamente na lógica de separação de dados. Por exemplo, ao tentar prever a interação entre medicamentos e proteínas-alvo, a ferramenta assegura uma distribuição equilibrada entre diferentes classes, como sexos, evitando que os testes sejam enviesados. O intuito é continuar a evolução do DataSAIL nos próximos anos, reduzindo o tempo de execução dos algoritmos e melhorando a preparação dos dados.
O DataSAIL se destaca por ser também o primeiro a automatizar a separação de dados de interação, um campo cada vez mais relevante. O potencial de aplicações futuras inclui não apenas pesquisas biológicas, mas também outras áreas que dependem fortemente de machine learning.
Fonte: (TechXplore – Machine Learning & AI)