
São Paulo — InkDesign News — A evolução dos modelos de linguagem está impulsionando avanços significativos em tarefas de processamento de linguagem natural (NLP). Especialmente em áreas de saúde, o uso de machine learning parece promissor para extrair informações essenciais de dados clínicos.
Arquitetura de modelo
Recentemente, um projeto focou na extração de elementos PICO (População, Intervenção, Comparador e Resultado) a partir de descrições de ensaios clínicos encontrados no clinicaltrials.gov. Com a utilização de modelos de reconhecimento de entidade nomeada (NER), a pesquisa buscou transformar dados não estruturados em informações valiosas para análises preditivas. Modelos como BioBERT e BioMobileBERT foram escolhidos por suas capacidades robustas em tarefas biomédicas. BioELECTRA também foi testado, mas com desempenho inferior para elementos críticos.
Treinamento e otimização
No treinamento, o BioBERT foi o modelo principal, beneficiando-se de um conjunto de dados anotados do BIDS-Xu-Lab. Para otimizar velocidade e uso de memória, versões compactas, como CompactBioBERT e BioMobileBERT, foram experimentadas. "Esperamos que essas otimizações proporcionem um equilíbrio ideal entre precisão e eficiência"— Disse o pesquisador envolvido no projeto, que preferiu não ser identificado. Todos os modelos foram fine-tunados utilizando GPUs do Google Colab, permitindo treinos em menos de duas horas.
Resultados e métricas
Os resultados mostraram que todos os modelos apresentaram forte desempenho na extração de População, com o BioMobileBERT alcançando uma pontuação F1 de 0,91. Contudo, a extração de Intervenções revelou desafios, com precisão variando de 0,54 a 0,61. "A precisão na extração de intervenções frequentemente falha ao capturar o foco principal dos ensaios, resultando em informação excessiva"— afirmou um colaborador do projeto.
Em uma perspectiva mais ampla, as limitações dos métodos genéricos foram notadas, indicando que uma abordagem híbrida, que combine aprendizado estatístico e heurísticas práticas, pode ser a estratégia mais eficaz para aplicações do mundo real. O projeto culminou em um aplicativo desenvolvido em Streamlit, permitindo que usuários realizem extrações de PICO de forma eficiente.
Algumas melhorias futuras incluem a implementação de vocabulários controlados e filtragem pós-processamento. Estas etapas são cruciais para garantir que a extração de dados seja não apenas precisa, mas também prática para pesquisadores no campo biomédico.
Fonte: (Towards Data Science – AI, ML & Deep Learning)