mcRigor aprimora metacell partitioning em análise de dados com ML

São Paulo — InkDesign News — Pesquisadores da UCLA e do Fred Hutchinson Cancer Center desenvolveram mcRigor, um novo método para aprimorar a análise de dados de sequenciamento de célula única. A abordagem utiliza machine learning para melhorar a confiabilidade das análises de dados.
Arquitetura de modelo
A proposta central do mcRigor é a construção de um modelo estatístico que analisa dados de sequenciamento de célula única, abordando a dificuldade da escassez de dados. O método é baseado em um modelo de duas camadas, onde a camada superior captura a variação biológica da expressão verdadeira e a camada inferior modela o processo de sequenciamento. A implementação do conceito de “metacell” é uma das inovações, onde células com perfis de expressão semelhantes são agregadas em uma única unidade representativa.
A proposta é aumentar o sinal e reduzir o ruído através da agregação de células em uma única unidade representativa.
(“The proposal is to enhance signal and reduce noise by aggregating cells into a single representative unit.”)— Pan Liu, Pesquisador Pós-Doutoral, UCLA
Treinamento e otimização
MC Rigor avalia a heterogeneidade interna de cada metacell utilizando a estatística baseada em correlação de características, denominada mcDiv. Essa métrica mede a desvio das correlações entre características. O método constrói uma distribuição nula para mcDiv usando um procedimento de permutação dupla e identifica metacells que se desviam significativamente como duvidosos.
Resultados e métricas
Os resultados obtidos a partir de conjuntos de dados semi-simulados e reais de células sanguíneas periféricas (PBMC) mostraram que o mcRigor é eficaz na distinção de metacells confiáveis de duvidosos. Além disso, a aplicação de mcRigor em análises de dados de células tumorais melhorou a relação sinal-ruído de genes marcadores do ciclo celular.
A remoção de metacells duvidosos aumenta a confiabilidade das análises subsequentes.
(“Removing dubious metacells increases the reliability of downstream analyses.”)— Pan Liu, Pesquisador Pós-Doutoral, UCLA
O pacote R do mcRigor e tutoriais estão disponíveis para acesso público, promovendo uma maior transparência e colaboração na pesquisa em biotecnologia. O estudo contribui significativamente para a melhoria das análises em sequenciamento de célula única, possibilitando uma seleção de método e hiperparâmetros orientada por dados. Espera-se que essa abordagem leve a descobertas mais confiáveis em investigações biológicas, especialmente nas áreas de oncologia e imunologia.
Mais informações sobre o mcRigor estão disponíveis na publicação completa em Nature Communications.
Fonte: (Towards Data Science – AI, ML & Deep Learning)