
São Paulo — InkDesign News — O uso de algoritmos de machine learning na classificação de dados tem sido fundamental em diversas aplicações, especialmente em diagnósticos médicos. Neste artigo, exploraremos a construção de um modelo de classificação utilizando o conjunto de dados do câncer de mama de Wisconsin.
Arquitetura de modelo
Para a construção do modelo, a Regressão Logística é uma escolha eficaz, dada sua simplicidade e interpretabilidade. A base de dados contém 569 amostras e características detalhadas dos tumores. Os dados foram divididos em conjuntos de treinamento e teste, onde foram aplicadas técnicas de pré-processamento, incluindo a Padronização dos dados através da classe StandardScaler
do Python.
“Nessa abordagem, a técnica de Regressão Logística foi utilizada para treinar o modelo de dados.”
(“In this approach, the Logistic Regression technique was used to train the model on the data.”)— Autor Desconhecido
Treinamento e otimização
Durante a fase de treinamento, o modelo foi otimizado com um número máximo de iterações de 10.000. Após a construção do modelo, as previsões foram feitas sobre o conjunto de teste. O desempenho do modelo foi avaliado usando a matriz de confusão e o relatório de classificação, que fornecem métricas cruciais, como precisão, recall e a pontuação F1.
“Essas métricas são essenciais para entender como o modelo se comporta em relação às classes.”
(“These metrics are essential to understand how the model performs in relation to the classes.”)— Autor Desconhecido
Resultados e métricas
Os resultados mostraram uma precisão de 97%, com um recall de 94% para tumores malignos, identificando a importância de não apenas confiar na precisão geral, mas também em medidas específicas que podem impactar a saúde dos pacientes. A classificação final demonstrou que, mesmo com uma alta taxa de acerto, a taxa de detecção de tumores malignos ficou abaixo do ideal.
“É crucial maximizar a detecção de casos positivos, como no câncer, onde a precisão pode afetar diretamente o tratamento.”
(“It is crucial to maximize the detection of positive cases, such as cancer, where accuracy can directly affect treatment.”)— Autor Desconhecido
A realização de um ajuste no limiar de decisão, tornando-o mais permissivo, gerou uma melhoria na detecção de casos malignos, aumentando o recall para 97%, sem comprometer a precisão. Essa abordagem demonstra a flexibilidade e adaptabilidade dos modelos de machine learning, principalmente em contextos médicos.
O futuro do uso de modelos de classificação em áreas como medicina e finanças depende do avanço nas métricas de avaliação e da capacidade de ajustar a modelação para balancear os resultados de acordo com as necessidades práticas.
Fonte: (Towards Data Science – AI, ML & Deep Learning)