Prática¶
O notebook classificadores.ipynb é a atividade principal da aula 2.
O handout concentra a teoria; o notebook coloca o classificador em execução.
O que você vai fazer¶
- Carregar o Breast Cancer Wisconsin Dataset.
- Fazer uma inspeção curta da base e do target.
- Separar treino e teste.
- Treinar um baseline com
LogisticRegression. - Inspecionar previsões, coeficientes e a lógica da decisão.
- Gerar previsões no conjunto de teste.
- Calcular e interpretar matriz de confusão, acurácia, precisão, recall e F1-score.
No contexto do câncer de mama, qual métrica (precisão ou recall) você considera mais crítica? Justifique.
Recall tende a ser a métrica mais crítica nesse contexto. O motivo é direto: um falso negativo significa classificar um caso maligno como benigno, o que pode atrasar diagnóstico e tratamento. Em problemas médicos como esse, deixar um caso real passar costuma ser mais grave do que investigar um caso suspeito que depois se mostra benigno.
Isso não torna a precisão irrelevante. Se ela for muito baixa, o modelo gera muitos alarmes falsos, aumenta ansiedade, custo e número de exames desnecessários. Mesmo assim, em uma etapa de triagem, normalmente faz mais sentido errar por excesso de cautela do que falhar em detectar um tumor maligno.
Ponte para a próxima aula¶
Nesta aula você usa a regressão logística como modelo de classificação e entende sua estrutura. Na próxima, a pergunta muda:
o que o modelo está fazendo por dentro quando chamamos .fit()?
É isso que o notebook otimizacao.ipynb vai abrir.