Prática¶

O notebook classificadores.ipynb é a atividade principal da aula 2. O handout concentra a teoria; o notebook coloca o classificador em execução.

Link do Clasroom

O que você vai fazer¶

Carregar o Breast Cancer Wisconsin Dataset.
Fazer uma inspeção curta da base e do target.
Separar treino e teste.
Treinar um baseline com LogisticRegression.
Inspecionar previsões, coeficientes e a lógica da decisão.
Gerar previsões no conjunto de teste.
Calcular e interpretar matriz de confusão, acurácia, precisão, recall e F1-score.

No contexto do câncer de mama, qual métrica (precisão ou recall) você considera mais crítica? Justifique.

Recall tende a ser a métrica mais crítica nesse contexto. O motivo é direto: um falso negativo significa classificar um caso maligno como benigno, o que pode atrasar diagnóstico e tratamento. Em problemas médicos como esse, deixar um caso real passar costuma ser mais grave do que investigar um caso suspeito que depois se mostra benigno.

Isso não torna a precisão irrelevante. Se ela for muito baixa, o modelo gera muitos alarmes falsos, aumenta ansiedade, custo e número de exames desnecessários. Mesmo assim, em uma etapa de triagem, normalmente faz mais sentido errar por excesso de cautela do que falhar em detectar um tumor maligno.

Ponte para a próxima aula¶

Nesta aula você usa a regressão logística como modelo de classificação e entende sua estrutura. Na próxima, a pergunta muda:

o que o modelo está fazendo por dentro quando chamamos .fit()?

É isso que o notebook otimizacao.ipynb vai abrir.