O Problema de Classificação¶

Na aula anterior, o target era um número contínuo. Aqui, o target representa uma categoria.

Exemplos:

spam ou não spam
fraude ou normal
doente ou saudável

Isso muda duas coisas centrais:

o modelo agora precisa separar classes, não ajustar uma reta a valores contínuos
a avaliação deixa de ser "o erro médio foi pequeno?" e passa a ser "que tipo de erro o modelo está cometendo?"

Regressão vs Classificação¶

Tipo de problema	Saída esperada	Exemplo
Regressão	valor contínuo	preço de uma casa
Classificação binária	uma entre duas classes	spam ou não spam
Classificação multiclasse	uma entre várias classes	espécie de flor

Nesta aula, o foco é classificação binária. Ou seja, o modelo classifica a entrada entre dois rótulos.

O que significa errar em classificação¶

Em regressão, o modelo tenta prever um valor contínuo. Portanto, errar em problemas de regressão quer dizer "quão longe da amostra real um erro de +10 e um erro de +100 diferem em magnitude.

Em classificação, o foco costuma ser outro: que lado da fronteira o modelo escolheu.

Isso produz quatro casos possíveis:

verdadeiro positivo
verdadeiro negativo
falso positivo
falso negativo

Esses quatro casos são a base de praticamente toda avaliação de classificadores.

Exemplo¶

Imagine um modelo que detecta fraude:

verdadeiro positivo: marcou fraude e era fraude
verdadeiro negativo: liberou e era normal
falso positivo: bloqueou uma operação legítima
falso negativo: deixou passar uma fraude real

Pergunta: considerando os 4 casos, por que analisar somente o percentual de acerto do modelo pode ser simplista?

O percentual de acerto (acurácia) junta todos os acertos e erros em um único número e esconde que tipo de erro o modelo está cometendo.

Um modelo pode ter acurácia alta e ainda assim falhar justamente no erro mais grave do problema. Por exemplo, pense o que poderia acontecer se um modelo de classificação de tumores (benigno ou maligno) devolver um falso negativo.

Fechamento¶

Até aqui, a estrutura do problema está clara:

temos classes, não valores contínuos
o modelo precisa produzir uma decisão
errar em problemas de regressão é diferente de errar em problemas de classificação

Mas como de fato isso funciona?