Atividades — Aula 0¶

Exercícios para fixar os conceitos da introdução. Não há código aqui — o objetivo é garantir que os fundamentos conceituais estejam sólidos antes de avançar.

Agora as questões são interativas: responda, clique em Enviar e use Mudar resposta sempre que quiser tentar de novo.

1. ML vs. Programação Tradicional¶

Um desenvolvedor precisa construir um sistema que identifica se uma transação bancária é fraudulenta ou não. Ele tem acesso a 2 milhões de transações históricas, cada uma já classificada como fraude ou legítima.

#

Qual é a melhor justificativa para usar Machine Learning nesse caso?

Programação tradicional é melhor porque fraudes sempre seguem regras fixas e estáveis.

Há muitos exemplos rotulados, o padrão é complexo demais para regras manuais e o modelo pode ser retreinado quando o comportamento mudar.

O melhor seria usar aprendizado por reforço, já que o sistema precisa tomar decisões em produção.

O ideal é usar clustering, porque detectar fraude sempre significa agrupar transações parecidas.

2. Classificando tipos de aprendizado¶

Considere as situações abaixo:

a) Um e-commerce quer agrupar clientes em perfis de compra sem definir os grupos antes.
b) Um hospital quer prever diabetes com prontuários já rotulados.
c) Uma empresa quer treinar um robô para navegar desviando de obstáculos.
d) Uma plataforma de streaming quer encontrar músicas parecidas para montar playlists.

#

Qual alternativa classifica corretamente os quatro casos?

3. Regressão ou Classificação?¶

Considere os problemas abaixo:

a) Prever o preço de uma ação amanhã.
b) Identificar se um tumor é maligno ou benigno.
c) Estimar quantos dias um paciente ficará internado.
d) Determinar qual dígito (0–9) está escrito numa imagem.
e) Decidir se um e-mail vai para a caixa de entrada ou para o spam.

#

Qual alternativa classifica corretamente todos os problemas?

a) regressão, b) regressão, c) classificação, d) regressão, e) classificação

a) classificação, b) classificação, c) regressão, d) regressão, e) classificação

a) regressão, b) classificação, c) regressão, d) classificação, e) classificação

a) regressão, b) classificação, c) classificação, d) classificação, e) regressão

4. O pipeline na prática¶

Um cientista de dados recebeu a tarefa de construir um modelo que prevê o valor de aluguel de apartamentos em São Paulo. Considere as etapas abaixo e identifique a sequência correta do pipeline:

Avaliar o modelo com dados que ele nunca viu
Definir a métrica de sucesso
Coletar dados de aluguéis anunciados
Retreinar com dados mais recentes se a performance cair
Tratar valores ausentes e criar features relevantes
Escolher e treinar um modelo de regressão
Explorar distribuições, correlações e outliers

#

Qual alternativa coloca essas etapas na ordem correta?

Coletar dados → escolher o modelo → tratar valores ausentes → explorar distribuições → avaliar → definir a métrica → retreinar

Definir a métrica de sucesso → coletar dados → explorar distribuições, correlações e outliers → tratar valores ausentes e criar features → escolher e treinar o modelo → avaliar em dados não vistos → retreinar se a performance cair

Definir a métrica de sucesso → tratar valores ausentes → coletar dados → treinar → explorar distribuições → avaliar → retreinar

Explorar distribuições → definir a métrica de sucesso → coletar dados → tratar valores ausentes → avaliar → treinar → retreinar

5. Identificando etapas pelo sintoma¶

Considere os sintomas abaixo e associe cada um à etapa do pipeline em que o problema apareceu:

a) O modelo vai muito bem no treino, mas falha em produção.
b) Os dados misturavam reais e dólares sem conversão.
c) O modelo de spam dizia "não spam" para tudo e mesmo assim tinha 95% de acurácia.
d) Seis meses após o deploy, a performance caiu muito sem mudança no código.

#

Qual alternativa identifica corretamente a etapa problemática em cada caso?

a) coleta de dados, b) treino, c) feature engineering, d) visualização

a) preparação, b) coleta, c) deploy, d) definição do problema

a) avaliação/generalização, b) preparação dos dados, c) escolha da métrica de avaliação, d) monitoramento e retreino em produção

a) modelagem, b) documentação, c) coleta, d) normalização

6. Fixando com Quiz¶

#

Machine Learning e Inteligência Artificial são a mesma coisa.

#

Um modelo de regressão prevê uma categoria discreta como saída.

#

Qual etapa do pipeline consome mais tempo em projetos reais?

#

No aprendizado supervisionado, o modelo aprende a partir de dados sem rótulos.

#

Retreinar o modelo com dados novos faz parte do pipeline de ML.

#

Aprendizado por reforço é o tipo mais usado em problemas de previsão de preços e classificação de e-mails.