Scripts de treino parecem pequenos demais para a quantidade de decisoes que carregam. Este projeto mostra bem isso.
Por trás de poucos parametros existe uma cadeia inteira de escolhas sobre arquitetura, hardware, regularizacao e custo.
Transfer Learning Primeiro
O ponto de partida e simples:
Esse carregamento de pesos pretreinados e o que torna o projeto viavel com um dataset customizado relativamente pequeno. Em vez de aprender visao do zero, o modelo adapta features ja aprendidas no COCO para as regioes das cartas.
Por Que YOLOv11n?
O repositorio toma uma decisao madura: comecar pequeno e validar o teto antes de escalar.
Faz sentido porque:
- o numero de classes e baixo
- o dataset e limitado
- velocidade de iteracao vale muito
Os experimentos de cloud confirmam isso. Modelos maiores e resolucoes maiores nao ganharam de forma consistente.
As Augmentations Têm Intencao
O documento training-strategies.md e um dos pontos mais fortes do projeto porque conecta teoria e pratica.
Mosaic
Ajuda a ampliar diversidade de contexto e a enriquecer casos de objetos pequenos.
Referencia principal: YOLOv4.

Mixup
Ajuda a reduzir overconfidence e correlacoes ruins com fundo.
Referencia principal: Zhang et al.
Multi-scale
Simula a variacao real de distancia e enquadramento da webcam.
Rotacao, perspectiva, shear, HSV e erasing
Todas essas transformacoes fazem sentido neste caso porque cartas reais aparecem inclinadas, com iluminacao variavel, parcialmente cobertas e em escalas diferentes.
Otimizacao e Estabilidade
O projeto usa AdamW, cosine LR e early stopping. O combo e coerente para fine-tuning:
- AdamW ajuda em datasets menores
- cosine decay suaviza o refinamento
- early stopping evita insistir apos o plateau
Outro ponto importante: treino local em CPU por questoes de estabilidade no stack usado com Apple Silicon. Isso e engenharia pragmatica.
Cloud Nao e Magia
Os experimentos em RunPod sao valiosos porque mostram o que muita gente prefere ignorar: mais GPU, mais resolucao e mais parametros nem sempre resolvem o problema certo.
Se annotation quality e o teto, um modelo maior pode apenas memorizar melhor esse ruido.
Conclusao
O treinamento deste detector funciona porque as escolhas combinam entre si. Nao ha fetiche por complexidade. Ha alinhamento entre dados, objetivo, hardware e avaliacao.

Na proxima parte, vamos ler as metricas como engenheiros, nao como espectadores de benchmark.
Further Reading
- Estrategias de treino:
docs/training-strategies.md - Parametros:
docs/parameters.md - Status dos experimentos:
docs/training-v2-status.md
