Teste A/B

Visão geral

Teste A/B é uma técnica de validação usada para validar impacto mensurável de uma mudança em comportamento real, separando preferência interna de resultado observado em usuários. A utilidade dela está menos no ritual em si e mais na forma como ajuda o time a transformar uma dúvida de projeto em evidências, decisões ou próximos passos observáveis.

Ela faz sentido quando há tráfego suficiente, métrica primária clara, hipótese causal específica e risco aceitável de expor usuários a variações simultâneas. Ao aplicar Teste A/B, o time deve chegar a resultado estatístico por variante, Estimativa de efeito na métrica, Decisão de lançar, descartar ou iterar e Registro de aprendizado para próximos experimentos, mantendo rastreabilidade entre o que foi observado, o que foi decidido e quais limites ainda precisam ser considerados.

Como entra no fluxo

Teste A/B entra quando já existe uma pergunta de trabalho clara e o time precisa conduzir uma atividade estruturada antes de avançar para decisão, protótipo, priorização ou entrega.

Atenção ao usar

Não explica motivação do usuário sozinho.

Combina bem com

Usability Test

Para que serve

Validar impacto mensurável de uma mudança em comportamento real, separando preferência interna de resultado observado em usuários.

Quando usar

Use quando há tráfego suficiente, métrica primária clara, hipótese causal específica e risco aceitável de expor usuários a variações simultâneas.

Contexto

Objetivos

testar

decidir

Outputs

decisao

insight

Situações ideais

alta incerteza

Como executar

Pré-requisitos

Hipótese clara com direção esperada de impacto
Métrica primária e métricas de guarda definidas antes do teste
Tráfego suficiente para amostra mínima
Instrumentação confiável de eventos e conversões

Materiais

Ferramenta de experimento ou feature flag
Dashboard de métricas por variante
Critério de parada definido antes do início
Plano de rollback para variação com impacto negativo

Passo a passo

1Formule hipótese, população-alvo e métrica primária.
2Calcule amostra/duração mínima ou defina critério estatístico aceito.
3Implemente variações mudando o mínimo necessário para isolar efeito.
4Distribua tráfego aleatoriamente e monitore métricas de guarda.
5Analise resultado apenas após atingir critério de parada.
6Documente decisão, efeito observado, limitações e próximos testes.

Critérios de qualidade

A hipótese está formulada com direção esperada e métrica primária definida antes do início do teste
A amostra mínima necessária foi calculada com poder estatístico e nível de significância documentados
Apenas uma variável é alterada entre controle e variação para isolar o efeito causal
Métricas de guarda foram monitoradas durante o teste para detectar impactos negativos colaterais

Dicas

Não encerre teste cedo por variação momentânea.
Evite rodar vários testes concorrentes no mesmo público sem controle.
Use métricas de guarda para não otimizar conversão às custas de qualidade.
Combine com pesquisa qualitativa quando o resultado mostrar o quê, mas não o porquê.

Antes (entradas)

Hipótese de melhoria
Métrica primária e métricas de guarda
Variações implementadas
Estimativa de amostra ou duração

Depois (saídas)

Resultado estatístico por variante
Estimativa de efeito na métrica
Decisão de lançar, descartar ou iterar
Registro de aprendizado para próximos experimentos

Variações

Teste A/A

Experimento onde duas versões idênticas são testadas entre si para validar a instrumentação e detectar variações espúrias antes de rodar testes reais.

Teste Multivariado (MVT)

Variação que testa múltiplas combinações de elementos simultaneamente para identificar interações entre variáveis, exigindo tráfego significativamente maior.

Teste de Rampa Gradual

Exposição progressiva da variação para percentuais crescentes do tráfego, reduzindo risco de impacto negativo em larga escala durante experimento.

Teste de Holdout

Reserva um grupo de usuários sem acesso à mudança por período prolongado para medir efeito de longo prazo além da janela do experimento original.

Uso estratégico

Quando evitar

Tráfego ou conversão insuficiente para amostra mínima
Mudança muito ampla que mistura várias causas possíveis
Contexto de alto risco sem rollback
Objetivo qualitativo que exige compreensão profunda

Limitações

Não explica motivação do usuário sozinho
Pode demorar em produtos com baixo volume
Depende de instrumentação confiável
Resultados podem não generalizar para outro público ou período

Riscos

Peeking: parar cedo por falso positivo
Escolher métrica depois de ver o resultado
Ignorar efeitos negativos em métricas secundárias
Rodar teste com bugs diferentes entre variantes

Exemplos de uso

01Comparar duas mensagens de onboarding medindo ativação em 7 dias.
02Testar ordem de campos no checkout medindo conclusão de compra.
03Validar novo CTA em página de preço com métrica de cadastro qualificado.

Perfis responsáveis

Product Manager

Analista de Dados

Desenvolvedor(a) / Tech Lead

Também conhecido como

Teste DivididoSplit TestingExperimento ControladoA/B Experiment

Referências e leitura

Livros

Trustworthy Online Controlled Experiments – Ron Kohavi

Artigos

Ferramentas

Evan Miller's A/B Testing Sample Size Calculator

Cursos

A/B Testing – Udacity (Introduction to A/B Testing)

Links de livros podem ser links de afiliado Amazon. Sua compra apoia o projeto sem custo adicional.

Ajude a melhorar este conteúdo

Encontrou erro, lacuna técnica ou exemplo fraco? Envie uma correção com contexto para revisão.