
Por Victor Schmidt
O teste A/B, definido da forma mais básica, é uma maneira de comparar duas versões de algo para descobrir qual tem melhor desempenho. É uma ótima maneira de entender rapidamente uma pergunta que você tem, mas se feito de maneira errada pode levar a conclusões totalmente equivocadas.
Você inicia um teste A/B decidindo o que deseja testar. Um exemplo simples: o tamanho do botão de compra em seu e-commerce. Depois disso, você precisa saber como deseja avaliar seu desempenho. Nesse caso, digamos que sua métrica seja o número de visitantes que clicam no botão.
Para executar o teste, você mostra a dois conjuntos de usuários as diferentes versões (onde a única diferença é o tamanho do botão) e determina qual delas influenciou mais sua métrica de sucesso. Feito isso, identifique qual tamanho de botão fez com que mais visitantes clicassem.
O teste A/B pode ser considerado o tipo mais básico de experimento controlado randomizado. Sabendo disso, vem a primeira coisa que deve ser garantida: os usuários devem ser atribuídos aleatoriamente quando visitam o site. Para isso devemos usar ferramentas que garantam essa randomização. Aliás, é importante não confundir aleatoriedade com bagunça.
No exemplo do e-commerce, se um grupo tiver mais visitas de mobile que outro, isso pode gerar um resultado inválido. Então, para garantir a fidelidade do teste, o analista deve primeiro garantir que variáveis importantes sejam isoladas, nesse caso, dividir os usuários por celular e desktop para depois atribuí-los aleatoriamente a cada versão. Isso na estatística é chamado de bloqueio.
Segundo ponto importante: como em todos os experimentos controlados randomizados, você deve estimar o tamanho necessário da amostra para alcançar uma significância estatística e garantir a validade do resultado.
Terceiro ponto é dar tempo ao teste. Muitas pessoas ao verem resultados parciais, inferem resultados e interrompem antes da hora. Como estamos trabalhando com amostras randomizadas, não podemos esquecer que teremos oscilação nos perfis ao longo do tempo.
Quarto ponto, e um erro muito cometido, é olhar para muitas métricas. Fazendo isso, você pode acabar encontrando uma correlação que não existe. Defina de início uma métrica e foque nela.
Finalmente, faça reteste. É importante analisar os resultados e fazer um novo teste depois de um período para se certificar de que a conclusão é válida.