Underbee

Análisis AB y su relevancia en la toma de decisiones

Las empresas están siempre a la caza de cómo mejorar sus productos y servicios para estar al tanto de lo que los usuarios realmente quieren.

Para lograr esto, una de las herramientas más populares es el experimento A/B, un método de prueba que compara dos versiones de una página web, aplicación o cualquier elemento digital para determinar cuál funciona mejor en términos de una métrica clave, como la tasa de conversión, el tiempo de permanencia o el ingreso por usuario. Este proceso es esencialmente un experimento controlado, donde un grupo de usuarios interactúa con la versión actual (control) mientras que otro grupo interactúa con una versión modificada (tratamiento). 

A lo largo de este texto, exploraremos en detalle cómo se ejecuta un experimento A/B, los aspectos técnicos y estadísticos que se deben considerar, y cómo interpretar los resultados de manera efectiva para tomar decisiones de negocio informadas.

Paso 1: Definición del objetivo del experimento

El primer paso para realizar un experimento A/B es definir claramente el objetivo del experimento. Es decir, ¿Qué se quiere mejorar o probar con la nueva versión del algoritmo, diseño o función? 

Esta parte es clave porque un experimento sin un objetivo claro carece de sentido y puede llevar a interpretaciones incorrectas de los resultados. Por ejemplo, si una empresa quiere mejorar la tasa de conversión de su tienda online, puede optar por cambiar el diseño de su botón de «comprar», modificar el flujo de pago o probar un nuevo algoritmo de recomendación de productos.

Una vez definido el objetivo, se debe establecer una métrica de éxito, que es el parámetro específico que se va a medir. En el ejemplo anterior, la tasa de conversión sería una métrica lógica, ya que se busca observar cuántos usuarios pasan de navegar por la tienda a realizar una compra efectiva. Sin embargo, pueden existir otras métricas relevantes, como el valor promedio del carrito de compras o la cantidad de tiempo que un usuario pasa en el sitio antes de tomar la decisión de compra.

En muchos casos, también se pueden establecer métricas secundarias o métricas de guarda. Estas son métricas que ayudan a detectar posibles efectos negativos de los cambios propuestos, como un aumento en el tiempo de carga de la página o una disminución en el número de usuarios que regresan al sitio después de su primera visita. En resumen, al definir claramente los objetivos y las métricas de éxito, se sientan las bases para un experimento bien diseñado.

Paso 2: Selección de usuarios para el experimento

Una vez que se han definido los objetivos del experimento, el siguiente paso es seleccionar a los usuarios que participarán en el mismo. Aquí es importante decidir en qué punto del proceso de interacción se va a permitir que los usuarios participen. En muchos casos, se busca que los usuarios ya hayan comenzado a realizar una acción específica, como buscar un producto o agregar algo al carrito de compras, ya que esto asegura que el experimento mide el impacto de los cambios en usuarios que ya están comprometidos con el proceso.

Esta selección es crucial porque el experimento A/B necesita exponer a los usuarios al tratamiento (nueva versión) o al control (versión actual) de manera aleatoria y equitativa. La aleatorización es fundamental para evitar sesgos en los resultados. Sin embargo, aquí pueden surgir desafíos técnicos, como la necesidad de asegurarse de que los usuarios no cambien de grupo una vez que hayan sido asignados a uno de los dos. En otras palabras, un usuario que haya sido asignado al grupo de control debe continuar viendo la versión actual, mientras que un usuario en el grupo de tratamiento debe ver únicamente la nueva versión. Además, es importante definir el tamaño de la muestra para el experimento. 

La fórmula general que se utiliza para calcular el tamaño de la muestra es:

n ≈
16 · σ2Δ2

Donde Delta representa la diferencia esperada en la métrica clave entre el tratamiento y el control. 

Esta fórmula se basa en la suposición de que el nivel de significancia es del 5% y el poder estadístico es del 80%. Esto significa que se quiere tener una alta probabilidad de detectar una diferencia real entre el control y el tratamiento si esta diferencia realmente existe, mientras que también se minimiza la probabilidad de encontrar una diferencia donde no la hay (error tipo I).

Paso 3: Duración del experimento

Con los usuarios seleccionados y el tamaño de la muestra definido, el siguiente paso es determinar la duración del experimento. En términos generales, los experimentos A/B se deben ejecutar durante un mínimo de una semana y, en muchos casos, hasta dos semanas o más. Esto se debe a que es importante capturar las variaciones en el comportamiento de los usuarios a lo largo de los días. Por ejemplo, los usuarios pueden interactuar de manera diferente con un sitio web durante los fines de semana que durante los días laborales. Si un experimento se ejecuta solo durante los días laborales, se corre el riesgo de obtener resultados sesgados que no representan el comportamiento típico de los usuarios.

La duración del experimento también está ligada al tamaño de la muestra. Cuantos más usuarios participen en el experimento, menor será el tiempo necesario para obtener resultados estadísticamente significativos. Por otro lado, si el número de usuarios es limitado, el experimento necesitará más tiempo para recoger suficientes datos y poder detectar diferencias entre el control y el tratamiento.

Es crucial que, una vez que se haya determinado la duración del experimento, no se haga «pico» o se revisen los resultados de manera temprana. Esto significa evitar mirar el valor P o tomar decisiones antes de que el experimento haya finalizado. Si se interrumpe el experimento antes de tiempo, se corre el riesgo de obtener resultados que no sean representativos debido a la variabilidad en los datos cuando se trabaja con muestras pequeñas.

Paso 4: Ejecución del experimento

Una vez que se ha establecido la duración, es momento de ejecutar el experimento. En este punto, se utilizan plataformas de experimentación que permiten recoger datos de los usuarios y realizar un seguimiento de cómo interactúan con el sitio web o aplicación en cuestión. Las plataformas de experimentación modernas, como Visual Website OptimizerOptimizely o incluso herramientas internas personalizadas, facilitan la recopilación de datos y el análisis de los mismos.

Un aspecto importante a tener en cuenta durante la ejecución del experimento es no hacer ajustes en tiempo real. Es decir, se debe evitar la tentación de modificar la versión del tratamiento o hacer cambios en el diseño del experimento mientras este está en marcha. Este tipo de cambios pueden introducir nuevos factores que distorsionen los resultados y hagan que el experimento pierda su validez.

Es común que los experimentos A/B se ejecuten de manera automatizada y que los datos se vayan recolectando de forma continua. A medida que se recogen los datos, es fundamental no caer en la tentación de interrumpir el experimento por los primeros resultados favorables o desfavorables, sino esperar a que el experimento haya completado la duración establecida antes de sacar conclusiones.

Paso 5: Validación de los resultados

Una vez que el experimento ha finalizado, es importante realizar una serie de comprobaciones de validez para asegurarse de que los resultados obtenidos son fiables. Estas comprobaciones incluyen revisar si hubo algún problema técnico, como errores en la asignación de usuarios al grupo de control o tratamiento, o si hubo factores externos que pudieron haber influido en los resultados.

Por ejemplo, si el experimento se llevó a cabo durante un periodo de festividades o en medio de un lanzamiento importante por parte de un competidor, estos factores podrían haber afectado el comportamiento de los usuarios y, por lo tanto, los resultados del experimento. Además, factores más generales, como una recesión económica o una pandemia global, también pueden alterar significativamente la manera en que los usuarios interactúan con un producto.

Otra validación importante es comprobar si hay sesgos de selección en el experimento. Esto significa asegurarse de que los usuarios asignados al grupo de control y al grupo de tratamiento son, en promedio, similares entre sí antes de ser expuestos al tratamiento. Una manera de hacer esto es realizar una prueba AA, que consiste en dividir a los usuarios en dos grupos (sin aplicar ningún tratamiento) y verificar que no haya diferencias significativas entre ellos en cuanto a las métricas clave.

Un problema común en los experimentos A/B es el desequilibrio en la asignación de usuarios. Si bien lo ideal es que el 50% de los usuarios esté en el grupo de control y el 50% en el grupo de tratamiento, puede haber casos en los que la asignación no sea perfectamente equitativa. Para evitar que esto afecte los resultados del experimento, se puede realizar una prueba estadística, como la prueba de chi-cuadrado, para asegurarse de que las diferencias en la asignación son lo suficientemente pequeñas como para no influir en los resultados.

Paso 6: Interpretación de los resultados

Después de validar que el experimento fue ejecutado correctamente y que no hay sesgos significativos, es momento de interpretar los resultados. Para hacerlo, es fundamental observar tanto el valor P como los intervalos de confianza asociados a los resultados.

El valor P indica la probabilidad de observar los resultados obtenidos si no hubiera una diferencia real entre el control y el tratamiento. Si el valor P es menor a 0.05, se considera que los resultados son estadísticamente significativos, lo que significa que es poco probable que la diferencia observada sea producto del azar. Sin embargo, un valor P bajo no es suficiente por sí solo para concluir que el tratamiento es mejor que el control; también es necesario observar el tamaño del efecto, es decir, cuán grande es la mejora.

Por ejemplo, en un experimento donde la métrica clave es el ingreso promedio por usuario (ARPU), se podría observar un aumento de 25€ a 26.10€, lo que representa una mejora del 4.4%. Si este resultado es estadísticamente significativo (valor P < 0.05), se puede concluir que la nueva versión probablemente genere más ingresos que la versión actual. Sin embargo, también es importante considerar si este aumento es prácticamente significativo, es decir, si justifica los costos y esfuerzos necesarios para implementar la nueva versión.

Además de observar el valor P, es fundamental considerar los intervalos de confianza. Un intervalo de confianza más estrecho indica una mayor precisión en la estimación del tamaño del efecto. Por ejemplo, si el intervalo de confianza para la diferencia en el ARPU es de 0.50€ a 1.50€, esto sugiere que el tamaño del efecto está dentro de ese rango con un 95% de probabilidad. Sin embargo, si el intervalo es muy amplio, como de 0.10€ a 4.00€, esto indicaría que hay mucha incertidumbre sobre el tamaño real del efecto.

Paso 7: Decisión de lanzamiento

Finalmente, después de analizar los resultados, llega el momento de tomar una decisión. En algunos casos, los resultados del experimento serán claros, con un tratamiento que supera significativamente al control en la métrica clave sin efectos secundarios negativos en las métricas secundarias. En otros casos, los resultados pueden ser menos concluyentes o incluso contradictorios.

A la hora de decidir si se implementa o no el cambio probado en el experimento, es importante considerar los siguientes factores:

  • Impacto en las métricas de éxito y secundarias: Aunque el tratamiento puede haber mejorado la métrica clave, también es necesario asegurarse de que no haya afectado negativamente otras métricas importantes.

  • Costos y beneficios: Si bien un pequeño aumento en la métrica clave puede parecer positivo, también es importante evaluar si el costo de implementar el cambio justifica la mejora obtenida. Por ejemplo, si se requiere una gran inversión de tiempo y recursos para implementar la nueva versión, es posible que no valga la pena si el beneficio es marginal.

  • Riesgo de falso positivo: Existe el riesgo de que los resultados obtenidos sean un falso positivo, es decir, que indiquen una mejora que realmente no existe. Esto puede ocurrir si el experimento fue mal diseñado o si los resultados fueron interpretados de manera incorrecta. Por esta razón, es importante tener un enfoque conservador y asegurarse de que los resultados son robustos antes de proceder con el lanzamiento.

Un experimento A/B bien diseñado y ejecutado puede ofrecer información valiosa para mejorar productos digitales y tomar decisiones empresariales informadas. 

Sin embargo, es fundamental seguir un enfoque riguroso, desde la definición del objetivo hasta la interpretación y toma de decisiones, para evitar conclusiones erróneas y maximizar el impacto positivo del experimento.

No hay comentarios on Análisis AB y su relevancia en la toma de decisiones

Deja tu comentario

¡Síguenos!

Estamos presentes en las principales Redes Sociales.

Solicita una cotización.
¡Sin compromiso! 💰 Bee free!

Ya sea que tengas una solicitud de cotización, necesites una consulta, o simplemente quieras conocer al equipo, escríbenos y nos comunicaremos contigo lo antes posible.

Y aquí, gente ❤️ increíble

Orgullosos y satisfechos de trabajar con ellos. Echa un vistazo por aquí >