En los últimos años, Photobox ha emprendido un viaje para unificar su plataforma de comercio electrónico. A principios de 2022, la empresa se fusionó con Albelli y, dice Alex Hibbit, director de ingeniería de confiabilidad del sitio en Photobox, espera construir una base sólida para las diferentes marcas del grupo.
La TI de Photobox se basa en una arquitectura de microservicios, que se ejecuta en la nube pública de Amazon Web Services (AWS). Durante el fin de semana del Black Friday y el Cyber Monday de cada año, el pico absoluto de negociación de la empresa es de cinco a seis veces su actividad normal.
Los eventos de compras pico duran un período prolongado debido a la naturaleza del negocio de Photobox. Los clientes que deseen comprar productos personalizados basados en fotografías, como libros, calendarios, impresiones y obsequios, carguen imágenes digitales en el sitio web y, durante un período prolongado, personalicen el diseño de su producto elegido y luego procedan a pagar.
Esto ejerce una presión significativamente mayor sobre las plataformas de back-end que ejecutan el negocio de Photobox, en comparación con otros minoristas donde el viaje del cliente desde la selección del producto hasta el pago ocurre en cuestión de minutos.
Juntando las piezas del rompecabezas
Monitorear todos los aspectos de la plataforma es clave, pero cuando Hibbit se unió a Photobox hace cuatro años, cada equipo de desarrolladores utilizó sus propias herramientas de monitoreo. “Cuando me uní, teníamos 10 herramientas de monitoreo separadas”, dice.
En términos de obtener una visión general de la confiabilidad de la plataforma, dice que cada herramienta cubrió una parte individual de la imagen completa, que es uno de los desafíos de una arquitectura de microservicios. “Desea dar a los equipos la libertad de elegir sus herramientas, pero esto a menudo puede conducir a la proliferación de herramientas en toda la organización, que es lo que sucedió dentro de Photobox”, dice.
Según Hibbit, de forma aislada, una herramienta de observabilidad que se envuelve en torno a un microservicio específico puede funcionar perfectamente bien. “El desafío”, dice, “es cuando cruzas los límites entre diferentes microservicios”. Por ejemplo, el viaje de la experiencia del cliente en Photobox toca al menos tres servicios front-end diferentes. También requiere otra docena o más de servicios de back-end.
A menudo, en la ingeniería de confiabilidad del sitio, el equipo analiza la experiencia del cliente de extremo a extremo. Pero, como señala Hibbit, el viaje de un cliente en Photobox ocurre durante un período de tiempo prolongado.
“Si necesita crear un libro de fotos, dedique su tiempo a crearlo”, dice. “Podrías hacer esto en un par de horas, pero si realmente quieres crear algo especial, donde estás poniendo mucho amor y esfuerzo en producir un álbum de fotos, puede tomar una semana trabajando un par de horas cada uno. noche.”
Este es el desafío al que se enfrenta Photobox cuando se trata de la observabilidad con equipos que utilizan diferentes herramientas. “Se vuelve imposible rastrear un recorrido del cliente como este, que se extiende durante un largo período de tiempo a través de 10 herramientas diferentes”, dice.
A esto se enfrentó Hibbit cuando vivió su primer Black Friday en Photobox hace cuatro años. “Prácticamente me tiraba de los pelos porque no podía tener suficientes ventanas abiertas a través de nuestras diferentes herramientas”, dice.
Cada vez que necesitaba verificar un problema en particular, como si un cliente planteaba un problema con el sitio, Hibbit descubrió que tenía que usar las herramientas de monitoreo que los desarrolladores habían implementado originalmente para observar los microservicios que habían desarrollado. Este seguimiento manual del viaje del cliente sería imposible de escalar y es un problema que no se puede resolver simplemente contratando más ingenieros de confiabilidad del sitio.
“No se podía esperar que un ingeniero relativamente nuevo comprendiera el viaje del cliente cuando es tan difícil instrumentar nuestra pila”, dice. “Es posible que tenga datos provenientes de una herramienta que es diferente a otra herramienta, y no tiene forma de comparar estos datos. Es un problema de manzanas y naranjas”.
mirando el panorama general
Photobox ahora ha presentado Dynatrace para proporcionar estandarización para la observabilidad de sus microservicios. Hibbit dice que la herramienta permite que Photobox tenga un enfoque común para observar diferentes microservicios.
La compañía también está utilizando la inteligencia artificial (IA) en Dynatrace para automatizar alertas cuando se supera un nivel de umbral en la confiabilidad del sitio.
“No tenemos que crear alertas personalizadas y umbrales personalizados”, dice Hibbit. “Davis, la IA en Dynatrace, es muy bueno para comprender automáticamente cómo es nuestra línea de base para servicios particulares. Evalúa las tasas de error y la cantidad de llamadas que pasan por diferentes servicios para crear una imagen del estado general de la plataforma Photobox”.
Uno de los desafíos que enfrenta un ingeniero de confiabilidad del sitio cuando se trata de múltiples alertas es decidir qué áreas de degradación del rendimiento priorizar. “Nuestro enfoque es tratar de tomar decisiones basadas en datos”, dice Hibbit.
Cuando se prepara para el pico de actividad del comercio electrónico durante el Black Friday y el Cyber Monday, dice que Photobox ejecuta una prueba de carga al 150 % del volumen de actividad que espera. “Mejoramos nuestro sitio y vemos qué sucede. Hacemos esto en vivo, por lo que tiene el potencial de impactar a los clientes, pero somos muy cuidadosos en términos de asegurarnos de proteger la experiencia del cliente”, dice Hibbit.
Dynatrace brinda a Photobox la capacidad de medir en tiempo real lo que les sucede a los clientes cuando cargan imágenes y crean álbumes de fotos y otros regalos fotográficos. “El pico nos ayuda realmente a enfocarnos en dónde queremos optimizar las cosas”, dice Hibbit. “Entonces, en el caso de este pico, descubrimos que nuestro servicio de tienda estaba comenzando a ralentizarse, lo que obviamente tiene un gran impacto para un cliente”.
Al utilizar los datos de observabilidad de Dynatrace, Photobox pudo comprender el impacto que estaba teniendo esta desaceleración. Dado que el equipo responsable del servicio de taller tenía una gran cantidad de trabajo atrasado, Dynatrace permitió que el equipo de ingeniería del sitio demostrara el impacto de este problema en particular. Luego, el equipo podría estimar cuántos clientes se verían afectados, lo que le daría a la empresa la capacidad de evaluar el impacto comercial y permitir que los tomadores de decisiones prioricen el trabajo requerido.