La empresa de servicios digitales de difusión Cognacq-Jay Image ha implementado almacenamiento NAS escalable de Qumulo. Una atracción clave sobre sus competidores fue la supervisión y el control minuciosos de la configuración, especialmente para su uso con aplicaciones que manejan una gran cantidad de archivos y con escalas de tiempo ajustadas dictadas por los clientes.
“Todos los días recibimos varios TB de video que debemos procesar y devolver, con fechas límite dictadas por los horarios de los canales”, dijo Michel Desconnets, director de TI de Cognacq-Jay Image. “Tenemos que mantener el rendimiento, pero dependemos tanto del rendimiento como de la precisión del proceso”.
El trabajo de Cognacq-Jay Image consiste en trabajos de postproducción en programas de televisión como agregar créditos, publicidad o subtítulos. Pero ahora que la mayor parte de la televisión se realiza a través de canales digitales, la mayor parte del trabajo ahora está relacionado con las TI, y cada video debe transcodificarse a una variedad de formatos para múltiples decodificadores y aplicaciones.
“Para las noticias de televisión, por ejemplo, recibimos imágenes grabadas recientemente y las enviamos con el formato correcto después de 10 minutos”, dijo Desconnets. “Pero para una película de alta resolución, puede haber varias horas de procesamiento de conversión. Algunos clientes nos envían su video en el último minuto; otras semanas antes.
“La cantidad de formatos varía según el cliente. Algunos videos necesitan la adición de administración de derechos digitales [DRM], por ejemplo. Tenemos que tener en cuenta todas estas cosas y gestionar las prioridades de numerosos trabajos en un momento dado en nuestros sistemas. Es un proceso muy complejo “.
Los clientes van desde pequeños canales independientes hasta grandes grupos de medios. Algunos clientes realizan parte del procesamiento internamente, mientras que otros no.
Algunos exigen que Cognacq-Jay Image conserve una infraestructura dedicada para su trabajo. Es por esa razón que la compañía ha visto las plataformas multiplicarse en su centro de datos, con NAS de escalamiento horizontal de Isilon (Dell EMC) y almacenamiento de objetos de Scality.
El desafío de los plazos ajustados
En 2020, un cliente anónimo quería agregar a sus trabajos de producción, pero la matriz Scality utilizada no ofrecía las características de carga de trabajo requeridas. “Era una matriz de 300 TB y un rendimiento admitido de 2,5 GBps”, dijo Desconnets. “La capacidad no fue un problema porque se dedicaron 60 TB a la producción, y el resto se encargó del archivo a medida que se enviaba al cliente.
“Nuestra principal preocupación era el rendimiento. Necesitábamos 3GBps para escrituras más 1GBps para exportar los archivos finales “.
Desconnets agregó: “Los servidores que ejecutan la transcodificación admiten grandes cantidades de ancho de banda y escriben una gran cantidad de archivos en paralelo. Pero si sus tiempos de escritura son un 20% menos eficaces que su velocidad de procesamiento, eso retarda otros procesos. El problema es que no sabemos cuáles ralentizan todo el proceso.
“En otras palabras, más allá de un simple cuello de botella técnico, no sabíamos cómo reaccionar rápidamente a los problemas. Y, sin embargo, problemas como estos (un error en la transcodificación, un archivo defectuoso, etc.) son muy frecuentes y requieren una vigilancia extrema de nuestra parte “.
A mediados de 2020, Desconnets y su equipo comenzaron a buscar una nueva configuración de almacenamiento. “En toda su oferta, Scality fue más capaz de ofrecer capacidad que velocidad de acceso”, dijo. “En otras palabras, sus soluciones significaban que tendríamos que comprar muchos servidores para compensar la latencia.
“Con Isilon, el ancho de banda era un problema menor. Pero es muy difícil monitorear la actividad en una matriz de Isilon, en particular cuando intenta diagnosticar problemas planteados por archivos pequeños, archivos grandes, etc. ”
Software de almacenamiento Qumulo en hardware HPE
Durante el proceso de investigación, Desconnets se encontró con Qumulo. “Sugirieron que probamos algunas máquinas durante un par de meses”, dijo. “Pudimos validar que su solución contenía API muy ricas [application programming interfaces] eso nos permitiría escribir scripts extensos y tener procesos de prueba listos para usar “.
El pedido de Qumulo se realizó durante el último trimestre de 2020. Qumulo es un producto de software y se compró a través de HPE, que suministró hardware preconfigurado que comprendía seis servidores Apollo de 2U con 36 TB de capacidad de almacenamiento.
Qumulo es parte de una nueva ola de NAS de escalamiento horizontal y productos de almacenamiento distribuido que buscan abordar la creciente necesidad de almacenar datos no estructurados, a menudo en la nube y en el centro de datos del cliente.
El pedido se completó con dos conmutadores de 1U. Además de conectar los nodos de Qumulo, los conmutadores permitieron cuatro conexiones de 10GBps a los servidores de transcodificación, que comprendían unas 30 máquinas Windows.
“Los servidores de transcodificación están conectados al mismo cliente y eso planteó la pregunta de si optar por una infraestructura hiperconvergente [HCI] con computación y almacenamiento en el mismo nodo ”, dijo Desconnets. “Pero HCI no se adapta a nuestras necesidades donde la computación es independiente de la capacidad de almacenamiento. Queremos poder agregar a uno sin necesariamente agregar al otro.
“Nuestros procesos también pasan por nuestros servidores de exportación, que no están dedicados a clientes específicos y, por lo tanto, requieren una infraestructura separada”.
Los componentes estaban en su lugar a fines de 2020, dijo Desconnets. “Necesitábamos ponerlo en producción desde principios de 2021, pero un cliente aumentó su carga de trabajo justo antes de Navidad. Entonces, decidimos acelerar la migración. Al final, completamos las pruebas de producción en dos días “.
Y luego, la solución se descarriló. Al principio, todo salió como imaginó Cognacq-Jay Image. Pero dos meses después, tuvo un inconveniente.
“En febrero de 2021, de repente notamos que se estaban formando colas”, dijo Desconnets. “Un archivo que se hubiera enviado en una hora tomó dos, o incluso tres horas cuando se transcodifica a algunos formatos. Las herramientas de monitoreo de Qumulo revelaron latencias aumentadas en 100x. Pero eso no significaba que supiéramos si el problema era con los discos, el software o nuestras herramientas.
“Así que aprovechamos la funcionalidad de la API que nos permite obtener un monitoreo en tiempo real. Como resultado de eso, me di cuenta de que si apagaba algunos transcodificadores, todo iba más rápido y eso significaba que, paradójicamente, el trabajo en paralelo era contraproducente “.
Desconnets pronto comprendió que el problema tenía que ver con la forma en que se organizaba el procesamiento. “Habíamos tomado la decisión de transcodificar todos los archivos en un formato inicial, luego ponerlos en un segundo formato, etc.”, dijo. “Pero al hacer esto, tuvimos que cargar y descargar archivos en la caché con cada ejecución de transcodificación”.
Explicó que la caché constaba de 1 TB en cada nodo, con 6 TB en total, por lo que no era suficiente para almacenar todos los archivos mientras se procesaban.
“La mejor práctica es transcodificar un archivo en todos los formatos posibles y luego pasar al siguiente archivo”, dijo Desconnets. “Lo que teníamos que hacer era transcodificar un archivo y sacarlo lo más rápido posible, en lugar de hacer muchos al mismo tiempo”.
Oportunidad de monitoreo granular
Desconnets está orgulloso del sistema de monitoreo que ha construido para la implementación de Qumulo de la compañía. Comprende Zabbix para recopilar métricas, Kibana para analizar registros y Grafana, que crea visualizaciones gráficas.
“Implementé una consola que nos permitió profundizar en la procedencia de cada operación”, dijo Desconnets. “Este sistema de seguimiento nos permite resolver todos los problemas en menos de una semana. Al cabo de dos semanas, optimizamos todas las configuraciones e incluso descubrimos errores que habían existido durante mucho tiempo en nuestros procesos y logramos solucionarlos “.
Desde entonces, el equipo ha agregado dos nodos Apollo más. La capacidad bruta ha aumentado a 288 TB (210 TB utilizables), y el resto se ha dedicado a la redundancia. “En promedio, usamos 100 TB al día, pero a veces eso equivale a 180 TB un día y 85 TB al día siguiente”, dijo Desconnets. “Este no es un almacenamiento que crece gradualmente, sino que se llena y se vacía todo el tiempo.
“Sin embargo, nuestro grupo de Qumulo ha funcionado como un reloj. Las métricas siguen permitiéndonos monitorear la actividad del cliente. Por ejemplo, hemos visto dónde las operaciones no se han completado con la suficiente rapidez y eso nos ha permitido resolver los cuellos de botella “.