¿Deberíamos virtualizar nuestros sistemas de ciencia de datos – o no?

¿Deberíamos virtualizar nuestros sistemas de ciencia de datos?

Configuración actual del homelab del autor

A medida que el uso de “big data” es cada vez más relevante para la resolución de problemas en todas las industrias, los repositorios de datos, tanto a escala de homelab como de data-lake, requieren una mayor potencia de cómputo paralelizado para extraer, transformar, cargar y analizar datos que nunca antes. Al crear mi propio homelab, la decisión de crear mis configuraciones paralelizadas sobre máquinas virtuales o nativamente en hardware me dejó perplejo y me costó encontrar comparaciones de rendimiento. En este artículo, exploraremos algunos de los pros y contras de cada configuración, así como un rendimiento comparativo y pruebas de referencia de cada metodología tanto virtual como nativa.

Introducción

Muchas de las agrupaciones de cálculo paralelo incluyen múltiples nodos, o computadoras designadas para procesar tareas distribuidas en un clúster. Gestionar dichos nodos puede ser un dolor de cabeza importante, de ahí por qué la Ingeniería de Datos es tan lucrativa en comparación con sus contrapartes analíticas. Normalmente, las empresas gestionarán flotas enteras de clústeres, lo que haría casi imposible prestar atención individual a nodos individuales, y en su lugar, se requieren configuraciones de “alta disponibilidad” con herramientas como Proxmox, Kubernetes y Docker Swarm para la empresa moderna. Es probable que ya hayas interactuado con estos clústeres sin darte cuenta esta semana, incluso — el sándwich de pollo que comí para el almuerzo de Chick-fil-A se cumple famosamente a través de un clúster de Kubernetes de edge-computing con su sistema de punto de venta.

Existen muchos beneficios para el cómputo en máquinas virtualizadas, incluyendo:

  • Los sistemas operativos completos se pueden implementar rápidamente desde los servidores corporativos al campo casi instantáneamente
  • Las imágenes se pueden respaldar en tiempo real
  • Las implementaciones se pueden contener para limitar el alcance y aumentar la seguridad
  • En caso de fallas de hardware, los sistemas se pueden migrar con un tiempo de inactividad mínimo

Estos no son conceptos nuevos de ninguna manera, pero con la creciente necesidad de análisis de datos en todos los niveles de las organizaciones, la forma…