Publicado 25/03/2024 20:58

Huawei Cloud en KubeCon EU 2024: Liberando la era inteligente con innovación continua de código abierto (1)

Dennis Gu, Chief Architect of Huawei Cloud
Dennis Gu, Chief Architect of Huawei Cloud - HUAWEI CLOUD/PR NEWSWIRE
(Información remitida por la empresa firmante)

PARÍS, 25 de marzo de 2024 /PRNewswire/ -- En KubeCon + CloudNativeCon Europe 2024, celebrado en París el 21 de marzo, Dennis Gu, arquitecto jefe de Huawei Cloud, señaló, en un discurso de apertura titulado "Cloud Native x AI: Liberando la era inteligente con innovación continua de código abierto", que la integración de las tecnologías nativas de la nube y de IA es crucial para impulsar la transformación de la industria. Huawei Cloud planea seguir innovando en proyectos de código abierto y colaborando con desarrolladores para lograr una era inteligente.

La IA plantea desafíos clave al paradigma nativo de la nube.

En los últimos años, las tecnologías nativas de la nube han revolucionado los sistemas de TI tradicionales y acelerado los avances digitales en áreas como Internet y los servicios gubernamentales. La nube nativa ha introducido nuevas posibilidades, como ventas ultrarrápidas y operaciones ágiles, como DevOps, a través de la gobernanza de microservicios. Estos cambios han tenido un impacto significativo en la vida de las personas, y el rápido crecimiento y la adopción generalizada de la IA, incluidos los modelos a gran escala, se han convertido en el núcleo de la inteligencia industrial.

Según una encuesta de Epoch realizada en 2023, la computación requerida para los modelos básicos se ha multiplicado por 10 cada 18 meses, lo que es cinco veces más rápido que la tasa de crecimiento predicha por la Ley de Moore para la computación general. El surgimiento de esta "Nueva Ley de Moore" debido a la IA y la prevalencia de modelos de IA a gran escala presenta desafíos para las tecnologías nativas de la nube. En su discurso, Dennis Gu destacó los siguientes puntos clave:

  • La baja utilización promedio de GPU/NPU aumenta el coste de la formación y la inferencia de IA.
  • Los fallos frecuentes de los grandes grupos de formación de modelos disminuyen la eficiencia de la formación.
  • La compleja configuración de modelos a gran escala exige altos requisitos de desarrollo de IA.
  • La implementación de inferencias de IA a gran escala conlleva el riesgo de retrasos impredecibles en el acceso del usuario final e implica posibles problemas de privacidad de datos.

La innovación de Huawei Cloud AI ofrece a los desarrolladores ideas para afrontar los desafíos.

Los tamaños cada vez mayores de los modelos de IA exigen más computación, lo que crea desafíos para las tecnologías nativas de la nube, pero también crea oportunidades para la innovación en la industria. Dennis Gu compartió historias sobre la innovación en IA de Huawei Cloud, ofreciendo a los desarrolladores un punto de referencia para enfrentarse a los desafíos.

Huawei Cloud utilizó KubeEdge, una plataforma informática de borde nativa de la nube, para crear una plataforma de gestión y programación de múltiples robots. Con esta plataforma, los usuarios pueden usar comandos en lenguaje natural para indicarle a la plataforma qué hacer, y el sistema coordinará múltiples robots en el borde para realizar tareas complejas. El sistema está diseñado con una arquitectura de tres partes (nube, nodo perimetral y robot) para abordar desafíos como la comprensión del lenguaje natural, la programación y gestión eficientes de múltiples robots y la gestión del acceso de robots de tipo cruzado. Utiliza modelos grandes para ejecutar comandos en lenguaje natural y realiza predicciones de tráfico, asignación de tareas y planificación de rutas. La arquitectura de tres partes mejora en gran medida la flexibilidad de la plataforma robótica, mejora la eficiencia de la gestión en un 25 %, reduce el tiempo necesario para la implementación del sistema en un 30 % y reduce el tiempo necesario para implementar nuevos robots de meses a días.

Para una plataforma de intercambio de contenido líder en China, que tiene más de 100 millones de usuarios activos por mes, su servicio principal son las recomendaciones en la página de inicio. Esta característica está impulsada por un modelo con casi 100 mil millones de parámetros. Para entrenar este modelo, la plataforma utiliza un clúster de capacitación con miles de nodos informáticos, incluidos cientos de ps y trabajadores para una única tarea de capacitación. Por lo tanto, existe una gran demanda de una mejor programación de topología, alto rendimiento y alta rentabilidad. Volcano, un proyecto de código abierto, mejora el soporte para cargas de trabajo de inteligencia artificial o aprendizaje automático en Kubernetes y ofrece una variedad de políticas de programación avanzada y gestión de trabajos. Volcano incorpora algoritmos como programación basada en topología, empaquetado de contenedores y programación basada en acuerdos de nivel de servicio (SLA), lo que resulta en una mejora del 20 % en el rendimiento general de la formación y una reducción significativa en la complejidad de operación y mantenimiento de la plataforma.

La IA sin servidor está a la vanguardia del desarrollo nativo de la nube.

Muchas empresas y desarrolladores se enfrentan al desafío de ejecutar aplicaciones de IA de manera eficiente y fiable, minimizando al mismo tiempo los costes operativos. Huawei Cloud ha desarrollado una solución a este problema identificando los requisitos clave de las plataformas de IA nativas de la nube e introduciendo un nuevo concepto llamado IA sin servidor.

Durante su discurso, Dennis Gu explicó que la IA sin servidor está diseñada para simplificar tareas complejas de formación e inferencia al recomendar de manera inteligente políticas paralelas, lo que facilita su uso a los desarrolladores. También incluye una función de expansión automática adaptable de GPU/NPU que ajusta dinámicamente la asignación de recursos en función de los cambios en la carga de trabajo en tiempo real, lo que garantiza una ejecución eficiente de las tareas. Además, hay un clúster de GPU/NPU sin fallos en Serverless AI, lo que libera a los desarrolladores de la preocupación de que los fallos de hardware puedan interrumpir los servicios. Lo más importante es que la IA sin servidor es compatible con los principales marcos de IA, lo que permite a los desarrolladores integrar fácilmente sus herramientas y modelos de IA existentes.

La IA sin servidor también es un avance muy significativo para los proveedores de servicios en la nube. La IA sin servidor proporciona múltiples beneficios, como una utilización mejorada de GPU/NPU, cargas de trabajo híbridas más eficientes para capacitación, inferencia y desarrollo, y computación ecológica a través de una mejor eficiencia energética, para que pueda ahorrar dinero en electricidad. Además, la IA sin servidor permite compartir GPU/NPU entre múltiples inquilinos en diferentes espacios o en diferentes momentos, lo que mejora la tasa de reutilización de recursos. El aspecto más importante de la IA sin servidor es su capacidad para proporcionar calidad de servicio (QoS) y SLA garantizados tanto para tareas de capacitación como de inferencia, lo que garantiza un servicio estable y de alta calidad.

La IA sin servidor utiliza una capa de programación de recursos flexible que se basa en un sistema operativo virtualizado. Esta capa encapsula funciones esenciales de los marcos de aplicaciones en la capa de mediación de recursos de aplicaciones. Dennis Gu presentó la arquitectura de referencia para la IA sin servidor. Él cree que este diseño de arquitectura permite que la IA sin servidor impulse automáticamente recursos de IA a gran escala. Esto incluye analizar con precisión los patrones de uso de recursos, compartir recursos de grupos de hardware heterogéneos y garantizar la tolerancia a fallos durante las tareas de entrenamiento de IA a través de la virtualización de GPU/NPU y la migración de carga en vivo. Además, la programación multidimensional y el escalamiento elástico adaptativo mejoran la utilización de recursos.

En el subforo, los expertos técnicos de Huawei Cloud señalaron que las cargas de trabajo de inteligencia artificial o aprendizaje automático que se ejecutan en Kubernetes han aumentado constantemente. Como resultado, numerosas empresas están construyendo plataformas de IA nativas de la nube en múltiples clústeres de Kubernetes que se extienden por centros de datos y una amplia gama de tipos de GPU. Karmada y Volcano pueden programar de manera inteligente cargas de trabajo de GPU en múltiples clústeres, respaldando la transferencia de fallos y garantizando coherencia y eficiencia dentro y entre clústeres. También pueden equilibrar la utilización de recursos en todo el sistema y la QoS de cargas de trabajo con diferentes prioridades para abordar los desafíos de administrar entornos de GPU heterogéneos y a gran escala.

Karmada ofrece gestión automática de aplicaciones inmediata y confiable en escenarios de nube híbrida y multinube. Un número cada vez mayor de usuarios utiliza Karmada para crear soluciones adaptables y eficaces en entornos de producción. Karmada se actualizó oficialmente al proyecto de incubación CNCF en 2023 y la comunidad espera que se unan más socios y desarrolladores.

Volcano Gang Scheduling es una solución para escenarios de big data y formación distribuida de IA y aborda los problemas de espera interminable y estancamiento en las tareas de formación distribuida. Con la topología de tareas y la programación consciente de E/S, se minimiza el retraso de transmisión de las tareas de formación distribuida, lo que mejora el rendimiento de la formación en un 31 %. Además, minResources resuelve la contención de recursos entre el controlador Spark y el ejecutor en escenarios de alta concurrencia, optimiza el grado de paralelismo y mejora el rendimiento en un 39,9 %.

Dennis Gu cree que la clave para mejorar la productividad de la IA radica en la agilidad de las tecnologías nativas de la nube y la innovación de plataformas informáticas de IA heterogéneas. Huawei Cloud se dedica a la innovación de código abierto y tiene como objetivo trabajar con homólogos de la industria para marcar el comienzo de una nueva era de inteligencia.

Foto - https://mma.prnewswire.com/media/2370741/Dennis_Gu_Chief_Architect_Huawei_Cloud.jpg

View original content:https://www.prnewswire.com/news-releases/huawei-cloud-en-kubecon-eu-2024-liberando-la-era-inteligente-con-innovacion-continua-de-codigo-abierto-302098607.html