Salario negociable
AION
Seattle, WA, USA
aion está construyendo la próxima generación de plataformas en la nube de IA transformando el futuro de la computación de alto rendimiento (HPC) mediante su nube de IA descentralizada. Diseñada específicamente para rendimiento bare-metal, aion democratiza el acceso al poder computacional para entrenamiento de IA, ajuste fino, inferencia, etiquetado de datos y más. Aprovechando recursos infrautilizados como GPUs ociosas y centros de datos, AION ofrece una solución escalable, rentable y sostenible adaptada para desarrolladores, investigadores y empresas. Liderada por fundadores con trayectoria destacada y salidas previas exitosas, aion cuenta con financiamiento de importantes capitalistas de riesgo y asociaciones estratégicas globales. Con sede principal en EE. UU. y presencia global, la empresa está formando su equipo central inicial en Londres, Seattle e India. Quién eres tú Eres un ingeniero de ML en ciernes apasionado por el entrenamiento distribuido y comprometido en ayudar a los clientes a tener éxito con cargas de trabajo de ML a gran escala. Te encanta resolver problemas técnicos complejos, aprender de los desafíos del cliente y crear soluciones que aceleren el desarrollo de IA. Estás entusiasmado por aprender técnicas avanzadas de entrenamiento mientras trabajas directamente con clientes para implementar arquitecturas de entrenamiento distribuido y flujos de trabajo avanzados de ML. Requisitos Principales responsabilidades Aprender e implementar arquitecturas de entrenamiento distribuido, incluyendo paralelismo de datos, paralelismo de modelos y paralelismo de pipeline, bajo supervisión. Crear implementaciones de referencia para flujos de trabajo de entrenamiento, incluyendo configuraciones DDP, sincronización de gradientes y configuraciones multi-GPU. Desarrollar herramientas de optimización de entrenamiento, incluyendo pipelines eficientes de carga de datos, técnicas de optimización de memoria y monitoreo de rendimiento. Crear documentación y tutoriales para clientes que cubran buenas prácticas de entrenamiento distribuido y guías de implementación. Asistir en talleres y sesiones de capacitación para clientes sobre metodologías de entrenamiento distribuido y uso de la plataforma. Construir herramientas de depuración y perfilado para identificar cuellos de botella en cargas de trabajo de entrenamiento distribuido. Experimentar con técnicas emergentes, incluyendo entrenamiento de modelos de recompensa, optimización DPO y flujos de trabajo de IA constitucional. Contribuir a mejoras en frameworks de entrenamiento basadas en comentarios de clientes y oportunidades de optimización de la plataforma. Habilidades y experiencia Persona proactiva que busque garantizar el éxito del cliente e influir en la arquitectura de la plataforma de entrenamiento. Conocimientos prácticos de fundamentos de aprendizaje profundo, incluyendo redes neuronales, transformadores y conceptos básicos de entrenamiento/inferencia. Experiencia práctica con PyTorch y algunos conocimientos sobre entrenamiento distribuido, implementación DDP y optimización multi-GPU. Comprensión general de técnicas de entrenamiento distribuido, incluyendo paralelismo de datos, paralelismo de modelos y paralelismo de pipeline. Conocimientos básicos prácticos de cualquiera de las herramientas de infraestructura de entrenamiento como Megatron-LM, DeepSpeed, FairScale o frameworks similares. Comprensión superficial de técnicas de razonamiento, incluyendo prompts de tipo cadena de pensamiento (Chain-of-Thought) y flujos de trabajo avanzados de razonamiento. Prácticas previas o proyectos en infraestructura de ML, contribuciones usando PyTorch/frameworks de ML, logros en programación competitiva, experiencia investigadora en sistemas de ML, familiaridad con sistemas de agentes o técnicas de razonamiento. Sólidas habilidades de codificación e implementación en Python y C++, con capacidad demostrada para escribir código eficiente y de calidad productiva. Experiencia leyendo y contribuyendo a grandes bases de código, con pruebas de contribuciones de código abierto (perfil de GitHub requerido). Evidencia de trabajo técnico mediante proyectos como Google Summer of Code, victorias en hackathones, programación competitiva o contribuciones significativas de código abierto. Beneficios Únete desde el inicio a una startup de IA orientada por una misión que revoluciona la infraestructura computacional. Aprende de ingenieros de clase mundial y obtén experiencia práctica con técnicas de vanguardia de optimización de inferencia. Trabaja con un equipo de alto nivel distribuido globalmente, respaldado por importantes capitalistas de riesgo. Gran oportunidad de aprendizaje y crecimiento en uno de los campos de infraestructura de IA de más rápido avance. Remuneración competitiva para prácticas con posibilidad de incorporación a tiempo completo. Entorno de trabajo ágil y flexible, con espacio para asumir responsabilidad y generar impacto. Si tienes alguna pregunta sobre el puesto, contacta al responsable de contratación en LinkedIn o X.