Ingeniero de Aprendizaje por Refuerzo

Salario negociable

Workable

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Boston, MA, USA

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

En Code Metal AI, formará parte de un equipo de clase mundial con talento procedente del MIT, OpenAI y otras empresas líderes, centrado en trabajos pioneros en modelos de lenguaje grande (LLMs) y generación de código. Nuestros proyectos implican directamente a importantes fabricantes de chips, aplicando inteligencia artificial avanzada para resolver desafíos prácticos significativos con impacto en el mundo real. Este puesto combina dos áreas críticas: Producción Crear y mantener sistemas robustos de entrenamiento distribuido utilizando PyTorch (se requiere experiencia de 2 o más años). Diseñar e implementar canalizaciones escalables de curación de datos y garantía de calidad para asegurar conjuntos de datos de entrenamiento de primer nivel. Desarrollar herramientas de orquestación que gestionen flujos de trabajo complejos en el entrenamiento y evaluación de modelos de IA a gran escala. Investigación Impulsar la innovación mediante el desarrollo de marcos de evaluación y soluciones de aprendizaje por refuerzo, incluyendo avances recientes en Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Participar en investigaciones punteras mediante proyectos de código abierto y posibles publicaciones, aplicando RLHF a Modelos de Lenguaje Grande (LLMs), idealmente centrándose en tareas de generación de código. Requisitos Experiencia de 2 o más años en entrenamiento distribuido, preferiblemente con PyTorch. Sólida formación en aprendizaje por refuerzo, siendo muy valorable la experiencia reciente en RLHF. Demostrada capacidad para construir canalizaciones de curación de datos y garantía de calidad. Experiencia en el desarrollo de marcos de evaluación. Idealmente, experiencia tanto en canalizaciones de datos como en orquestación. Elegible para obtención de autorización de seguridad TS/SCI. Valorable: Contribuciones a proyectos de inteligencia artificial o aprendizaje automático de código abierto. Trabajos publicados o experiencia investigadora demostrable en campos relacionados. Experiencia práctica aplicando RLHF a LLMs, especialmente para tareas de generación de código. Experiencia en generación de datos sintéticos a gran escala. Beneficios Plan de salud con cobertura del 100 % de la prima, incluyendo médico, dental y oftalmológico. 401k con coincidencia del 5 %. Tiempo libre remunerado (vacaciones ilimitadas, además de días de enfermedad y festivos públicos). Modalidad de trabajo híbrido flexible. Asistencia para reubicación para empleados calificados.

Fuentea: workable Ver publicación original