Categorías
···
Entrar / Registro
Ingeniero de Aprendizaje por Refuerzo
Salario negociable
Workable
Tiempo completo
Presencial
Sin requisito de experiencia
Sin requisito de título
Boston, MA, USA
Favoritos
Compartir
Parte del contenido se ha traducido automáticamenteVer original
Descripción

En Code Metal AI, formará parte de un equipo de clase mundial con talento procedente del MIT, OpenAI y otras empresas líderes, centrado en trabajos pioneros en modelos de lenguaje grande (LLMs) y generación de código. Nuestros proyectos implican directamente a importantes fabricantes de chips, aplicando inteligencia artificial avanzada para resolver desafíos prácticos significativos con impacto en el mundo real. Este puesto combina dos áreas críticas: Producción Crear y mantener sistemas robustos de entrenamiento distribuido utilizando PyTorch (se requiere experiencia de 2 o más años). Diseñar e implementar canalizaciones escalables de curación de datos y garantía de calidad para asegurar conjuntos de datos de entrenamiento de primer nivel. Desarrollar herramientas de orquestación que gestionen flujos de trabajo complejos en el entrenamiento y evaluación de modelos de IA a gran escala. Investigación Impulsar la innovación mediante el desarrollo de marcos de evaluación y soluciones de aprendizaje por refuerzo, incluyendo avances recientes en Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Participar en investigaciones punteras mediante proyectos de código abierto y posibles publicaciones, aplicando RLHF a Modelos de Lenguaje Grande (LLMs), idealmente centrándose en tareas de generación de código. Requisitos Experiencia de 2 o más años en entrenamiento distribuido, preferiblemente con PyTorch. Sólida formación en aprendizaje por refuerzo, siendo muy valorable la experiencia reciente en RLHF. Demostrada capacidad para construir canalizaciones de curación de datos y garantía de calidad. Experiencia en el desarrollo de marcos de evaluación. Idealmente, experiencia tanto en canalizaciones de datos como en orquestación. Elegible para obtención de autorización de seguridad TS/SCI. Valorable: Contribuciones a proyectos de inteligencia artificial o aprendizaje automático de código abierto. Trabajos publicados o experiencia investigadora demostrable en campos relacionados. Experiencia práctica aplicando RLHF a LLMs, especialmente para tareas de generación de código. Experiencia en generación de datos sintéticos a gran escala. Beneficios Plan de salud con cobertura del 100 % de la prima, incluyendo médico, dental y oftalmológico. 401k con coincidencia del 5 %. Tiempo libre remunerado (vacaciones ilimitadas, además de días de enfermedad y festivos públicos). Modalidad de trabajo híbrido flexible. Asistencia para reubicación para empleados calificados.

Fuentea:  workable Ver publicación original
Workable · HR

Compañía

Workable
Cookie
Configuración de cookies
Nuestras aplicaciones
Download
Descargar en
APP Store
Download
Consíguelo en
Google Play
© 2025 Servanan International Pte. Ltd.