Salario negociable
Isotron AI
San Francisco, CA, USA
Acerca del Puesto Somos una startup en etapa temprana y confidencial que está construyendo una nueva clase de plataforma para medios generativos. Nuestra misión es habilitar el futuro de las aplicaciones generativas en tiempo real: estamos desarrollando herramientas y infraestructuras fundamentales que hacen finalmente posibles nuevas categorías enteramente nuevas de experiencias y aplicaciones generativas. Somos un equipo pequeño y enfocado compuesto por fundadores ex-YC y de unicornios e ingenieros sénior con amplia experiencia en 3D, video generativo, plataformas para desarrolladores y herramientas creativas. Contamos con el respaldo de inversionistas de primer nivel y ángeles destacados, y estamos construyendo una nueva base técnica diseñada específicamente para la próxima era de los medios generativos. Estamos operando al límite de lo técnicamente posible: inferencia de alto rendimiento y orquestación en tiempo real de modelos multimodales. Como uno de nuestros ingenieros fundadores, desempeñarás un papel clave al arquitectar la plataforma central, influir en decisiones de diseño del sistema y asumir la responsabilidad de infraestructuras críticas desde el primer día. Si te entusiasma arquitectar y construir infraestructura de alto rendimiento que empodere a la próxima generación de desarrolladores y desbloquee categorías completamente nuevas de productos, nos encantaría hablar contigo. Acerca del Puesto Buscamos un Ingeniero Fundador, Rendimiento y Sistemas de ML con profundo conocimiento en infraestructura de ML de alto rendimiento. Este es un puesto altamente técnico y de gran impacto, centrado en extraer cada gota de rendimiento de modelos generativos de medios en tiempo real. Trabajarás a través de toda la pila de servicio de modelos, diseñando arquitecturas novedosas, optimizando el rendimiento de inferencia y definiendo la ventaja competitiva de Reactor en entornos de ultra baja latencia y alto rendimiento. Tus Responsabilidades Impulsar nuestra posición líder en rendimiento de modelos en tiempo real para modelos de difusión Diseñar e implementar un motor de inferencia interno de alto rendimiento Enfocarte en maximizar el rendimiento y minimizar la latencia y el uso de recursos Desarrollar herramientas de monitoreo y análisis de rendimiento para identificar cuellos de botella y oportunidades de optimización Requisitos Sobre Ti Sólida base en programación de sistemas, con historial comprobado de identificar y resolver cuellos de botella Profundo conocimiento de la pila de infraestructura de ML: PyTorch, TensorRT, TransformerEngine, Nsight Compilación de modelos, cuantización y arquitecturas avanzadas de servicio Conocimiento práctico del hardware GPU (NVIDIA) y capacidad para profundizar en la pila cuando sea necesario (por ejemplo, escribir kernels GEMM personalizados con CUTLASS) Dominio de CUDA o disposición para aprender, con experiencia comparable en programación de aceleradores de bajo nivel Interés en la frontera del paralelismo multidimensional de modelos (por ejemplo, combinar paralelismo de tensores, contexto y secuencia) Familiaridad con los detalles internos de técnicas punteras como Ring Attention, FA3 e implementaciones FusedMLP Calificaciones Mínimas Dominio de la programación de sistemas (C++, CUDA) Experiencia optimizando inferencia de ML en GPUs Competencia con PyTorch y herramientas como TensorRT Comprensión profunda de la arquitectura GPU de NVIDIA Conocimiento de servicio, compilación y cuantización de modelos Beneficios Salario competitivo en SF y participación accionaria fundamental para el equipo