$100,000-200,000
OPPO US Research Center
Palo Alto, CA, USA
El Centro de Investigación de OPPO en EE. UU. busca un ingeniero de pruebas de IA/LLM meticuloso e innovador a tiempo completo para unirse a nuestro avanzado equipo de inteligencia artificial. En este rol fundamental, evaluará el rendimiento, la confiabilidad y la seguridad de modelos de lenguaje grandes (LLM) en escenarios reales de productos y probará soluciones de IA generativa de extremo a extremo. Su trabajo moldeará directamente la experiencia del usuario con funciones impulsadas por IA, garantizando solidez, precisión y alineación con los objetivos del producto. Esta es una oportunidad única para liderar metodologías de prueba para sistemas de IA de próxima generación en la vanguardia tecnológica. También estamos buscando un ingeniero contratista de evaluación y aseguramiento de calidad (QA) de LLM para apoyar las pruebas y validación de aplicaciones basadas en modelos de lenguaje grandes (LLM). Ayudará a implementar estrategias de prueba, ejecutar flujos de trabajo de evaluación y colaborar en la validación del rendimiento del modelo en diversos casos de uso de IA generativa. Este puesto contratista es ideal para alguien con experiencia práctica en evaluación de IA/ML, ingeniería de QA o análisis de datos que desee profundizar su conocimiento en sistemas de IA generativa. Requisitos Requisitos para el puesto a tiempo completo: Pruebas y evaluación principales Diseñar y ejecutar pruebas de rendimiento para LLM en diversos casos de uso de productos (por ejemplo, chatbots, generación de contenido, etc.). Desarrollar marcos de pruebas automatizados para evaluar las salidas de LLM en cuanto a precisión, sesgo, seguridad y coherencia. Realizar pruebas de extremo a extremo de soluciones integradas de IA generativa, incluyendo APIs, canalizaciones de datos e interfaces de usuario. Optimización y validación Colaborar con ingenieros de ML para validar modelos ajustados y optimizar indicaciones (prompts) para escenarios específicos. Analizar fallos del modelo, casos extremos y entradas adversarias para identificar riesgos y áreas de mejora. Comparar el rendimiento del LLM con estándares del sector y KPI específicos del producto. Colaboración y aseguramiento de calidad Colaborar con los equipos de producto, ingeniería e investigación para definir requisitos de prueba y criterios de aceptación. Documentar defectos, métricas de rendimiento y resultados de pruebas para impulsar mejoras basadas en datos. Promover la ética y seguridad en IA mediante pruebas rigurosas de equidad, mitigación de sesgos y moderación de contenido. Innovación y herramientas Crear herramientas escalables para la generación de datos sintéticos de prueba, pruebas de variación de indicaciones (prompt variation) y flujos de trabajo de evaluación automatizados. Mantenerse actualizado sobre los avances en pruebas de IA generativa, incluyendo técnicas de red teaming y marcos de evaluación (por ejemplo, HELM, Dynabench). Proponer nuevas estrategias de prueba para desafíos emergentes (por ejemplo, alucinaciones, deriva de contexto). Cualificaciones básicas: Título universitario en Ciencias de la Computación, Ciencia de Datos, Ingeniería o campo técnico relacionado, o experiencia práctica equivalente. Más de 1 año de experiencia en pruebas de software, ciencia de datos o validación de ML, con exposición a sistemas de IA/ML. Dominio de Python y marcos de pruebas (por ejemplo, PyTest, Selenium). Experiencia práctica evaluando LLM en entornos de producción (por ejemplo, GPT, Claude, Llama, Gemini). Fuertes habilidades analíticas para analizar el comportamiento del modelo, el rendimiento estadístico y los modos de fallo. Conocimientos de plataformas en la nube (GCP, Azure o AWS) y herramientas MLOps (por ejemplo, MLflow, Weights & Biases). Experiencia con control de versiones (Git) y metodologías de desarrollo ágil. Cualificaciones preferidas: Título de maestría en IA, Aprendizaje Automático o campo relacionado. Experiencia en ingeniería de indicaciones (prompt engineering), ajuste fino de LLM (por ejemplo, LoRA, RLHF) o técnicas de optimización. Experiencia con herramientas de evaluación automatizada (por ejemplo, LangChain, TruLens) o suites de prueba específicas para LLM. Conocimientos de canalizaciones de datos, bases de datos SQL/NoSQL y pruebas de API (por ejemplo, Postman). Formación en estadística, análisis cuantitativo o visualización de datos para obtener conclusiones de pruebas. Participación en iniciativas de seguridad/ética en IA o proyectos de código abierto de evaluación de LLM. Experiencia en pruebas de soluciones de IA integradas en dispositivos móviles (Android/iOS). Requisitos para el puesto de contratista: Soporte en pruebas y evaluación Ejecutar pruebas de rendimiento predefinidas para LLM en diversas tareas (por ejemplo, resúmenes, preguntas y respuestas, flujos de chatbot). Realizar evaluaciones guiadas para evaluar las salidas en cuanto a veracidad, coherencia y seguridad. Realizar pruebas manuales y automatizadas en APIs e interfaces de usuario integradas con LLM. Validación de indicaciones (prompts) y modelos Apoyar a los ingenieros de ML en la evaluación de variaciones de indicaciones y resultados de ajuste de indicaciones (prompt tuning). Registrar y analizar casos de fallo, anomalías y casos extremos según las pautas proporcionadas. Colaboración y documentación Trabajar con líderes de QA, gerentes de producto e ingenieros de ML para comprender los objetivos y criterios de prueba. Informar defectos, compilar resúmenes de evaluación y mantener registros de pruebas. Herramientas y automatización Utilizar herramientas o marcos internos existentes para automatizar ejecuciones de pruebas y recopilación de resultados. Contribuir a procesos de generación de indicaciones, plantillas de entrada o etiquetado de resultados. Cualificaciones básicas: Título universitario o experiencia laboral equivalente en un campo técnico (por ejemplo, Ciencias de la Computación, Ingeniería, Ciencia de Datos). Más de 6 meses de experiencia en QA de software, etiquetado de datos, evaluación de LLM o proyectos de pruebas de ML. Conocimientos básicos de Python, especialmente para tareas de procesamiento de datos y automatización. Familiaridad con LLM (por ejemplo, GPT, Claude, Gemini) y salidas basadas en indicaciones (prompts). Capacidad para trabajar con herramientas como Jupyter, Postman o paneles de pruebas. Persona detallista con buenos hábitos de documentación. Detalles del contratista: Duración: Largo plazo Tarifa: Proporcional a la experiencia Oportunidad de conversión: Los contratistas con alto desempeño podrán ser considerados para puestos a tiempo completo Beneficios OPPO se enorgullece de ser un lugar de trabajo con igualdad de oportunidades. Estamos comprometidos con la igualdad de empleo independientemente de raza, color, ascendencia, religión, sexo, origen nacional, orientación sexual, edad, ciudadanía, estado civil, discapacidad, identidad de género o condición de veterano. También consideramos candidatos calificados independientemente de antecedentes penales, conforme a los requisitos legales. El rango salarial base en EE. UU. para este puesto a tiempo completo es de $100,000 - $200,000 + bono + beneficios e incentivos a largo plazo. Nuestros rangos salariales se determinan según el puesto, nivel y ubicación.