$100,000-200,000/año
OPPO US Research Center
Palo Alto, CA, USA
El Centro de Investigación de OPPO en EE. UU. busca un ingeniero de pruebas de IA/LLM meticuloso e innovador a tiempo completo para unirse a nuestro avanzado equipo de inteligencia artificial. En este rol fundamental, evaluará el rendimiento, la confiabilidad y la seguridad de los modelos de lenguaje grande (LLMs) en escenarios reales de productos y probará soluciones de inteligencia artificial generativa de extremo a extremo. Su trabajo moldeará directamente la experiencia del usuario con funciones impulsadas por IA, garantizando solidez, precisión y alineación con los objetivos del producto. Esta es una oportunidad única para liderar metodologías de prueba para sistemas de IA de próxima generación en la vanguardia tecnológica. También buscamos un ingeniero de evaluación y aseguramiento de calidad (QA) de LLM como contratista para apoyar las pruebas y validación de aplicaciones impulsadas por modelos de lenguaje grande (LLM). Ayudará a implementar estrategias de prueba, ejecutar flujos de trabajo de evaluación y asistir en la validación del rendimiento del modelo en diversos casos de uso de inteligencia artificial generativa. Este puesto de contrato es ideal para alguien con experiencia práctica en evaluación de IA/ML, ingeniería de QA o análisis de datos que desee profundizar su conocimiento en sistemas de inteligencia artificial generativa. Requisitos Requisitos para el puesto a tiempo completo: Pruebas y evaluación principales Diseñar y ejecutar pruebas de rendimiento para LLMs en diversos casos de uso del producto (por ejemplo, chatbots, generación de contenido, etc.). Desarrollar marcos de pruebas automatizadas para evaluar las salidas de LLMs en cuanto a precisión, sesgo, seguridad y coherencia. Realizar pruebas de extremo a extremo de soluciones integradas de inteligencia artificial generativa, incluyendo APIs, canalizaciones de datos e interfaces de usuario. Optimización y validación Colaborar con ingenieros de ML para validar modelos ajustados y optimizar indicaciones (prompts) para escenarios específicos. Analizar fallos del modelo, casos límite y entradas adversarias para identificar riesgos y áreas de mejora. Comparar el rendimiento del LLM con estándares de la industria y KPIs específicos del producto. Colaboración y aseguramiento de calidad Colaborar con los equipos de producto, ingeniería e investigación para definir requisitos de prueba y criterios de aceptación. Documentar defectos, métricas de rendimiento y resultados de pruebas para impulsar mejoras basadas en datos. Promover la ética y seguridad de la IA mediante pruebas rigurosas de equidad, mitigación de sesgos y moderación de contenidos. Innovación y herramientas Crear herramientas escalables para la generación sintética de datos de prueba, pruebas de variación de indicaciones y flujos de trabajo de evaluación automatizados. Mantenerse actualizado con los avances en pruebas de inteligencia artificial generativa, incluyendo técnicas de red teaming y marcos de evaluación (por ejemplo, HELM, Dynabench). Proponer nuevas estrategias de prueba para desafíos emergentes (por ejemplo, alucinaciones, deriva de contexto). Cualificaciones básicas: Título universitario en Ciencias de la Computación, Ciencia de Datos, Ingeniería o campo técnico relacionado, o experiencia práctica equivalente. 1 o más años de experiencia en pruebas de software, ciencia de datos o validación de ML, con exposición a sistemas de IA/ML. Dominio de Python y marcos de pruebas (por ejemplo, PyTest, Selenium). Experiencia práctica evaluando LLMs en entornos de producción (por ejemplo, GPT, Claude, Llama, Gemini). Sólidas habilidades analíticas para analizar el comportamiento del modelo, el rendimiento estadístico y los modos de fallo. Conocimiento de plataformas en la nube (GCP, Azure o AWS) y herramientas MLOps (por ejemplo, MLflow, Weights & Biases). Experiencia con control de versiones (Git) y metodologías de desarrollo ágiles. Cualificaciones preferidas: Maestría en IA, Aprendizaje Automático o campo relacionado. Experticia en ingeniería de indicaciones (prompt engineering), ajuste fino de LLMs (por ejemplo, LoRA, RLHF) o técnicas de optimización. Experiencia con herramientas de evaluación automatizada (por ejemplo, LangChain, TruLens) o conjuntos de pruebas específicos para LLM. Conocimiento de canalizaciones de datos, bases de datos SQL/NoSQL y pruebas de API (por ejemplo, Postman). Formación en estadística, análisis cuantitativo o visualización de datos para obtener conclusiones de pruebas. Participación en iniciativas de seguridad/ética de IA o proyectos de código abierto de evaluación de LLM. Experiencia en pruebas de soluciones de IA integradas en dispositivos móviles (Android/iOS). Requisitos para el puesto de contratista: Soporte en pruebas y evaluación: Ejecutar pruebas de rendimiento predefinidas para LLMs en diversas tareas (por ejemplo, resúmenes, preguntas y respuestas, flujos de chatbot). Realizar evaluaciones guiadas para evaluar las salidas en cuanto a veracidad, coherencia y seguridad. Realizar pruebas manuales y automatizadas en APIs e interfaces de usuario integradas con LLM. Validación de indicaciones y modelos: Asistir a ingenieros de ML en la evaluación de variaciones de indicaciones y resultados de ajuste de indicaciones (prompt tuning). Registrar y analizar casos de fallo, anomalías y casos límite según las pautas proporcionadas. Colaboración y documentación Trabajar con líderes de QA, gerentes de producto e ingenieros de ML para comprender los objetivos y criterios de prueba. Informar defectos, compilar resúmenes de evaluación y mantener registros de pruebas. Herramientas y automatización: Utilizar herramientas o marcos internos existentes para automatizar ejecuciones de pruebas y recopilación de resultados. Contribuir a procesos de generación de indicaciones, plantillas de entrada o etiquetado de resultados. Cualificaciones básicas: Título universitario o experiencia laboral equivalente en un campo técnico (por ejemplo, Ciencias de la Computación, Ingeniería, Ciencia de Datos). 6 o más meses de experiencia en QA de software, etiquetado de datos, evaluación de LLM o proyectos de pruebas de ML. Dominio básico de Python, especialmente para tareas de procesamiento de datos y automatización. Familiaridad con LLMs (por ejemplo, GPT, Claude, Gemini) y salidas basadas en indicaciones. Capacidad para trabajar con herramientas como Jupyter, Postman o paneles de pruebas. Persona detallista con buenos hábitos de documentación. Detalles del contratista: Duración: Largo plazo Tarifa: Proporcional a la experiencia Oportunidad de conversión: Los contratistas con alto desempeño podrán ser considerados para puestos a tiempo completo Beneficios OPPO se enorgullece de ser un lugar de trabajo con igualdad de oportunidades. Estamos comprometidos con la igualdad de oportunidades laborales independientemente de raza, color, ascendencia, religión, sexo, origen nacional, orientación sexual, edad, ciudadanía, estado civil, discapacidad, identidad de género o condición de veterano. También consideramos candidatos calificados independientemente de sus antecedentes penales, de acuerdo con los requisitos legales. El rango salarial base en EE. UU. para este puesto a tiempo completo es de $100,000-$200,000 + bono + incentivos a largo plazo y beneficios. Nuestros rangos salariales se determinan por rol, nivel y ubicación.