




Resumen: El Centro de Investigación de OPPO EE. UU. busca ingenieros de pruebas de IA/LLM meticulosos e innovadores para evaluar el rendimiento, la fiabilidad y la seguridad de los modelos de lenguaje grande (LLM) en escenarios reales de productos, moldeando así la experiencia del usuario. Aspectos destacados: 1. Pionero en metodologías de prueba para sistemas de IA de próxima generación 2. Evaluar el rendimiento, la fiabilidad y la seguridad de los LLM 3. Colaborar con ingenieros de aprendizaje automático para validar modelos ajustados finamente El Centro de Investigación de OPPO EE. UU. busca un ingeniero de pruebas de IA/LLM meticuloso e innovador a tiempo completo para unirse a nuestro equipo de vanguardia en IA. En este rol fundamental, usted evaluará el rendimiento, la fiabilidad y la seguridad de los modelos de lenguaje grande (LLM) en escenarios reales de productos y probará soluciones de IA generativa de extremo a extremo. Su trabajo influirá directamente en cómo los usuarios experimentan las funciones impulsadas por IA al garantizar su robustez, precisión y alineación con los objetivos del producto. Esta es una oportunidad única para liderar metodologías de prueba para sistemas de IA de próxima generación en la vanguardia de la tecnología. También buscamos un ingeniero contratista especializado en evaluación y aseguramiento de la calidad (QA) de LLM para apoyar las actividades de prueba y validación de aplicaciones impulsadas por modelos de lenguaje grande (LLM). Usted ayudará a implementar estrategias de prueba, ejecutar flujos de trabajo de evaluación y colaborar en la validación del rendimiento de los modelos en diversos casos de uso de IA generativa. Este puesto por contrato es ideal para alguien con experiencia práctica en evaluación de IA/ML, ingeniería de QA o análisis de datos que desee profundizar su exposición a los sistemas de IA generativa. Requisitos Requisitos para el puesto a tiempo completo: Pruebas y evaluación fundamentales Diseñar y ejecutar pruebas de rendimiento para LLM en diversos casos de uso de productos (por ejemplo, chatbots, generación de contenido, etc.). Desarrollar marcos de pruebas automatizados para evaluar las salidas de los LLM en cuanto a precisión, sesgo, seguridad y coherencia. Realizar pruebas de extremo a extremo de soluciones integradas de IA generativa, incluidas las API, las canalizaciones de datos y las interfaces de usuario. Optimización y validación Colaborar con ingenieros de aprendizaje automático para validar modelos ajustados finamente y optimizar los indicadores (prompts) para escenarios específicos. Analizar fallos del modelo, casos límite y entradas adversarias para identificar riesgos y áreas de mejora. Comparar el rendimiento de los LLM con estándares industriales y KPI específicos del producto. Colaboración y aseguramiento de la calidad Trabajar conjuntamente con los equipos de producto, ingeniería e investigación para definir los requisitos de prueba y los criterios de aceptación. Documentar defectos, métricas de rendimiento y resultados de las pruebas para impulsar mejoras basadas en datos. Promover la ética y la seguridad de la IA mediante pruebas rigurosas de equidad, mitigación de sesgos y moderación de contenidos. Innovación y herramientas Crear herramientas escalables para la generación sintética de datos de prueba, la evaluación de variaciones de indicadores (prompt variation testing) y flujos de trabajo automatizados de evaluación. Mantenerse actualizado sobre los avances en las pruebas de IA generativa, incluidas las técnicas de red teaming y los marcos de evaluación (por ejemplo, HELM, Dynabench). Proponer nuevas estrategias de prueba para desafíos emergentes (por ejemplo, alucinaciones, deriva contextual). Cualificaciones básicas: Título universitario en Ciencias de la Computación, Ciencia de Datos, Ingeniería o campo técnico afín, o experiencia práctica equivalente. 1+ año de experiencia en pruebas de software, ciencia de datos o validación de ML, con exposición a sistemas de IA/ML. Competencia en Python y marcos de pruebas (por ejemplo, PyTest, Selenium). Experiencia práctica evaluando LLM en entornos de producción (por ejemplo, GPT, Claude, Llama, Gemini). Excelentes habilidades analíticas para desglosar el comportamiento del modelo, su rendimiento estadístico y sus modos de fallo. Conocimientos prácticos de plataformas en la nube (GCP, Azure o AWS) y herramientas de MLOps (por ejemplo, MLflow, Weights & Biases). Experiencia con control de versiones (Git) y metodologías ágiles de desarrollo. Cualificaciones preferidas: Maestría en IA, Aprendizaje Automático o campo relacionado. Experticia en ingeniería de indicadores (prompt engineering), ajuste fino de LLM (por ejemplo, LoRA, RLHF) o técnicas de optimización. Experiencia con herramientas de evaluación automatizada (por ejemplo, LangChain, TruLens) o suites de pruebas específicas para LLM. Conocimiento de canalizaciones de datos, bases de datos SQL/NoSQL y pruebas de API (por ejemplo, Postman). Formación en estadística, análisis cuantitativo o visualización de datos para obtener conclusiones útiles a partir de las pruebas. Contribuciones a iniciativas de seguridad/ética de la IA o proyectos de código abierto de evaluación de LLM. Experiencia probada en pruebas de soluciones de IA integradas en dispositivos móviles (Android/iOS). Requisitos para el puesto de contratista: Apoyo en pruebas y evaluación: Ejecutar pruebas de rendimiento predefinidas para LLM en diversas tareas (por ejemplo, resúmenes, preguntas y respuestas, flujos de chatbot). Ejecutar evaluaciones guiadas por scripts para valorar las salidas en cuanto a veracidad, coherencia y seguridad. Realizar pruebas manuales y automatizadas en API y en interfaces de usuario integradas con LLM. Validación de indicadores (prompts) y modelos: Apoyar a los ingenieros de ML en la evaluación de variaciones de indicadores y de los resultados del ajuste fino de indicadores. Registrar y analizar casos de fallo, anomalías y casos límite según las directrices proporcionadas. Colaboración y documentación Trabajar con líderes de QA, gerentes de producto e ingenieros de ML para comprender los objetivos y criterios de prueba. Informar sobre defectos, compilar resúmenes de evaluación y mantener registros de pruebas. Herramientas y automatización: Utilizar herramientas o marcos internos existentes para automatizar la ejecución de pruebas y la recopilación de resultados. Contribuir a la generación de indicadores, la creación de plantillas de entrada o los procesos de etiquetado de resultados. Cualificaciones básicas: Título universitario o experiencia laboral equivalente en un campo técnico (por ejemplo, Ciencias de la Computación, Ingeniería, Ciencia de Datos). 6+ meses de experiencia en QA de software, etiquetado de datos, evaluación de LLM o proyectos de pruebas de ML. Competencia básica en Python, especialmente para tareas de procesamiento de datos y automatización. Conocimientos prácticos de LLM (por ejemplo, GPT, Claude, Gemini) y sus salidas basadas en indicadores. Capacidad para trabajar cómodamente con herramientas como Jupyter, Postman o paneles de control de pruebas. Orientación al detalle y buenos hábitos de documentación. Detalles del contrato: Duración: Largo plazo Tarifa: Proporcional a la experiencia Oportunidad de conversión: Los contratistas de alto desempeño podrían ser considerados para puestos a tiempo completo Beneficios OPPO se enorgullece de ser un lugar de trabajo con igualdad de oportunidades. Nos comprometemos a garantizar la igualdad de oportunidades laborales sin importar raza, color, ascendencia, religión, sexo, origen nacional, orientación sexual, edad, ciudadanía, estado civil, discapacidad, identidad de género o condición de veterano. También consideramos candidatos calificados sin importar sus antecedentes penales, siempre que sea compatible con los requisitos legales. El rango salarial base en EE. UU. para este puesto a tiempo completo es de $100,000-$200,000 + bonificación + beneficios de incentivos a largo plazo.


