Salario negociable
Avalore, LLC
Annapolis Junction, MD, USA
Lo que harás Desempeñarás un papel clave en la definición y operación de algunas de las plataformas de computación más complejas que el cliente debe implementar para abordar problemas complejos. Estos sistemas permiten análisis, simulaciones y modelados complejos aprovechando la computación altamente paralela y el almacenamiento distribuido de conjuntos de datos muy grandes, con el fin de responder preguntas difíciles. Para lograrlo, ayudarás a los usuarios a desplegar trabajos en estos sistemas para aprovechar sus capacidades, produciendo respuestas en forma de productos analíticos, modelos y simulaciones. Esta habilitación de la misión es fundamental para resolver los problemas más difíciles. Responsable de las operaciones y mantenimiento diarios normales de los sistemas HPC Realizarás funciones diarias de administración de sistemas para GPUs de Nvidia, sistemas de clústeres convencionales y entornos HPC Cray Realizarás monitoreo del sistema, instalaciones de software, depuración, actualizaciones, verificaciones de estado e identificación e implementación de procesos empresariales automatizados Proporcionarás evaluaciones, análisis continuo del rendimiento y recomendaciones para futuras arquitecturas Responsable de operar todos los sistemas principales para el análisis Actuarás como enlace entre los analistas y sus códigos y aplicaciones especializados, y los sistemas informáticos enfocados en generar resultados técnicos profundos y confiables Supervisarás aplicaciones analíticas que se ejecutan en una infraestructura HPC en clúster, incluyendo sistemas de CPU y GPU Gestionarás el envío de trabajos a aplicaciones y códigos de los clientes utilizando MPI/OpenMPI Proporcionarás resultados analíticos detallados para lograr un enfoque de mejor herramienta para cada tarea Trabajarás en colaboración con científicos de datos, ingenieros y analistas que realizan análisis científicos e ingenieriles especializados Escalarás problemas e incidencias al soporte de hardware y/o a la gerencia de ingeniería según sea necesario Responsable del análisis continuo del rendimiento y ajuste del entorno HPC Ayudarás en la identificación, solución de problemas y reparación de problemas de software que afecten el rendimiento de las soluciones HPC implementadas Realizarás la instalación de parches de software, incluidas actualizaciones del sistema operativo y firmware Ayudarás en la resolución de tickets de soporte y problemas de software identificados por los usuarios del sistema Identificarás y ampliarás los servicios y funcionalidades ofrecidos en el entorno HPC Serás un punto de contacto principal para resolver cualquier malfuncionamiento de hardware o software, incluido el trabajo con personal de servicio cuando sea necesario Revisarás registros del sistema para identificar y resolver problemas relacionados con software y sistemas Prepararás informes relacionados con la eficiencia operativa del hardware y la ejecución de trabajos de los usuarios Experiencia esencial con MPI/OpenMPI, SLURM y sistemas operativos Linux Experiencia previa como administrador de sistemas esencial, con preferencia por experiencia trabajando con sistemas en clúster que incluyan GPUs en la pila de hardware Se valora experiencia en redes de alta velocidad y CUDA Experiencia en integración de software es un plus Pueden requerirse otras funciones para apoyar la misión del cliente Requisitos Mínimo 6 años de experiencia laboral demostrada Experiencia laboral demostrada en la integración de funcionalidades de sistemas diversos mediante scripting/herramientas/automatización Experiencia laboral demostrada en el entorno y requisitos de seguridad del sistema del patrocinador Experiencia demostrada liderando arquitectura de sistemas, operaciones, mantenimiento y administración Habilitación de seguridad: Se requiere habilitación activa de TS/SCI con polígrafo actual apropiado para ser considerado para este puesto; capacidad de obtener derechos de acceso privilegiado. Beneficios Se aplican requisitos de elegibilidad. Plan de atención médica pagado por el empleador (médico, dental y visual) Plan de jubilación (401k, IRA) con un generoso programa de coincidencia Seguro de vida (básico, voluntario y por accidente) Tiempo libre remunerado (vacaciones, enfermedad y días festivos oficiales) Discapacidad a corto y largo plazo Capacitación y desarrollo Programa de asistencia al empleado