Salario negociable
Avalore, LLC
Annapolis Junction, MD, USA
Lo que hará Desempeñar un papel clave en la definición y operación de algunas de las plataformas de computación más complejas que el cliente debe implementar para abordar problemas complejos. Estos sistemas permiten análisis complejos, simulaciones y modelado que aprovechan la computación masivamente paralela y el almacenamiento disperso de conjuntos de datos muy grandes, para responder preguntas difíciles. Para lograrlo, ayudará a los usuarios a desplegar trabajos en estos sistemas para aprovechar sus capacidades y producir respuestas en forma de productos analíticos, modelos y simulaciones. Esta habilitación de la misión es fundamental para resolver los problemas más difíciles. Responsable de las operaciones y mantenimiento diarios normales de los sistemas HPC Realizar tareas diarias de administración de sistemas para GPUs de Nvidia, sistemas de clúster convencionales y entornos HPC Cray Realizar monitoreo del sistema, instalaciones de software, depuración, actualizaciones, verificaciones de estado e identificación/implementación de procesos empresariales automatizados Proporcionar evaluaciones, análisis continuo del rendimiento y recomendaciones para futuras arquitecturas Responsable de operar todos los sistemas anfitriones para el análisis Actuar en un rol de enlace, conectando a los analistas y sus códigos y aplicaciones especializados con los sistemas informáticos enfocados en generar resultados técnicamente sólidos y profundos. Supervisar aplicaciones analíticas que se ejecutan en una infraestructura HPC en clúster, incluyendo sistemas CPU y GPU Gestionar la presentación de trabajos a aplicaciones y códigos de clientes utilizando MPI/OpenMPI Proporcionar resultados analíticos detallados para lograr un enfoque de mejor herramienta para el trabajo. Colaborar con científicos de datos, ingenieros y analistas que realizan análisis científicos y de ingeniería especializados. Escalar problemas e incidencias al soporte de hardware y/o gerencia de ingeniería según sea necesario Responsable del análisis continuo del rendimiento y ajuste del entorno HPC Ayudar en la identificación, solución de problemas y reparación de problemas de software que afecten el rendimiento de las soluciones HPC implementadas Realizar la instalación de parches de software, incluidas actualizaciones del sistema operativo y firmware Asistir en la resolución de tickets de problemas y fallos de software identificados por los usuarios del sistema Identificar y ampliar los servicios y funcionalidades ofrecidos en el entorno HPC Ser un punto de contacto principal para resolver cualquier malfuncionamiento de hardware o software, incluido el trabajo con personal de servicio cuando sea necesario Revisar registros del sistema para identificar y resolver problemas relacionados con software y sistemas Preparar informes relacionados con la eficiencia operativa del hardware y la ejecución de trabajos de usuarios Experiencia esencial con MPI/OpenMPI, SLURM y sistemas operativos Linux Experiencia previa como Administrador de Sistemas esencial, con preferencia por experiencia trabajando con sistemas en clúster que incluyan GPUs en la pila de hardware Experiencia con redes de alta velocidad y CUDA preferible Experiencia en integración de software es un plus Otras funciones podrían ser necesarias para apoyar la misión del cliente Requisitos Mínimo 6 años de experiencia demostrada en el trabajo Experiencia demostrada en el trabajo con integración de funcionalidades desde sistemas diversos mediante scripts/herramientas/automatización Experiencia demostrada en el trabajo con el entorno y requisitos de seguridad del sistema del patrocinador Experiencia demostrada liderando arquitectura de sistemas, operaciones, mantenimiento y administración Habilitación de seguridad: Se requiere habilitación activa de TS/SCI con polígrafo actual apropiado para ser considerado para este puesto; capacidad de obtener derechos de acceso privilegiado. Beneficios Se aplican requisitos de elegibilidad. Plan de atención médica pagado por el empleador (médico, dental y visual) Plan de jubilación (401k, IRA) con un generoso programa de coincidencia Seguro de vida (básico, voluntario y por desastres) Tiempo libre remunerado (vacaciones, enfermedad y días festivos oficiales) Discapacidad a corto y largo plazo Capacitación y desarrollo Programa de asistencia al empleado