
Responsable des opérations des grappes de calcul
- Montreal, QC
- Permanent
- Full-time
- Gestion des grappes HPC : Superviser l'architecture, le déploiement, la maintenance et l'optimisation des grappes HPC, en assurant une haute disponibilité, performance et évolutivité.
- Opérations et fiabilité : Établir et appliquer les meilleures pratiques pour les opérations d'infrastructure, la surveillance, le dépannage et la réponse aux incidents afin de maintenir un environnement hautement fiable.
- Gestion budgétaire : Gérer les budgets de l'infrastructure.
- Gestion des fournisseurs: Trouver et prendre contacts avec des fournisseurs, négocier les contrats et les ententes de services
- Sécurité et conformité : Assurer la sécurité et la conformité de tous les composants de l'infrastructure, en mettant en œuvre des mesures de sécurité robustes et des protocoles de protection des données.
- Collaboration : Travailler en étroite collaboration avec les chercheurs, les professeurs et les autres départements pour comprendre leurs besoins informatiques et fournir des solutions adaptées.
- Baccalauréat ou maîtrise en informatique, en ingénierie ou dans un domaine connexe.
- 10+ ans d'expérience en infrastructure informatique, dont au moins 5 ans dans un rôle de leadership en gestion d'environnements informatiques complexes.
- Expertise approfondie en architecture, conception et opérations de grappes HPC, y compris une expérience avec les ordonnanceurs (par exemple, Slurm), les interconnexions haute vitesse (par exemple, InfiniBand) et les systèmes de fichiers parallèles (par exemple, Lustre, BeeGFS).
- Expérience avérée en gestion de centres de données, d'infrastructure réseau et de solutions de stockage.
- Solide compréhension des technologies de virtualisation (par exemple, Proxmox, Docker, Podman).
- Expérience avec l'infrastructure as code (par exemple, Ansible, Terraform) et les outils d'automatisation.
- Excellentes compétences en leadership, en communication et en relations interpersonnelles, avec la capacité d'articuler des concepts techniques complexes à des publics techniques et non techniques.
- Capacité démontrée à gérer des projets, à prioriser les tâches et à travailler efficacement dans un environnement de recherche rapide.
- Une passion pour contribuer à la recherche de pointe en IA et un engagement envers la mission de Mila.
- Expérience avec le calcul accéléré par GPU et les frameworks d'apprentissage profond.
- Connaissance des environnements de calcul de recherche et des défis spécifiques rencontrés par les chercheurs en IA.
- Familiarité avec les technologies open-source et les contributions communautaires.
- L'occasion de contribuer à une mission unique avec un impact important;
- Un programme d'assurance collective complet (maladie, dentaire, invalidité, vie, assurance voyage et garanties complémentaires);
- Un programme d'aide aux employés et à la famille;
- Un accès à un service de télémédecine;
- Une politique de congés annuels offrant une base de 20 jours de vacances dès l'embauche;
- Un régime d'épargne retraite avec contribution de l'employeur minimale de 4%;
- Une généreuse enveloppe flexible vous permettant de personnaliser vos avantages sociaux en fonction de ce qui contribue à votre bien-être. Vous pouvez sélectionner et combiner les options qui correspondent à vos besoins parmi les crédits style de vie, une assurance bonifiée, des journées de vacances supplémentaires et une contribution enrichie au régime de retraite;
- Un horaire flexible, un horaire d'été et une possibilité de télétravail;
- Un milieu de travail au cœur de la Petite Italie, dans le quartier branché Mile-Ex, à proximité des transports en commun;
- Une équipe d'experts de leur domaine, des gens passionnés et passionnants;
- Une ambiance de travail collaborative et inclusive.
- Strategic Leadership: Develop and execute a comprehensive infrastructure strategy aligned with Mila's research goals, including future needs for growth and emerging technologies.
- HPC Cluster Management: Oversee the architecture, deployment, maintenance, and optimization of HPC clusters, ensuring high availability, performance, and scalability.
- Vendor Management & Procurement: Lead the RFP process for the procurement of new HPC clusters and other infrastructure components, ensuring cost-effectiveness and alignment with technical requirements.
- Team Leadership: Lead, mentor, and grow a team of skilled infrastructure engineers and administrators.
- Operations & Reliability: Establish and enforce best practices for infrastructure operations, monitoring, troubleshooting, and incident response to maintain a highly reliable environment.
- Budget Management: Manage infrastructure budgets.
- Security & Compliance: Ensure the security and compliance of all infrastructure components, implementing robust security measures and data protection protocols.
- Collaboration: Work closely with researchers, faculty, and other departments to understand their computing needs and provide tailored solutions.
- Innovation: Stay abreast of the latest advancements in computing infrastructure and AI hardware, proposing and implementing innovative solutions to enhance Mila's capabilities.
- Bachelor's or Master's degree in Computer Science, Engineering, or a related field.
- 10+ years of experience in IT infrastructure, with at least 5 years in a leadership role managing complex computing environments.
- Deep expertise in HPC cluster architecture, design, and operations, including experience with schedulers (e.g., Slurm), high-speed interconnects (e.g., InfiniBand), and parallel file systems (e.g., Lustre, BeeGFS).
- Proven experience managing data centers, network infrastructure, and storage solutions.
- Strong understanding of virtualization technologies (e.g., Proxmox, Docker, Podman).
- Experience with infrastructure as code (e.g., Ansible, Terraform) and automation tools.
- Excellent leadership, communication, and interpersonal skills, with the ability to articulate complex technical concepts to both technical and non-technical audiences.
- Demonstrated ability to manage projects, prioritize tasks, and work effectively in a fast-paced research environment.
- A passion for contributing to cutting-edge AI research and a commitment to Mila's mission.
- Experience with GPU-accelerated computing and deep learning frameworks.
- Knowledge of research computing environments and the specific challenges faced by AI researchers.
- Familiarity with open-source technologies and community contributions.
- The opportunity to contribute to a unique mission with a major impact;
- A comprehensive group insurance program (health, dental, disability, life, travel and extended benefits);
- An employee and family assistance program;
- Access to a telemedicine service;
- A vacation policy offering a base of 20 days' vacation upon hiring;
- A retirement savings plan with a minimum employer contribution of 4%;
- A generous flexible package allowing you to tailor your benefits to what contributes to your well-being. You can select and combine options to suit your needs, including lifestyle credits, enhanced insurance, extra vacation days and increased pension contributions;
- Flexible working hours, a summer schedule and the possibility of telecommuting;
- A work environment in the heart of Little Italy, in the trendy Mile-Ex district, close to public transportation;
- A team of passionate experts in their field;
- A collaborative and inclusive work environment.