Responsable des opérations des grappes de calcul
- Montreal, QC
- Permanent
- Full-time
- Gestion des grappes HPC : Superviser l'architecture, le déploiement, la maintenance et l'optimisation des grappes HPC, en assurant une haute disponibilité, performance et évolutivité.
- Opérations et fiabilité : Établir et appliquer les meilleures pratiques pour les opérations d'infrastructure, la surveillance, le dépannage et la réponse aux incidents afin de maintenir un environnement hautement fiable.
- Gestion budgétaire : Gérer les budgets de l'infrastructure.
- Gestion des fournisseurs: Trouver et prendre contacts avec des fournisseurs, négocier les contrats et les ententes de services
- Sécurité et conformité : Assurer la sécurité et la conformité de tous les composants de l'infrastructure, en mettant en œuvre des mesures de sécurité robustes et des protocoles de protection des données.
- Collaboration : Travailler en étroite collaboration avec les chercheurs, les professeurs et les autres départements pour comprendre leurs besoins informatiques et fournir des solutions adaptées.
- Innovation : Se tenir au courant des dernières avancées en matière d'infrastructure informatique et de matériel d'IA, en proposant et en mettant en œuvre des solutions innovantes pour améliorer les capacités de Mila.
- Baccalauréat ou maîtrise en informatique, en ingénierie ou dans un domaine connexe.
- 10+ ans d'expérience en infrastructure informatique, dont au moins 5 ans dans un rôle de leadership en gestion d'environnements informatiques complexes.
- Expertise approfondie en architecture, conception et opérations de grappes HPC, y compris une expérience avec les ordonnanceurs (par exemple, Slurm), les interconnexions haute vitesse (par exemple, InfiniBand) et les systèmes de fichiers parallèles (par exemple, Lustre, BeeGFS).
- Expérience avérée en gestion de centres de données, d'infrastructure réseau et de solutions de stockage.
- Solide compréhension des technologies de virtualisation (par exemple, Proxmox, Docker, Podman).
- Expérience avec l'infrastructure as code (par exemple, Ansible, Terraform) et les outils d'automatisation.
- Excellentes compétences en leadership, en communication et en relations interpersonnelles, avec la capacité d'articuler des concepts techniques complexes à des publics techniques et non techniques.
- Capacité démontrée à gérer des projets, à prioriser les tâches et à travailler efficacement dans un environnement de recherche rapide.
- Une passion pour contribuer à la recherche de pointe en IA et un engagement envers la mission de Mila.
- Être bilingue, en français et en anglais, en raison des interactions que vous aurez dans le cadre de votre emploi avec certains de nos partenaires, parties prenantes, ou membres de notre communauté académique anglophones.
- Expérience avec le calcul accéléré par GPU et les frameworks d'apprentissage profond.
- Connaissance des environnements de calcul de recherche et des défis spécifiques rencontrés par les chercheurs en IA.
- Familiarité avec les technologies open-source et les contributions communautaires.
- L’occasion de contribuer à une mission unique avec un impact important;
- Un programme d’assurance collective complet (maladie, dentaire, invalidité, vie, assurance voyage et garanties complémentaires);
- Un programme d’aide aux employés et à la famille;
- Un accès à un service de télémédecine;
- Une politique de congés annuels offrant une base de 20 jours de vacances dès l’embauche;
- Un régime d’épargne retraite avec contribution de l’employeur minimale de 4%;
- Une généreuse enveloppe flexible vous permettant de personnaliser vos avantages sociaux en fonction de ce qui contribue à votre bien-être. Vous pouvez sélectionner et combiner les options qui correspondent à vos besoins parmi les crédits style de vie, une assurance bonifiée, des journées de vacances supplémentaires et une contribution enrichie au régime de retraite;
- Un horaire flexible, un horaire d’été et une possibilité de télétravail;
- Un milieu de travail au cœur de la Petite Italie, dans le quartier branché Mile-Ex, à proximité des transports en commun;
- Une équipe d’experts de leur domaine, des gens passionnés et passionnants;
- Une ambiance de travail collaborative et inclusive.
- Strategic Leadership: Develop and execute a comprehensive infrastructure strategy aligned with Mila's research goals, including future needs for growth and emerging technologies.
- HPC Cluster Management: Oversee the architecture, deployment, maintenance, and optimization of HPC clusters, ensuring high availability, performance, and scalability.
- Vendor Management & Procurement: Lead the RFP process for the procurement of new HPC clusters and other infrastructure components, ensuring cost-effectiveness and alignment with technical requirements.
- Team Leadership: Lead, mentor, and grow a team of skilled infrastructure engineers and administrators.
- Operations & Reliability: Establish and enforce best practices for infrastructure operations, monitoring, troubleshooting, and incident response to maintain a highly reliable environment.
- Budget Management: Manage infrastructure budgets.
- Security & Compliance: Ensure the security and compliance of all infrastructure components, implementing robust security measures and data protection protocols.
- Collaboration: Work closely with researchers, faculty, and other departments to understand their computing needs and provide tailored solutions.
- Innovation: Stay abreast of the latest advancements in computing infrastructure and AI hardware, proposing and implementing innovative solutions to enhance Mila's capabilities.
- Bachelor's or Master's degree in Computer Science, Engineering, or a related field.
- 10+ years of experience in IT infrastructure, with at least 5 years in a leadership role managing complex computing environments.
- Deep expertise in HPC cluster architecture, design, and operations, including experience with schedulers (e.g., Slurm), high-speed interconnects (e.g., InfiniBand), and parallel file systems (e.g., Lustre, BeeGFS).
- Proven experience managing data centers, network infrastructure, and storage solutions.
- Strong understanding of virtualization technologies (e.g., Proxmox, Docker, Podman).
- Experience with infrastructure as code (e.g., Ansible, Terraform) and automation tools.
- Excellent leadership, communication, and interpersonal skills, with the ability to articulate complex technical concepts to both technical and non-technical audiences.
- Demonstrated ability to manage projects, prioritize tasks, and work effectively in a fast-paced research environment.
- A passion for contributing to cutting-edge AI research and a commitment to Mila's mission.
- Experience with GPU-accelerated computing and deep learning frameworks.
- Knowledge of research computing environments and the specific challenges faced by AI researchers.
- Familiarity with open-source technologies and community contributions.
- The opportunity to contribute to a unique mission with a major impact;
- A comprehensive group insurance program (health, dental, disability, life, travel and extended benefits);
- An employee and family assistance program;
- Access to a telemedicine service;
- A vacation policy offering a base of 20 days' vacation upon hiring;
- A retirement savings plan with a minimum employer contribution of 4%;
- A generous flexible package allowing you to tailor your benefits to what contributes to your well-being. You can select and combine options to suit your needs, including lifestyle credits, enhanced insurance, extra vacation days and increased pension contributions;
- Flexible working hours, a summer schedule and the possibility of telecommuting;
- A work environment in the heart of Little Italy, in the trendy Mile-Ex district, close to public transportation;
- A team of passionate experts in their field;
- A collaborative and inclusive work environment.
We are sorry but this recruiter does not accept applications from abroad.