Senior / Staff ML Platform Engineer
Mistplay View all jobs
- Toronto, ON Montreal, QC
- Permanent
- Full-time
- Solutions d'infrastructure machine et de données pour l'entraînement des modèles.
- Systèmes d'inférence en temps réel pour exploiter et servir des modèles dans un environnement de production en temps réel.
- Capacités de plateforme de fonctionnalités de haute convivialité et précision pour générer, remplir rétrospectivement et stocker des fonctionnalités au niveau de l'utilisateur.
- Couche de service de fonctionnalités à haute précision et faible latence, et solutions de pré-traitement pour prendre en charge le service en ligne des modèles.
- Construire des abstractions de plateforme et des chemins dorés (golden paths) : modèles Airflow DAG, CLI/SDK, dépôts cookie-cutter et pipelines CI/CD qui font passer les modèles des notebooks à la production de manière prévisible.
- Mettre en œuvre l'observabilité de bout en bout : vérifications de la fraîcheur des données/fonctionnalités, portes de dérive/qualité, SLO de performance/latence des modèles, tableaux de bord de santé de l'infrastructure, traçage et alertes, plus réponse aux incidents et analyses post-mortem.
- Collaborer avec la sécurité, SRE et l'ingénierie des données sur les réseaux privés, la politique en tant que code, la gestion des informations personnelles identifiables (PII), la gestion des accès et des identités (IAM) du moindre privilège et les architectures rentables dans tous les environnements.
- Évaluer, intégrer et rationaliser les outils de plateforme (par exemple, registre MLflow, magasins de fonctionnalités, passerelles de service); mener des migrations avec une gestion claire des changements et un temps d'arrêt minimal.
- 10 ans et plus d'expérience dans la construction et l'exploitation de plateformes ML/de données de qualité production, en mettant l'accent sur le service, la fiabilité et l'expérience développeur.
- Solides compétences en génie logiciel en Python, Go ou Java; expérience dans la création de services résilients, d'API et d'outils d'automatisation avec une couverture de tests élevée.
- Expérience approfondie avec les solutions d'inférence : configuration de point de terminaison, conteneurisation, packaging de modèles, mise à l'échelle automatique (autoscaling), compromis entre sans serveur (serverless) et temps réel, MME, déploiements A/B et canary.
- Expertise des paradigmes de magasin de fonctionnalités en ligne (online feature store) et des solutions de stockage sous-jacentes dans les contextes de service ML.
- Expérience avérée avec Terraform pour la gestion de l'infrastructure ML et de données de bout en bout : modules, espaces de travail, détection de dérive, révisions de changements et restaurations sécurisées (safe rollbacks); familiarité avec les modèles GitOps.
- Orchestration Airflow à grande échelle : modélisation de dépendances, capteurs, nouvelles tentatives, ANS (SLAs), remplissages rétrospectifs (backfills), usines de DAG et intégrations avec les registres, les magasins d'artefacts et les pipelines Terraform.
- Familiarité avec les frameworks ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l'intégration de la plateforme pour prendre en charge divers environnements d'exécution (runtimes) et conteneurs.
- Observabilité pour les flux de travail ML : métriques/journaux/traces, profilage des performances, planification de la capacité, surveillance des coûts et procédures d'exécution (runbooks).
- Excellente communication et collaboration interfonctionnelle avec la Science des Données, l'Ingénierie des Données, le DevOps et le Backend.
- Machine and data infrastructure solutions for training models
- Real-time inference systems to operate and serve models in a real time production environment.
- High usability and accuracy feature platform capabilities for generating, backfilling and storing user level features.
- High accuracy low latency feature serving layer and preprocessing solutions to support online serving of the models
- Build platform abstractions and golden paths: Airflow DAG templates, CLI/SDKs, cookie-cutter repos, and CI/CD pipelines that take models from notebooks to production predictably.
- Implement end-to-end observability: data/feature freshness checks, drift/quality gates, model performance/latency SLOs, infra health dashboards, tracing, and alerting-plus incident response and postmortems.
- Partner with Security, SRE, and Data Engineering on private networking, policy-as-code, PII handling, least-privilege IAM, and cost-efficient architectures across environments.
- Evaluate, integrate, and rationalize platform tooling (e.g., MLflow registry, feature stores, serving gateways); lead migrations with clear change management and minimal downtime.
- 10+ years building and operating production-grade ML/data platforms with a focus on serving, reliability, and developer experience.
- Strong software engineering in Python, Go, or Java; experience building resilient services, APIs, and automation tooling with high test coverage.
- Deep experience with inference solutions: endpoint configuration, containerization, model packaging, autoscaling, serverless vs. real-time trade-offs, MME, A/B and canary releases.
- Expertise with online feature store paradigms and underlying storage solutions in ML serving contexts.
- Proven Terraform experience managing ML and data infra end-to-end: modules, workspaces, drift detection, change reviews, and safe rollbacks; familiarity with GitOps patterns.
- Airflow orchestration at scale: dependency modeling, sensors, retries, SLAs, backfills, DAG factories, and integrations with registries, artifact stores, and Terraform pipelines.
- Familiarity with ML frameworks (scikit-learn, XGBoost, PyTorch, TensorFlow) from a platform-integration perspective to support diverse runtimes and containers.
- Observability for ML Workflows: metrics/logs/traces, performance profiling, capacity planning, cost monitoring, and runbooks.