Senior / Staff ML Platform Engineer

Toronto, ON Montreal, QC
Permanent
Full-time

30 days ago

Mistplay est l'application de fidélité n°1 pour les joueurs mobiles. Notre communauté de millions de joueurs mobiles engagés utilise Mistplay pour découvrir de nouveaux jeux et gagner des récompenses. Les joueurs sont récompensés pour le temps et l'argent qu'ils consacrent aux jeux et peuvent échanger ces récompenses contre des cartes cadeaux. Mistplay a pour mission d'être le meilleur moyen de jouer à des jeux mobiles pour tous, partout dans le monde ! Téléchargez Mistplay sur le Google Play Store et suivez-nous sur , et .📍 Veuillez noter : Au Canada 🇨🇦, Mistplay suit un modèle hybride de 2 jours/semaine en bureau à Toronto (400 University Ave) & Montréal (1001 Blvd. Robert-Bourassa)Mistplay is the #1 loyalty app for mobile gamers. Our community of millions of engaged mobile gamers come to Mistplay to discover new games to play and earn rewards. Gamers are rewarded for their time and money spent within the games and can redeem those rewards for gift cards. Mistplay is on a mission to be the best way to play mobile games for everyone everywhere! Download Mistplay on the Google Play Store and follow us on , and .📍 Please Note: In Canada 🇨🇦, Mistplay follows a 2 days/week in-office hybrid model in Toronto (400 University Ave) & Montreal (1001 Blvd. Robert-Bourassa)English Description is Below ⬇️Rattaché au vice-président de la plateforme de données et d'apprentissage automatique (Data and Machine Learning Platform), l'ingénieur Staff en plateforme ML au sein de l'équipe de données de Mistplay jouera un rôle clé dans la recherche et le développement de solutions d'apprentissage automatique pour résoudre des problèmes commerciaux complexes. L'ingénieur Staff en plateforme ML travaillera en étroite collaboration avec une équipe interfonctionnelle pour identifier les domaines à améliorer, concevoir et mettre en œuvre des solutions évolutives. L'expérience pertinente peut aller de l'infrastructure de travail et des logiciels pour prendre en charge les applications d'apprentissage automatique sur une grande variété de systèmes de recommandation en ligne, de systèmes d'apprentissage par renforcement ou d'autres applications d'apprentissage automatique en ligne.Ce que vous ferezÊtre le principal moteur et expert pour la conception, la construction et l'exploitation de :

Solutions d'infrastructure machine et de données pour l'entraînement des modèles.

Systèmes d'inférence en temps réel pour exploiter et servir des modèles dans un environnement de production en temps réel.

Capacités de plateforme de fonctionnalités de haute convivialité et précision pour générer, remplir rétrospectivement et stocker des fonctionnalités au niveau de l'utilisateur.

Couche de service de fonctionnalités à haute précision et faible latence, et solutions de pré-traitement pour prendre en charge le service en ligne des modèles.

Construire des abstractions de plateforme et des chemins dorés (golden paths) : modèles Airflow DAG, CLI/SDK, dépôts cookie-cutter et pipelines CI/CD qui font passer les modèles des notebooks à la production de manière prévisible.

Mettre en œuvre l'observabilité de bout en bout : vérifications de la fraîcheur des données/fonctionnalités, portes de dérive/qualité, SLO de performance/latence des modèles, tableaux de bord de santé de l'infrastructure, traçage et alertes, plus réponse aux incidents et analyses post-mortem.

Collaborer avec la sécurité, SRE et l'ingénierie des données sur les réseaux privés, la politique en tant que code, la gestion des informations personnelles identifiables (PII), la gestion des accès et des identités (IAM) du moindre privilège et les architectures rentables dans tous les environnements.

Évaluer, intégrer et rationaliser les outils de plateforme (par exemple, registre MLflow, magasins de fonctionnalités, passerelles de service); mener des migrations avec une gestion claire des changements et un temps d'arrêt minimal.

Ce que vous apporterez

10 ans et plus d'expérience dans la construction et l'exploitation de plateformes ML/de données de qualité production, en mettant l'accent sur le service, la fiabilité et l'expérience développeur.

Solides compétences en génie logiciel en Python, Go ou Java; expérience dans la création de services résilients, d'API et d'outils d'automatisation avec une couverture de tests élevée.

Expérience approfondie avec les solutions d'inférence : configuration de point de terminaison, conteneurisation, packaging de modèles, mise à l'échelle automatique (autoscaling), compromis entre sans serveur (serverless) et temps réel, MME, déploiements A/B et canary.

Expertise des paradigmes de magasin de fonctionnalités en ligne (online feature store) et des solutions de stockage sous-jacentes dans les contextes de service ML.

Expérience avérée avec Terraform pour la gestion de l'infrastructure ML et de données de bout en bout : modules, espaces de travail, détection de dérive, révisions de changements et restaurations sécurisées (safe rollbacks); familiarité avec les modèles GitOps.

Orchestration Airflow à grande échelle : modélisation de dépendances, capteurs, nouvelles tentatives, ANS (SLAs), remplissages rétrospectifs (backfills), usines de DAG et intégrations avec les registres, les magasins d'artefacts et les pipelines Terraform.

Familiarité avec les frameworks ML (scikit-learn, XGBoost, PyTorch, TensorFlow) du point de vue de l'intégration de la plateforme pour prendre en charge divers environnements d'exécution (runtimes) et conteneurs.

Observabilité pour les flux de travail ML : métriques/journaux/traces, profilage des performances, planification de la capacité, surveillance des coûts et procédures d'exécution (runbooks).

Excellente communication et collaboration interfonctionnelle avec la Science des Données, l'Ingénierie des Données, le DevOps et le Backend.

English Description:Reporting to the VP of Data and Machine Learning Platform, the Staff ML Platform Engineer within Mistplay's Data Team will play a key role in researching and developing machine learning solutions to solve complex business problems. The Staff ML Platform Engineer will work closely with a cross-functional team to identify areas for improvement and design and implement scalable solutions. Relevant experience can range from working infrastructure and software to support machine learning applications on a wide variety of online recommendation systems, reinforcement learning systems or other online machine learning applications.What you'll do:Be the main driver and expert for designing, building, and operating:

Machine and data infrastructure solutions for training models

Real-time inference systems to operate and serve models in a real time production environment.

High usability and accuracy feature platform capabilities for generating, backfilling and storing user level features.

High accuracy low latency feature serving layer and preprocessing solutions to support online serving of the models

Build platform abstractions and golden paths: Airflow DAG templates, CLI/SDKs, cookie-cutter repos, and CI/CD pipelines that take models from notebooks to production predictably.

Implement end-to-end observability: data/feature freshness checks, drift/quality gates, model performance/latency SLOs, infra health dashboards, tracing, and alerting-plus incident response and postmortems.

Partner with Security, SRE, and Data Engineering on private networking, policy-as-code, PII handling, least-privilege IAM, and cost-efficient architectures across environments.

Evaluate, integrate, and rationalize platform tooling (e.g., MLflow registry, feature stores, serving gateways); lead migrations with clear change management and minimal downtime.

What you'll bring:

10+ years building and operating production-grade ML/data platforms with a focus on serving, reliability, and developer experience.

Strong software engineering in Python, Go, or Java; experience building resilient services, APIs, and automation tooling with high test coverage.

Deep experience with inference solutions: endpoint configuration, containerization, model packaging, autoscaling, serverless vs. real-time trade-offs, MME, A/B and canary releases.

Expertise with online feature store paradigms and underlying storage solutions in ML serving contexts.

Proven Terraform experience managing ML and data infra end-to-end: modules, workspaces, drift detection, change reviews, and safe rollbacks; familiarity with GitOps patterns.

Airflow orchestration at scale: dependency modeling, sensors, retries, SLAs, backfills, DAG factories, and integrations with registries, artifact stores, and Terraform pipelines.

Familiarity with ML frameworks (scikit-learn, XGBoost, PyTorch, TensorFlow) from a platform-integration perspective to support diverse runtimes and containers.

Observability for ML Workflows: metrics/logs/traces, performance profiling, capacity planning, cost monitoring, and runbooks.

Excellent communication and cross-functional collaboration with Data Science, Data Engineering, DevOps and Backend.*Nous remercions tous(tes) les candidat(e)s. Le genre masculin a été utilisé dans le but d'alléger le texte. Nous souscrivons au principe de l'équité en matière d'emploi.Pourquoi choisir Mistplay ?Nous faisons tout pour rendre notre environnement de travail aussi accueillant et plaisant que possible ! Un poste chez Mistplay s'accompagne de toute une série d'avantages que nous proposons en mode virtuel ou présentiel : déjeuners d'équipe, soirées jeux, événements à l'échelle de l'entreprise, et bien plus encore.Notre culture est profondément ancrée dans la croissance et soutenue par une équipe de personnes intelligentes, dynamiques et enthousiastes. Nous utilisons les données pour apprendre, améliorer et adapter en permanence. Nous favorisons un environnement dans lequel chacun est encouragé à partager ses idées, à repousser les limites, à prendre des risques calculés et à voir ses visions se concrétiser.Why Mistplay?We strive to make our work environment as inviting and fun as possible! Working at Mistplay is coupled with a whole array of perks that we've adopted virtually and in-person: Team Lunches, game nights, company-wide events, and so much more. Our culture is deeply rooted in growth and upheld by a team of smart, dynamic, and enthusiastic people. We utilize data to constantly learn, improve, and adapt. We foster an environment where everyone is encouraged to share their ideas, push boundaries, take calculated risks, and witness their visions come to life.We may use artificial intelligence (AI) tools to support parts of the hiring process, such as reviewing applications, analyzing resumes, or assessing responses. These tools assist our recruitment team but do not replace human judgment. Final hiring decisions are ultimately made by humans. If you would like more information about how your data is processed, please contact us.

Mistplay

Apply Now