
Site Reliability Engineer - Observability
- Montreal, QC
- Permanent
- Full-time
- Company-wide Observability & Monitoring: Define and maintain an observability framework across products; ensure coverage for APIs, scraping systems, payments, enrichment, and document services; establish SLIs/SLOs aligned to client expectations.
- Alerting & Incident Management: Build consistent, low-noise alerting rules; integrate observability into Incident.io workflows; lead cross-product RCA; maintain a “single source of truth” for reliability metrics.
- Reliability Analysis & Insights: Deliver monthly/quarterly scorecards linking reliability to client outcomes (e.g., churn risk, adoption blockers); analyze trends and recurring failures; translate data into executive insights.
- Automation & AI-Enabled Observability: Automate anomaly detection, escalation, and self-healing; partner with the AI team; optimize logging and monitoring spend.
- Collaboration & Enablement: Champion observability practices across teams; train PMs, QA, and Engineers; ensure insights influence roadmaps; collaborate with Tech Leadership to build observability in from the start.
- Experience: 5–8 years in SRE, Observability, or Reliability roles, ideally across multiple product environments (fintech, SaaS, or data platforms).
- Technical Skills: Strong in observability tooling (Grafana, Prometheus, OpenTelemetry, ELK); Hands on experience with tracing and profiling tools (APM, OTEL, Pyroscope); experience with distributed systems, APIs, and data pipelines; strong automation skills (Kubernetes).
- Strong programming skills with working knowledge of at least one programming language; C# and Go are preferred, but experience in other languages will also be considered valuable.
- Mindset:
- Systems thinker who sees the big picture.
- Business-aware, connecting reliability to retention and profitability.
- Proactive, anticipating failures before they occur.
- Collaborative, working across product, QA, engineering, and reliability.
- Experience in fintech or high-availability SaaS environments.
- Familiarity with payments infrastructure and fraud detection systems.
- Contributions to open-source observability tools or frameworks.
- Ensures all products have consistent reliability and observability standards.
- Provides a single source of truth for performance and reliability across the org.
- Directly improves client trust, profitability, and operational efficiency.
- Enables proactive stability management across Flinks’ core product lines.
- Supports our shift to a cohesive, reliable, platform-first mindset at scale.
- Head of People
- Director of IT Ops
- Technical Challenge
- Panel Interview
- Observabilité et surveillance à l’échelle de l’entreprise : Définir et maintenir un cadre d’observabilité à travers les produits; assurer la couverture des API, systèmes de scraping, paiements, enrichissement et services documentaires; établir des SLIs/SLOs alignés sur les attentes des clients.
- Alertes et gestion des incidents : Construire des règles d’alerte cohérentes et à faible bruit; intégrer l’observabilité dans les flux de travail Incident.io; diriger les RCA inter-produits; maintenir une “source unique de vérité” pour les métriques de fiabilité.
- Analyse et insights de fiabilité : Produire des rapports mensuels/trimestriels reliant la fiabilité aux résultats clients (ex. : risque de churn, freins à l’adoption); analyser les tendances et échecs récurrents; traduire les données en insights stratégiques pour la direction.
- Automatisation et observabilité augmentée par l’IA : Automatiser la détection d’anomalies, l’escalade et l’auto-réparation; collaborer avec l’équipe IA; optimiser les coûts de journalisation et de monitoring.
- Collaboration et accompagnement : Promouvoir les bonnes pratiques d’observabilité dans toutes les équipes; former les PM, QA et Ingénieurs; s’assurer que les insights influencent les roadmaps; collaborer avec la direction technologique pour intégrer l’observabilité dès la conception.
- 5 à 8 ans d’expérience en SRE, Observabilité ou Fiabilité, idéalement dans des environnements multi-produits (fintech, SaaS ou plateformes de données).
- Solide maîtrise des outils d’observabilité (Grafana, Prometheus, OpenTelemetry, ELK).
- Expérience pratique avec les outils de traçage et de profilage (APM, OTEL, Pyroscope).
- Connaissance des systèmes distribués, des APIs et des pipelines de données.
- Compétences avancées en automatisation (Kubernetes).
- Solides compétences en programmation, avec maîtrise d’au moins un langage; C# et Go sont privilégiés, mais l’expérience avec d’autres langages est également valorisée.
- Penseur systémique, capable de voir la vue d’ensemble.
- Orienté affaires, reliant fiabilité à rétention et rentabilité.
- Proactif, anticipant les défaillances avant qu’elles ne surviennent.
- Collaboratif, travaillant à travers Produit, QA, Ingénierie et Fiabilité.
- Expérience dans la fintech ou les environnements SaaS haute disponibilité.
- Familiarité avec l’infrastructure de paiements et les systèmes de détection de fraude.
- Contributions à des outils ou frameworks d’observabilité open source.
- Garantit que tous les produits disposent de normes de fiabilité et d’observabilité cohérentes.
- Fournit une source unique de vérité pour la performance et la fiabilité à travers l’organisation.
- Améliore directement la confiance des clients, la rentabilité et l’efficacité opérationnelle.
- Permet une gestion proactive de la stabilité pour les lignes de produits principales de Flinks.
- Soutient notre passage à une mentalité cohérente, fiable et platform-first à grande échelle.
We are sorry but this recruiter does not accept applications from abroad.