Data Engineer senior (Azure) - Contrat at MIA Innovation — NeverHard
Data Engineer senior (Azure) - Contrat at MIA Innovation in Montréal, Québec. Skills: AI, Azure, Azure Functions, Compliance, Confidentiality. Apply on NeverHard.
Company
MIA Innovation
Location
Montréal, Québec
Type
contract
Required skills:
AI
Azure
Azure Functions
Compliance
Confidentiality
CosmosDB
Data Engineering
Data Lake
JSON
RAG
Job DescriptionJob DescriptionSalary:
Mandat contractuel Data Engineer senior (Azure)
Secteur : services juridiques
Montreal - Hybride ou Remote - Canada
Contexte
Un cabinet juridique en croissance dveloppe une plateforme d'intelligence artificielle reposant sur un Data Lake et un systme RAG (Retrieval Augmented Generation). Le prsent mandat porte sur la fondation data de cette plateforme : consolider des donnes aujourd'hui disperses entre plusieurs outils (gestion de cabinet juridique, comptabilit, gestion documentaire) dans un Modle de Donnes Commun (CDM) propre, neutre et conforme, qui alimentera le pipeline RAG et les agents conversationnels.
L'quipe d'ingnierie IA est dj en place et prend en charge tout l'aval (vectorisation, indexation, agents). Le mandat se concentre strictement sur l'ingnierie de donnes en amont : de la couche brute (Bronze) vers la couche normalise (Silver / CDM).
Les donnes traites relvent du domaine juridique (dossiers, mandats, facturation, documents de cabinet) et sont par nature sensibles : le mandat s'exerce dans un cadre de confidentialit leve et de conformit la Loi 25.
Mission
Concevoir et livrer le pipeline qui transforme les donnes brutes en un CDM exploitable dans Cosmos DB, prt tre consomm par le pipeline RAG.
Responsabilits principales
Dvelopper les Azure Functions de transformation Bronze Silver (architecture vnementielle).
Parser et normaliser des structures JSON imbriques complexes provenant des outils mtier (dossiers, factures, lignes de facturation, contacts clients).
Concevoir et crire le Modle de Donnes Commun (CDM) dans Cosmos DB, en gardant le modle neutre vis--vis des outils sources (un changement d'outil = un changement de connecteur, pas du CDM).
Mettre en place le nettoyage qualit : normalisation UTF-8 stricte (corruptions de caractres hrites d'anciens systmes juridiques legacy et de fichiers macOS), gestion des dossiers incomplets ou mal lis.
Appliquer le filtrage de conformit : exclusion des champs sensibles (taux et conditions individuels, informations bancaires) de la chane destine au RAG, en cohrence avec la Loi 25.
(Phase ultrieure) Dvelopper la synchronisation documentaire via Microsoft Graph API (cration/archivage de rpertoires SharePoint dclenchs par le Change Feed Cosmos DB).
Documenter le pipeline et assurer le transfert de connaissances vers l'quipe d'ingnierie IA.
Hors primtre
Vectorisation, embeddings, indexation Azure AI Search, conception des agents et des chatbots pris en charge par l'quipe d'ingnierie IA. Aucune tche de science des donnes (ML, modlisation statistique) n'est requise.
Comptences requises
Indispensables
Niveau : Senior et autonomie
Azure Functions (serverless, architecture vnementielle)
Cosmos DB : modlisation et Change Feed
Azure Table Storage / Blob Storage
ETL/ELT, transformation et parsing de JSON imbriqu
Python et/ou .NET (selon la stack des Functions)
Pratiques de qualit de donnes (normalisation, dduplication, gestion des donnes incompltes ou corrompues)
Atouts
Intgration d'API mtier (gestion de cabinet juridique, comptabilit, Microsoft Graph API)
Exprience de donnes relles dgrades issues de systmes legacy (problmes d'encodage, hritage de logiciels anciens)
Sensibilisation la Loi 25 / protection des renseignements personnels, idalement en contexte de donnes juridiques sensibles
Notions d'architecture oriente RAG (pour bien dimensionner la sortie du CDM)
Pourquoi ce rle est critique
Le CDM est la fondation de la plateforme : tant qu'il n'est pas livr et propre, le pipeline RAG ne peut pas tre aliment. C'est une dpendance bloquante du chemin critique d'o l'importance de pourvoir ce mandat en priorit et de dmarrer ds l'ouverture du projet.
Note : le nettoyage de donnes relles est variance leve. La dure est communique en fourchette afin d'absorber les imprvus de qualit de donnes.