Missions :
Prendre connaissance des schémas de données ;
Choisir l’algorithme distribué le plus à même de répondre au besoin ;
Intégrer l’algorithme dans le workflow existant ;
Effectuer des benchmarks de performance sur les algorithmes en question ;
Profiler les algorithmes pour une meilleure compréhension des écueils ;
Résoudre les problématiques concernées par la performance ;
Intégrer systématiquement ses développements dans un workflow identifié ;
Mettre à jour la documentation associée au workflow ou la créer si besoin ;
Ecrire les tests unitaires et fonctionnels pour chaque application critique ;
Effectuer une évaluation préliminaire des données avant leur utilisation ;
Représenter la fiabilité par des tableau de bord récapitulatifs ;
Investiguer les causes de non-fiabilité et les communiquer ;
Identifier et remonter les dysfonctionnements et les améliorations à apporter à la gestion quotidienne de son activité (processus, procédures, outils, interface…) ;
Proposer des solutions d’améliorations opérationnelles ;
Contribuer le cas échéant au déploiement de ces solutions.
Compétences techniques:
Langages de programmation : Scala, Python ;
Stack Data : Hadoop (Cloudera, de préférence), sqoop, spark, dbt, SQL ;
Bonne connaissance en calcul distribué ;
Bonus : Ansible ;
Système d’exploitation : Windows, RHEL.