Migration algorithme : Clustering de Hadoop vers Spark (H/F)

Migration algorithme : Clustering de Hadoop vers Spark (H/F)

Mission

Dans le cadre de ses activités dans le domaine du Big Data, Infotel a développé un algorithme de rapprochement de publications scientifiques basé sur des données bibliographiques. Il est destiné à constituer des agrégats de documents stockés dans une base MongoDB notamment afin d’identifier d’éventuels doublons. Ce processus requiert le brassage de plusieurs milliards de clés et est actuellement réalisé via plusieurs jobs Hadoop successifs lancés sur le cluster Big Data Infotel.

L’objectif du stage est de migrer cet algorithme vers Spark afin d’évaluer les optimisations techniques possibles par cette plateforme. Dans cette optique le / la stagiaire sera en charge des tâches suivantes :

  • Analyser les sources existantes (Hadoop) et prendre connaissance de l’algorithme existant ainsi que des différentes règles métier.
  • Adapter cet algorithme afin de correspondre au paradigme de la programmation fonctionnelle.
  • Procéder à l’implémentation sous forme de code exécutable via Spark.
  • Exécuter le programme résultant sur le cluster Big Data Infotel.
  • Identifier les optimisations techniques liées à la distribution du code.

Environnement

Le stage sera effectué au sein des équipes travaillant sur des problématiques Big Data. Poste de développement Linux / Windows, un cluster de 10 machines sera mis à la disposition du stagiaire orchestré par Mesos, gestionnaire de sources Git, IDE Java / Scala.

Compétences requises

Niveau Bac+5 d’école d’ingénieur ou d’université avec une spécialisation en développement informatique. Vous cultivez un fort intérêt pour l’innovation, en particulier liée au monde de la mobilité et la data science.

  • Environnement : Linux
  • Langages et frameworks : Java, Scala
  • Notions : Calcul distribué, Big Data, programmation fonctionnelle, Map reduce

Lieu & durée du stage

Stage à pouvoir dès que possible pour une durée minimale de 6 mois, dans nos locaux de Bagnolet, Tour Gallieni II (métro Gallieni).A l’issue du stage, le stagiaire pourra se voir proposer un emploi CDI chez Infotel.

Votre candidature

Votre CV et lettre de motivation sont à adresser à recrutement-paris@infotel.com sous la référence : P17005.