Développement d’un modèle d’enrichissement de données texte en environnement Big Data (H/F)

Développement d’un modèle d’enrichissement de données texte en environnement Big Data (H/F)

Mission

Le stage a pour but d’automatiser des processus d’enrichissement de texte brut. Dans le cadre de son activité de traitement documentaire, l’équipe Big Data d’Infotel est amenée à concevoir des systèmes d’extraction, transformation et chargement capables de gérer une volumétrie très importante de données. Certains documents comme les publications scientifiques ne peuvent pas encore être traitées avec une qualité optimale : Les références bibliographiques sont en effet renseignées sans norme stricte pour les structurer. Il est donc difficile de classer et valoriser ces données sans une intervention humaine pour reconnaître les différentes clés bibliographiques. (Auteur, numéro de page, magazine de publication, DOI, ISSN, ISBN, date de parution)

 

L’objectif du stage est donc de mettre en œuvre via des algorithmes de machine learning un modèle permettant d’extraire ces clés bibliographiques.

Le stagiaire pourra participer aux développements de processus d’ETL Big Data de migration DB2 -> NoSql.

Environnement

Le stage sera effectué au sein d’une équipe à dominante Big Data travaillant pour un organisme de propriété intellectuelle. Poste de dev windows et ou linux, gestionnaire de sources Git, cluster d’une dizaine de machines hébergeant une plateforme Hadoop / Spark sur du debian.

Compétences requises

Niveau Bac+5 d’école d’ingénieur ou d’université avec une spécialisation en développement informatique. Vous cultivez un fort intérêt pour l’innovation, en particulier liée au monde de la mobilité. La connaissance de Linux, docker, Java, Scala, R, python, Hadoop, Map-reduce, Mesos, apprentissage supervisé et non supervisé, clustering, data science, text mining et statistiques.

Le/la stagiaire devra faire preuve d’indépendance et être force de proposition concernant les outils et modèles utiles à la réalisation du stage.

Lieu & durée du stage

Stage à pouvoir dès que possible pour une durée minimale de 6 mois, dans nos locaux de Bagnolet, Tour Gallieni II (métro Gallieni).A l’issue du stage, le stagiaire pourra se voir proposer un emploi CDI chez Infotel.

Votre candidature

Votre CV et lettre de motivation sont à adresser à recrutement-paris@infotel.com sous la référence : P17007.