SPARK est un moteur d'analyse de données massive, sa richesse fonctionnelle lui confère une utilisation tant par les Data Ingénieurs que par les Data Scientists pour des besoins de préparation de données, d'analyse de données interactive et de Machine Learning :

  • Il est libre de droit et soutenu par des acteurs majeurs. Spark tire naturellement parti des infrastructures Big Data,
  • Il est accessible par Scala, Python, R et via des notebook, Spark est rendu accessible aux non développeurs,
  • Il est utilisé pour la mise en production batch et/ou du temps réel,
  • Librairies de Machine Learning à grande échelle dotées d'algorithmes et de fonctions adaptées aux données massives : hashing, collaborative filtering.

Prochaine session :
les 26, 27 et 28 mars 2019 à Paris

Je m'inscris

Objectifs de la formation et compétences visées :

L'objectif de la formation est :

  • Comprendre l'utilisation de Spark en Big Data,
  • Comprendre la différence entre les différents langages et le fonctionnement de Spark,
  • Manipuler et analyser les données de manière interactive en environnement notebook,
  • Réaliser des modèles supervisés et non supervisés de Machine Learning.

Profil concerné :

  • Data Scientist,
  • Data Analyst, Data Miner,
  • Statisticien,
  • Data Ingénieurs,
  • Spécialiste BI et Data.

Prérequis :

  • Compétences en traitement de données,
  • Connaissances SQL,
  • Connaissances d'un langage Python ou R ou SAS.

Modalités :

  • 1 800 € HT / personne (2 160 TTC €),
  • Formation en intra entreprise possible, nous consulter,
  • 9h - 17h30 (21 heures de formation),
  • Déjeuners compris dans le coût de la formation.

Modalités d'évaluation :

  • 50 % du temps global de la formation est dédié aux exercices et démonstrations.

Programme :

Jour 1 : Les fondamentaux

  • Situer Spark, quels usages Data ?
  • Spécificités moteur Spark (lazy, driver, in memory…),
  • Langages : Scala vs Pyspark, Pyspark vs Python,
  • Développement, batch, déploiement, programmation, monitoring, debugging.

Jour 2 : Manipuler et explorer les données

  • Rappels langage et syntaxe Python,
  • RDD : comment structurer le non structuré,
  • Dataframe, Spark.SQL,
  • Algorithmes supervisés avec Scikit-Learn,
  • Lecture de fichiers, connecteurs HIVE, json…

Jour 3 : Machine Learning « at Scale »

  • Concepts de Machine Learning et spécificités à l'échelle : hashing trick…,
  • MLlib, vocabulaire,
  • Feature engineering,
  • Algorithmes supervisés et non supervisés,
  • Exercices : analyse de sentiment, moteur de recommandation, scores.

Inscription :

Prochaine session :
les 26, 27 et 28 mars 2019 à Paris

Je m'inscris

Numéro d'agrément de formation : 11 75 43610 75

Adresse

55, quai de Grenelle | 75015 PARIS
Pour voir le plan cliquez ici

Pour tous renseignements, contacter Ilana Cerini au : 01 73 00 55 00

La Sté Soft Computing SA a publié ce contenu, le 28 mars 2019, et est seule responsable des informations qui y sont renfermées.
Les contenus ont été diffusés par Public non remaniés et non révisés, le27 mars 2019 01:54:07 UTC.

Document originalhttps://www.softcomputing.com/news/formation-spark-la-data-science-a-lechelle-avec-spark/

Public permalinkhttp://www.publicnow.com/view/533C8139D89061305E8EA8559D69166283321E04