Dernière mise à jour le 22/03/2023

Spark Java, développer des applications pour le Big Data

Informations générales

Type de formation : Formation continue
Domaine : Bases de données & Big Data
Filière : Big Data
Rubrique : Fondamenteaux
Formation éligible au CPF : Non
Formation Action collective : Non

Objectifs & compétences

À l’issue de la formation, le participant sera en mesure de :
Maîtriser les concepts fondamentaux de Spark
Développer des applications avec Spark Streaming
Mettre en œuvre un cluster Spark
Exploiter des données avec Spark SQL
Avoir une première approche du Machine Learning

Public visé

Développeurs, architectes.

Pré-requis

Bonnes connaissances du langage Java. Connaissances en Big Data.
Vérifiez que vous avez les prérequis nécessaires pour profiter pleinement de cette formation en faisant

Programme

Programme de la formation
Présentation d'Apache Spark
Historique du Framework.
Les différentes versions de Spark (Scala, Python et Java).
Comparaison avec l'environnement Apache Hadoop.
Les différents modules de Spark.
Travaux pratiques
Installation et configuration de Spark. Exécution d'un premier exemple avec le comptage de mots.

Programmer avec les Resilient Distributed Dataset (RDD)
Présentation des RDD.
Créer, manipuler et réutiliser des RDD.
Accumulateurs et variables broadcastées.
Utiliser des partitions.
Travaux pratiques
Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

Manipuler des données structurées avec Spark SQL
SQL, DataFrames et Datasets.
Les différents types de sources de données.
Interopérabilité avec les RDD.
Performance de Spark SQL.
JDBC/ODBC server et Spark SQL CLI.
Travaux pratiques
Manipulation de Datasets via des requêtes SQL. Connexion avec une base externe via JDBC.

Spark sur un cluster
Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
Configurer un cluster en mode Standalone.
Packager une application avec ses dépendances.
Déployer des applications avec Spark-submit.
Dimensionner un cluster .
Travaux pratiques
Mise en place d'un cluster Spark.

Analyser en temps réel avec Spark Streaming
Principe de fonctionnement.
Présentation des Discretized Streams (DStreams).
Les différents types de sources.
Manipulation de l'API.
Comparaison avec Apache Storm.
Travaux pratiques
Consommation de logs avec Spark Streaming.

Manipuler des graphes avec GraphX
Présentation de GraphX.
Les différentes opérations.
Créer des graphes.
Vertex and Edge RDD.
Présentation de différents algorithmes.
Travaux pratiques
Manipulation de l'API GraphX à travers différents exemples.

Machine Learning avec Spark
Introduction au Machine Learning.
Les différentes classes d'algorithmes.
Présentation de SparkML et MLlib.
Implémentations des différents algorithmes dans MLlib.
Travaux pratiques
Utilisation de SparkML et MLlib.

Modalités

Modalités : en présentiel, distanciel ou mixte – Horaires de 9H à 12H30 et de 14H à 17H30 soit 7H – Intra et Inter entreprise
Pédagogie : essentiellement participative et ludique, centrée sur l’expérience, l’immersion et la mise en pratique. Alternance d’apports théoriques et d’outils pratiques.
Ressources techniques et pédagogiques : Support de formation au format PDF ou PPT Ordinateur, vidéoprojecteur, Tableau blanc, Visioconférence : Cisco Webex / Teams / Zoom
Pendant la formation : mises en situation, autodiagnostics, travail individuel ou en sous-groupe sur des cas réels

Méthodes

Fin de formation : entretien individuel
Satisfaction des participants : questionnaire de satisfaction réalisé en fin de formation
Assiduité : certificat de réalisation (validation des acquis)
Contact : contact@astonbysqli.com
Code de formation : BD021

Tarifs

Tarif & financement :
Nous vous accompagnons pour trouver la meilleure solution de financement parmi les suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation.
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
  • CPF -MonCompteFormation
Contactez nous pour plus d’information

Lieux & Horaires

Durée : 21 heures
Délai d'accès : 8 Jours

Prochaines sessions

Handi-accueillante Accessible aux personnes en situations de handicap. Pour toutes demandes, contactez notre référente, Mme Rizlene Zumaglini Mail : rzumaglini@aston-ecole.com

à voir aussi dans le même domaine...

Formation continue

Big Data

BD019

Développer des applications pour Spark avec Hadoop Cloudera avec Certification

Identifier et utiliser les outils appropriés à chaque situation dans un écosystème hadoop
Utiliser Apache Spark et l'intégrer dans l'écosystème hadoop
Utiliser Sqoop, Kafka, Flume, Hive et Impala

28 heures de formations sur 4 Jours
En savoir plus

Formation continue

Big Data

BD002

Introduction à NoSQL

Connaître les caractéristiques techniques des bases de données NoSQL, les différentes solutions disponibles. Identifier les critères de choix.

7 heures de formations sur 1 Jours
En savoir plus

Formation continue

Big Data

BD020

ElasticStack : présentation

Comprendre le fonctionnement et les apports d'Elastic Stack et de ses composants (Elasticsearch, Logstash, Kibana, Beats) dans le traitement des données..

7 heures de formations sur 1 Jours
En savoir plus

Formation continue

Big Data

BD003

Big Data – L’essentiel

Comprendre le concept du Big Data
Être capable d'identifier l’écosystème et comprendre les technologies associées
Savoir anticiper son intégration dans les activités informatiques de l'entreprise
Être en mesure de l'exploiter dans le respect des règles de sécurité et de confidentialité

14 heures de formations sur 2 Jours
En savoir plus

Formation continue

Big Data

BD022

ElasticSearch : infrastructure et administration

Comprendre le fonctionnement d'Elasticsearch, savoir l'installer et le configurer, gérer la sécurité avec X-Pack, et installer / configurer kibana pour le mapping sur les données Elasticsearch.

14 heures de formations sur 2 Jours
En savoir plus

Formation continue

Big Data

BD004

Big Data – Enjeux et perspectives

Disposer d'une vision claire du Big Data et de ses enjeux
Connaître les concepts sous-jacents
Comprendre comment les entreprises les plus avancées, dans tous les secteurs économiques, ont mis en place et tiré profit de projets Big Data
Connaitre les informations essentielles pour lancer une initiative Big Data
Connaitre l'écosystème, et les principales technologies et solutions associées au Big Data
Savoir mesurer les impacts de tels projets sur l'entreprise et son organisation

14 heures de formations sur 2 Jours
En savoir plus