Press "Enter" to skip to content

Qu'est-ce que Spark Streaming CheckPoint et qu'est-ce que cela signifie ?

Qu'est-ce que Spark Streaming Checkpoint Un processus d'écriture des enregistrements reçus à des intervalles de point de contrôle sur HDFS est un point de contrôle. Il est obligatoire que l'application de streaming fonctionne 24h/24 et 7j/7.

Q. Une machine virtuelle Spark peut-elle lire des données à partir de HDFS ?

Ceci est un petit exemple sur la façon de compter les mots des fichiers entrants qui sont stockés dans HDFS. Notez que le streaming Spark peut lire les données de HDFS mais aussi de Flume, Kafka, Twitter et ZeroMQ. Pour notre exemple, la machine virtuelle (VM) de Cloudera a été utilisée ( CDH5.3 ). Depuis la ligne de commande, ouvrons le shell spark avec spark-shell.

Q. Quels sont les différents types de points de contrôle Apache Spark ?

Les points de contrôle Apache Spark sont de deux catégories : 5.1. Points de contrôle fiables – Les points de contrôle dans lesquels le RDD réel existe dans le système de fichiers distribué fiable, par exemple HDFS. Nous devons appeler la méthode suivante pour définir le répertoire de point de contrôle Lors de l'exécution sur le cluster, le répertoire doit être un chemin HDFS.

Q. Comment puis-je ajouter une étincelle à mon HDFS ?

Créez un répertoire HDFS "/user/cloudera/sparkStreaming" où vous ajouterez vos fichiers entrants (cela peut être fait depuis la ligne de commande unix ( hadoop fs -mkdir /user/cloudera/sparkStreaming) ou depuis l'interface web Hue (disponible sur le navigateur à l'adresse http://quickstart.cloudera:8888). Ensuite, à partir de spark-shell, exécutez le programme.

Q. Quels sont les différents types de points de contrôle des étincelles ?

Il existe deux types de points de contrôle d'étincelles, à savoir les points de contrôle fiables et les points de contrôle locaux. Dans ce didacticiel de diffusion d'étincelles, nous apprendrons les deux types en détail. Aussi, pour en savoir plus sur une comparaison de checkpointing & persist () dans Spark. 2. Qu'est-ce que Spark Streaming Checkpoint

Q. Un point de contrôle dstream à des intervalles de temps spécifiés peut-il ?

Dans Streaming, DStreams peut contrôler les données d'entrée à des intervalles de temps spécifiés. Pour sa possibilité, doit vérifier suffisamment d'informations pour le système de stockage tolérant aux pannes afin qu'il puisse récupérer des pannes. Les points de contrôle des données sont de deux types. 2.1. Point de contrôle des métadonnées

Q. Une application de streaming peut-elle fonctionner sans point de contrôle ?

Pour récupérer avec les informations de progression, nous utilisons des points de contrôle de métadonnées. Remarque : En dehors de ce qui est mentionné ci-dessus, de simples applications de streaming peuvent s'exécuter, sans activer les points de contrôle. Dans ce cas, la récupération des défaillances du pilote sera également partielle. N'oubliez pas non plus que certaines données reçues mais non traitées peuvent être perdues.