Hadoop : l'outil de traitement des données massives

Dans notre blog précédent nous avons appris que la plateforme qui traite et organise les Big Data est Hadoop. Nous allons ici en apprendre davantage sur Hadoop, qui est une plateforme centrale permettant de structurer les données volumineuses et de résoudre les problèmes liés à leur utilisation à des fins d'analyse. Il s'agit d'un cadre logiciel Open Source pour le stockage et le traitement distribués de Big Data sur des grappes de matériel de base.

Principales caractéristiques de Hadoop :

Hautement évolutive (mise à l'échelle)
Matériel de base
Source ouverte, faibles coûts d'acquisition et de stockage

Hadoop est essentiellement divisé en deux parties, à savoir : HDFS et Mapreduce cadre. Un cluster Hadoop est spécialement conçu pour stocker et analyser d'énormes quantités de données non structurées. La charge de travail est répartie entre plusieurs nœuds de cluster qui traitent les données en parallèle.

Histoire de Hadoop

Doug Cutting est le cerveau de Hadoop, qui trouve son origine dans l'industrie des télécommunications. Apache et Nutch. Nutch a été lancé en 2002 et est lui-même un moteur de recherche web Open Source. Google a publié l'article qui a introduit Mapreduce dans le monde. Début 2005, les développeurs de Nutch ont mis en œuvre Mapreduce dans Nutch. En février 2006, Hadoop a été créé en tant que projet indépendant par Nutch. En janvier 2008, Hadoop est devenu son propre projet de haut niveau au sein d'Apache et, à cette époque, de grandes entreprises comme Yahoo et Facebook ont commencé à utiliser Hadoop.

HDFS est le premier aspect et Mapreduce est l'aspect secondaire de Hadoop. HDFS a une architecture qui l'aide à traiter les données et à les organiser. Pour entrer dans les détails de HDFS, de son architecture, de son fonctionnement et de plusieurs autres concepts, gardez un œil sur les blogs qui seront publiés dans les jours à venir.

Prenez contact avec nous.

Manasa Heggere

Développeur senior Ruby on Rails

Abonnez-vous pour les dernières mises à jour

À propos de l'auteur du message

administrateur

Voir les messages de l'auteur

Biscuit	Durée	Description
cookielawinfo-checkbox-analytics	11 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie « Analytics ».
cookielawinfo-checkbox-fonctionnel	11 mois	Le cookie est défini par le consentement aux cookies du RGPD pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie « Fonctionnel ».
cookielawinfo-case à cocher-nécessaire	11 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie « Nécessaire ».
cookielawinfo-checkbox-autres	11 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Autre".
cookielawinfo-checkbox-performance	11 mois	Ce cookie est défini par le plugin GDPR Cookie Consent. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie « Performance ».
visualisé_cookie_policy	11 mois	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.

L'outil de traitement des données volumineuses - Hadoop

Abonnez-vous pour les dernières mises à jour

À propos de l'auteur du message

administrateur

Laissez un commentaire Annuler la réponse

Navigation Rapide

Nos services

Informations de contact