Verktyget för bearbetning av stora datamängder - Hadoop

I vår föregående blogg lärde vi oss att den plattform som bearbetar och organiserar Big Data är  Hadoop. Här kommer vi att lära oss mer om Hadoop som är en kärnplattform för strukturering av Big Data och löser problemen med att använda den för analytiska ändamål. Det är ett ramverk för programvara med öppen källkod för distribuerad lagring och distribuerad bearbetning av Big Data på kluster av råhårdvara.

Hadoops viktigaste egenskaper:

  • Mycket skalbar (skalas ut)
  • Baserad på standardhårdvara
  • Open Source, låga anskaffnings- och lagringskostnader

Hadoop är i princip uppdelad i två delar, nämligen : HDFS och Mapreduce ramverk. Ett Hadoop-kluster är speciellt utformat för att lagra och analysera stora mängder ostrukturerade data. Arbetsbelastningen fördelas över flera klusternoder som arbetar med att bearbeta data parallellt.

Hadoops historia

Doug Cutting är hjärnan bakom Hadoop som har sitt ursprung i Apache och Nutch. Nutch startades 2002 och är i sig själv en Open Source-sökmotor för webben. Google publicerade det dokument som introducerade Mapreduce för världen. I början av 2005 hade Nutch-utvecklarna en fungerande Mapreduce-implementering i Nutch. I februari 2006 bildades Hadoop som ett självständigt projekt av Nutch. I januari 2008 blev Hadoop ett eget toppnivåprojekt hos Apache och vid den här tiden började stora företag som Yahoo och Facebook använda Hadoop.

HDFS är den första aspekten och Mapreduce är den sekundära aspekten av Hadoop. HDFS har en arkitektur som hjälper den att bearbeta data och organisera den. För att få mer information om HDFS, dess arkitektur, funktion och flera andra begrepp, håll ett öga på de bloggar som kommer att publiceras under de kommande dagarna.

 Kontakta oss.

Manasa Heggere

Senior Ruby on Rails-utvecklare

Prenumerera för de senaste uppdateringarna

relaterade inlägg

Om inläggsförfattare

Lämna en kommentar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *


sv_SESwedish