Teknologi omformer vår verden. Spredning av mobile enheter, eksplosjonen av sosiale medier og den raske veksten av cloud computing har gitt opphav til en perfekt storm som oversvømmer verden med data. Ifølge Gartner estimater er utfordringen for bedrifter at 80 prosent av disse «store dataene» er ustrukturert, og det vokser med to ganger frekvensen av strukturerte data.
i lys av denne eksponentielle veksten av kaotiske data har det aldri vært større behov for dataløsninger som går utover hva tradisjonelle relasjonsdatabaser kan tilby. Det er her open-source big data analytics-plattformen Apache Hadoop, Og nosql-applikasjonen Apache Cassandra kommer inn i bildet.
det følgende er en kort sammenligning av forskjellene Mellom Hadoop vs. Cassandra, sammen med hvordan disse to løsningene kan utfylle hverandre for å levere kraftig big data innsikt. Sjekk ut et eksempel På Et Hadoop – brukstilfelle, og når plattformen kan pares med Cassandra for optimal ytelse.
Hva Er Hadoop?
Hadoop er et produkt av Apache Software Foundation-Prosjektet, Og Er en stor databehandlingsplattform som benytter åpen kildekode-programvare, et distribuert filsystem (HDFS) og Et programmeringsramme kjent som MapReduce for å lagre, administrere og analysere massivt store sett med ustrukturerte data parallelt på tvers av distribuerte klynger av råvareservere i svært høy skala. Med Hadoop kjører BÅDE HDFS og MapReduce-rammen på samme sett med noder. Dette gjør At Hadoop framework effektivt kan planlegge databehandlingsoppgaver på noder der data allerede lagres. Som et resultat Er Hadoop best egnet for å kjøre nær tid og batchorientert analyse på store innsjøer av» kald», aka historiske data – i flere formater – på en pålitelig og feiltolerant måte.
Mens MapReduce er et robust og pålitelig databehandlingsverktøy, er den største ulempen mangel på fart. Som de fleste kart / redusere jobber er langvarige batch jobber som kan ta minutter eller timer eller enda lenger fullført, er det å forvente. Det er klart at de økende kravene og ambisjonene til big data krever raskere tid til innsikt, noe MapReduce ‘ s batch-arbeidsbelastninger ikke er designet for å levere.
Hva Er Cassandra?
Cassandra Er I Utgangspunktet en distribuert nosql-database designet for å håndtere store mengder strukturerte data på tvers av en rekke råvareservere. Cassandra har en unik arkitektur som gir høy distribusjon, lineær skala ytelse, og er i stand til å håndtere store mengder data samtidig som det gir kontinuerlig tilgjengelighet og oppetid til tusenvis av samtidige brukere. I motsetning Til Hadoop, som vanligvis distribueres på ett sted, Tillater Cassandras høye distribusjon distribusjon på tvers av land og kontinenter. I tillegg Er Cassandra alltid oppe, alltid på, og leverer svært konsistent ytelse i et feiltolerant miljø. Dette gjør Cassandra ideell for behandling av online arbeidsbelastninger av transaksjons natur, Hvor Cassandra håndterer et stort antall interaksjoner og samtidig trafikk med hver interaksjon som gir små mengder data.
i motsetning Til Hadoop, som kan godta og lagre data i alle formater-strukturert—ustrukturert, halvstrukturert, bilder, etc.- Cassandra krever en viss struktur. Som et resultat er det mye å tenke på å strukturere En Cassandra datamodell vs Hadoop-modell før den kan implementeres i stor skala.
Hvordan Sammenligner Cassandra Med HBase?
hbase Er En nosql, distribuert databasemodell som er inkludert I Apache Hadoop-Prosjektet. Den kjører på Toppen Av Hadoop Distributed File System (HDFS). HBase er designet for datasjøbruk og brukes vanligvis ikke til web-og mobilapplikasjoner. Cassandra tilbyr derimot tilgjengeligheten og ytelsen som er nødvendig for å utvikle applikasjoner som alltid er på.
Kombinere Cassandra og Hadoop
dagens organisasjoner har to databehov. Først er behovet for en database viet til online operasjoner og analyse av ‘ hot ‘ data generert Av Web, mobil og iot applikasjoner. For det andre behovet for en batchorientert big data-plattform som støtter behandling av store mengder ‘kalde’ ustrukturerte historiske data. Ved å integrere Cassandra og Hadoop tett for å jobbe sammen, kan begge behovene serveres.
Mens Cassandra fungerer veldig bra som en svært feiltolerant backend for elektroniske systemer, Er Cassandra ikke så analysevennlig Som Hadoop. Distribusjon Av Hadoop på Toppen av Cassandra skaper evnen til å analysere data i Cassandra uten å måtte først flytte dataene til Hadoop. Å flytte Data Fra Cassandra til Hadoop og HDFS er en komplisert og tidkrevende prosess. Dermed Hadoop På Cassandra gir organisasjoner en praktisk måte å få spesifikke operasjonelle analyser og rapportering fra relativt store mengder data bosatt I Cassandra i en real-time mote. Bevæpnet med raskere og dypere big data innsikt, kan organisasjoner som utnytter Både Hadoop og Cassandra bedre møte kundenes behov og få en sterkere kant over sine konkurrenter.