teknologia muokkaa maailmaamme. Mobiililaitteiden yleistyminen, sosiaalisen median räjähdysmäinen kasvu ja pilvilaskennan nopea kasvu ovat synnyttäneet täydellisen myrskyn, joka tulvii maailmaan dataa. Gartnerin arvioiden mukaan yritysten haasteena on, että 80 prosenttia tästä ”big datasta” on rakentamatonta, ja se kasvaa kaksi kertaa strukturoitua dataa nopeammin.
tämän kaoottisen datan eksponentiaalisen kasvun valossa ei ole koskaan ollut suurempaa tarvetta dataratkaisuille, jotka ylittävät sen, mitä perinteiset relaatiotietokannat voivat tarjota. Siinä kuvaan astuvat avoimen lähdekoodin big data analytics-alusta Apache Hadoop ja NoSQL-sovellus Apache Cassandra.
Seuraavassa on lyhyt vertailu Hadoop vs. Cassandran välisistä eroista sekä siitä, miten nämä kaksi ratkaisua voivat täydentää toisiaan tuottaakseen tehokkaita big data-oivalluksia. Tutustu yksi esimerkki Hadoop käyttötapaus, ja kun Alustan voidaan pariksi Cassandra optimaalisen suorituskyvyn.
mikä on Hadoop?
Apache Software Foundation-projektin tuote Hadoop on suuri tietojenkäsittelyalusta, joka hyödyntää avoimen lähdekoodin ohjelmistoja, hajautettua tiedostojärjestelmää (HDFS) ja Ohjelmointikehystä, joka tunnetaan nimellä MapReduce, tallentamaan, hallitsemaan ja analysoimaan massiivisen suuria jäsentämättömiä datasarjoja rinnakkain hajautettujen hyödykkeiden palvelimien klustereissa erittäin suuressa mittakaavassa. Hadoopissa sekä HDFS että Mapreducekehys toimivat samoilla solmukohdilla. Näin Hadoop-kehys voi tehokkaasti ajoittaa tehtävien laskemisen solmuilla, joihin tietoja jo tallennetaan. Näin ollen Hadoop soveltuu parhaiten aika-ja eräkohtaiseen analyysiin laajoilla ”kylmillä” järvillä eli historiatiedoilla—useassa muodossa—luotettavalla ja vikasietoisella tavalla.
vaikka MapReduce on kestävä ja luotettava tietojenkäsittelytyökalu, sen suurin haittapuoli on nopeuden puute. Koska useimmat kartta – / vähennystyöt ovat pitkäkestoisia erätöitä, jotka voivat kestää minuutteja tai tunteja tai jopa pidempään, se on odotettavissa. On selvää, kasvava vaatimukset ja toiveet big data vaativat nopeammin aikaa insight, joka MapReduce erän työmäärät eivät ole suunniteltu toimittamaan.
Mitä Cassandra on?
pohjimmiltaan Cassandra on hajautettu NoSQL-tietokanta, joka on suunniteltu hallitsemaan valtavia määriä strukturoitua dataa hyödykepalvelimien joukosta. Cassandra tarjoaa ainutlaatuisen arkkitehtuurin, joka tarjoaa korkean jakelun, lineaarisen mittakaavan suorituskyvyn ja pystyy käsittelemään suuria tietomääriä tarjoten samalla jatkuvan saatavuuden ja käytettävyyden tuhansille samanaikaisille käyttäjille. Toisin kuin Hadoop, joka on tyypillisesti sijoitettu yhteen paikkaan, Cassandran suuri jakelu mahdollistaa käyttöönoton eri maissa ja maanosissa. Lisäksi Cassandra on aina ylhäällä, aina päällä, ja tarjoaa erittäin johdonmukaisen suorituskyvyn vikasietoisessa ympäristössä. Tämä tekee Cassandrasta ihanteellisen transaktioluonteisten verkkokuormien käsittelyyn, jossa Cassandra käsittelee suuria määriä vuorovaikutuksia ja samanaikaista liikennettä kunkin vuorovaikutuksen kanssa, jolloin saadaan pieniä määriä tietoa.
vastakohtana Hadoopille, joka voi hyväksyä ja tallentaa dataa missä tahansa muodossa—strukturoituna, rakentamattomana, puolirakenteisena, kuvina jne.- Cassandra tarvitsee tietyn rakenteen. Tämän seurauksena, paljon ajattelua tarvitaan jäsentää Cassandra tietomalli vs. Hadoop malli ennen kuin se voidaan onnistuneesti toteuttaa mittakaavassa.
miten Cassandra vertautuu hbaseen?
HBase on Apache Hadoop-projektiin kuuluva NoSQL: n hajautettu tietokantamalli. Se toimii Hadoop Distributed File Systemin (HDFS) päällä. HBase on suunniteltu datajärven käyttötapauksiin, eikä sitä yleensä käytetä verkko-ja mobiilisovelluksissa. Cassandra sen sijaan tarjoaa käytettävyyttä ja suorituskykyä, joita tarvitaan aina käytössä olevien sovellusten kehittämiseen.
Cassandran ja Hadoopin yhdistämisellä
nykyisillä organisaatioilla on kaksi tietotarvetta. Ensinnäkin tarvitaan tietokanta, joka on omistettu verkkotoiminnalle ja Internet -, mobiili-ja IOT-sovellusten tuottaman ”kuuman” datan analysoinnille. Toiseksi tarvitaan eräkohtainen big data-alusta, joka tukee suurten ”kylmien” jäsentämättömien historiatietojen käsittelyä. Liittämällä Cassandran ja Hadoopin tiiviisti yhteen molemmat tarpeet voidaan täyttää.
vaikka Cassandra toimii erittäin hyvin verkkojärjestelmien vikasietoisena taustajärjestelmänä, Cassandra ei ole yhtä analytiikkaystävällinen kuin Hadoop. Hadoopin sijoittaminen Cassandran päälle luo kyvyn analysoida dataa Cassandrassa ilman, että dataa tarvitsee ensin siirtää Hadoopiin. Datan siirtäminen Cassandrasta Hadoopiin ja HDFS: ään on monimutkainen ja aikaa vievä prosessi. Näin Hadoop on Cassandra antaa organisaatioille kätevän tavan saada täsmällistä operatiivista analytiikkaa ja raportointia suhteellisen suurista datamääristä cassandrassa reaaliajassa. Nopeammilla ja syvemmillä big data-oivalluksilla varustetut organisaatiot, jotka hyödyntävät sekä Hadoopia että Cassandraa, voivat paremmin vastata asiakkaidensa tarpeisiin ja saada vahvemman etulyöntiaseman kilpailijoihinsa nähden.