A technológia átalakítja világunkat. A mobil eszközök elterjedése, a közösségi média robbanása és a felhőalapú számítástechnika gyors növekedése tökéletes viharhoz vezetett, amely elárasztja a világot adatokkal. A Gartner becslései szerint a vállalatok számára az a kihívás, hogy a “big data” 80 százaléka strukturálatlan, és a strukturált adatok kétszeresével növekszik.
a kaotikus adatok exponenciális növekedésének fényében soha nem volt nagyobb szükség olyan adatmegoldásokra, amelyek meghaladják a hagyományos relációs adatbázisok kínálatát. Itt lép be a képbe az Apache Hadoop nyílt forráskódú big data elemző platformja és az Apache Cassandra NoSQL alkalmazás.
az alábbiakban röviden összehasonlítjuk a Hadoop és a Cassandra közötti különbségeket, valamint azt, hogy ez a két megoldás hogyan egészítheti ki egymást, hogy erőteljes big data betekintést nyújtson. Nézzen meg egy példát a Hadoop Használati esetére, és amikor a platform párosítható a Cassandra-val az optimális teljesítmény érdekében.
mi az a Hadoop?
az Apache Software Foundation projekt terméke, a Hadoop egy nagy adatfeldolgozó platform, amely nyílt forráskódú szoftvereket, elosztott fájlrendszert (HDFS) és egy MapReduce néven ismert programozási keretet használ a strukturálatlan adatok tömegesen nagy készleteinek tárolására, kezelésére és elemzésére párhuzamosan az áruszerverek elosztott klaszterei között, nagyon nagy léptékben. A Hadoop segítségével mind a HDFS, mind a MapReduce keretrendszer ugyanazon csomópontokon fut. Ez lehetővé teszi a Hadoop keretrendszer számára, hogy hatékonyan ütemezze a számítási feladatokat azokon a csomópontokon, ahol az adatokat már tárolják. Ennek eredményeként a Hadoop a legalkalmasabb a “hideg”, más néven történelmi adatok hatalmas tavainak idő-és köteg—orientált elemzésére—több formátumban-megbízható és hibatűrő módon.
míg a MapReduce egy robusztus és megbízható adatfeldolgozó eszköz, fő hátránya a sebesség hiánya. Mivel a legtöbb leképezési / csökkentési feladat hosszú távú kötegelt feladat, amely perceket, órákat vagy akár hosszabb időt is igénybe vehet, ez várható. Nyilvánvaló, hogy a big data növekvő igényei és törekvései gyorsabb betekintést igényelnek,amit a MapReduce kötegelt munkaterhelései nem terveztek.milyen típusú gyógyszer a Cassandra?
alapvetően a Cassandra egy elosztott NoSQL adatbázis, amelyet hatalmas mennyiségű strukturált adat kezelésére terveztek árukiszolgálókon keresztül. A Cassandra egyedülálló architektúrával büszkélkedhet, amely magas elosztási, lineáris skálázási teljesítményt nyújt, és képes nagy mennyiségű adat kezelésére, miközben folyamatos rendelkezésre állást és üzemidőt biztosít több ezer egyidejű felhasználó számára. A Hadoop-tól eltérően, amelyet általában egyetlen helyen telepítenek, a Cassandra magas eloszlása lehetővé teszi az országok és kontinensek közötti telepítést. Ezenkívül a Cassandra mindig fent van, mindig be van kapcsolva, és nagyon következetes teljesítményt nyújt hibatűrő környezetben. Ez teszi a Cassandra – t ideálissá a tranzakciós jellegű online munkaterhelések feldolgozásához, ahol a Cassandra nagyszámú interakciót és egyidejű forgalmat kezel minden interakcióval, kis mennyiségű adatot hozva létre.
ellentétben a Hadoop—szal, amely bármilyen formátumban képes elfogadni és tárolni az adatokat-strukturált, strukturálatlan, félig strukturált, képeket stb.- Cassandrának szüksége van egy bizonyos struktúrára. Ennek eredményeként sok gondolkodásra van szükség a Cassandra adatmodell vs. Hadoop modell felépítéséhez,mielőtt sikeresen végrehajtható lenne.
hogyan viszonyul a Cassandra a HBase-hez?
a HBase egy NoSQL, elosztott adatbázis modell, amely az Apache Hadoop projektben szerepel. Ez fut a tetején a Hadoop elosztott fájlrendszer (HDFS). A HBase-t a data lake Használati eseteihez tervezték, és általában nem használják webes és mobil alkalmazásokhoz. A Cassandra ezzel szemben az always-on alkalmazások fejlesztéséhez szükséges rendelkezésre állást és teljesítményt kínálja.
a Cassandra és a Hadoop kombinációja
A mai szervezeteknek két adatigényük van. Először is szükség van egy online műveletekkel foglalkozó adatbázisra, valamint a webes, mobil és IOT alkalmazások által generált’ forró ‘ adatok elemzésére. Másodszor, szükség van egy kötegelt nagy adatplatformra, amely támogatja a hatalmas mennyiségű ‘hideg’ strukturálatlan történeti adat feldolgozását. A Cassandra és a Hadoop szoros integrálásával mindkét igény kiszolgálható.
míg a Cassandra nagyon jól működik, mint egy nagyon hibatűrő háttér az online rendszerek számára, a Cassandra nem annyira analitikus, mint a Hadoop. A Hadoop telepítése a Cassandra tetején lehetővé teszi az adatok elemzését Cassandra-ban anélkül, hogy először át kellene helyeznie ezeket az adatokat a Hadoop-ba. Az adatok áthelyezése a Cassandráról a Hadoopba és a HDFS-be bonyolult és időigényes folyamat. Így Hadoop Cassandra ad szervezetek egy kényelmes módja annak, hogy konkrét működési elemzések és jelentések viszonylag nagy mennyiségű adatot tartózkodó Cassandra egy valós idejű módon. A gyorsabb és mélyebb big data betekintéssel felfegyverkezve a Hadoopot és a Cassandra-t egyaránt kihasználó szervezetek jobban kielégítik ügyfeleik igényeit, és erősebb előnyt szereznek versenytársaikkal szemben.