technologie přetváří náš svět. Šíření mobilních zařízení, exploze sociálních médií, a rychlý růst cloud computingu vedly k dokonalé bouři, která zaplavuje svět s daty. Podle odhadů společnosti Gartner je výzvou pro podniky, že 80 procent těchto „velkých dat“ je nestrukturovaných a roste dvakrát rychleji než strukturovaná data.
ve světle tohoto exponenciálního růstu chaotických dat nikdy nebyla větší potřeba datových řešení, která přesahují to, co tradiční relační databáze mohou nabídnout. To je místo, kde open-source platforma pro analýzu velkých dat Apache Hadoop a aplikace NoSQL Apache Cassandra vstupují do obrázku.
následuje stručné srovnání rozdílů mezi Hadoop vs. Cassandra, spolu s tím, jak se tato dvě řešení mohou navzájem doplňovat a poskytovat výkonné poznatky o velkých datech. Podívejte se na jeden příklad případu použití Hadoop a kdy lze platformu spárovat s Cassandrou pro optimální výkon.
Co je Hadoop?
produkt Apache Software Foundation Projekt, Hadoop je velká zpracování dat platforma, která využívá open-source software, distributed file system (HDFS), a programovací rámec, známý jako MapReduce, aby ukládat, spravovat a analyzovat masivně velké soubory nestrukturovaných dat paralelně ve všech distribuovaných clusterů komoditních serverů na velmi vysoké měřítko. S Hadoop běží HDFS i Framework MapReduce na stejné sadě uzlů. To umožňuje frameworku Hadoop efektivně naplánovat výpočetní úlohy na uzlech, kde jsou data již uložena. Jako výsledek, Hadoop je nejvhodnější pro běh v blízkosti času a dávkově orientované analýzy na rozsáhlých jezerech „studených“, aka, historických dat-ve více formátech-spolehlivým a odolným způsobem.
zatímco MapReduce je robustní a spolehlivý nástroj pro zpracování dat, jeho hlavní nevýhodou je nedostatek rychlosti. Protože většina mapových / redukčních úloh jsou dlouhodobé dávkové úlohy, které mohou trvat minuty nebo hodiny nebo dokonce déle, lze to očekávat. Jasně, rostoucí požadavky a očekávání velkých dat volat pro rychlejší čas vhled, který MapReduce je dávkové úlohy nejsou navrženy tak, aby dodat.
Co je Cassandra?
Cassandra je distribuovaná databáze NoSQL navržená pro správu obrovského množství strukturovaných dat napříč řadou komoditních serverů. Cassandra se může pochlubit jedinečnou architekturou, která poskytuje vysoký distribuce, lineární stupnice výkon, a je schopen zvládnout velké množství dat a zároveň poskytuje nepřetržitou dostupnost a uptime na tisíce souběžných uživatelů. Na rozdíl od Hadoop, který je obvykle nasazen na jednom místě, vysoká distribuce Cassandry umožňuje nasazení napříč zeměmi a kontinenty. Kromě toho je Cassandra vždy nahoře, vždy zapnutá a poskytuje velmi konzistentní výkon v prostředí odolném proti chybám. To dělá Cassandra ideální pro zpracování on-line pracovní vytížení transakční povahy, kde Cassandra je zpracování velkého počtu interakcí a souběžný provoz s každým interakce dávat malé množství dat.
na rozdíl od Hadoop, který může přijímat a ukládat data v libovolném formátu-strukturované, nestrukturované, polostrukturované, obrázky atd.- Cassandra vyžaduje určitou strukturu. Jako výsledek, hodně myšlení je zapotřebí strukturovat Cassandra datový model vs. Hadoop model, než to může být úspěšně implementována v měřítku.
Jak se Cassandra porovnává s HBase?
HBase je NoSQL, distribuovaný databázový model, který je součástí projektu Apache Hadoop. Běží na horní části distribuovaného souborového systému Hadoop (HDFS). HBase je určen pro případy použití data lake a obvykle se nepoužívá pro webové a mobilní aplikace. Cassandra naproti tomu nabízí dostupnost a výkon nezbytný pro vývoj vždy zapnutých aplikací.
kombinace Cassandra a Hadoop
dnešní organizace mají dvě datové potřeby. První je potřeba databáze věnované online operacím a analýze „horkých“ dat generovaných webovými, mobilními a IoT aplikacemi. Za druhé, potřeba dávkově orientované velké datové platformy, která podporuje zpracování obrovského množství „studených“ nestrukturovaných historických dat. Těsnou integrací Cassandry a Hadoopa, aby spolupracovali, mohou být obě potřeby doručeny.
zatímco Cassandra funguje velmi dobře jako vysoce odolný backend pro online systémy, Cassandra není tak analytická jako Hadoop. Nasazení Hadoop na Cassandru vytváří schopnost analyzovat data v Cassandře, aniž by bylo nutné tato data nejprve přesunout do Hadoopu. Přesun dat z Cassandry do Hadoop a HDFS je komplikovaný a časově náročný proces. Tak Hadoop na Cassandra poskytuje organizacím pohodlný způsob, jak získat konkrétní operativní analýzy a reporting z relativně velkého množství dat uložených v Cassandra v real-time módu. Vyzbrojeni rychlejšími a hlubšími poznatky o velkých datech mohou organizace, které využívají Hadoop i Cassandra, lépe uspokojit potřeby svých zákazníků a získat silnější náskok před svými konkurenty.