<strong id="ji9to"></strong>

大數(shù)據(jù)計(jì)算架構(gòu)Hadoop、Spark和Storm 三者技術(shù)比較

發(fā)布時(shí)間：作者：cobinet瀏覽：390次來源：jifang360

CobiNet(寧波)推薦文章：

從人工統(tǒng)計(jì)分析到電腦大型機(jī)再到今天的分布式計(jì)算平臺(tái)，數(shù)據(jù)處理速度飛速提高的背后則是整體架構(gòu)的不斷演進(jìn)。今天大數(shù)據(jù)架構(gòu)最火熱的莫過于Hadoop，Spark和Storm這三種，而Spark和Storm這兩個(gè)后起之秀更是搶了不少Hadoop的風(fēng)頭，也讓網(wǎng)上逐漸開始有一種聲音說Hadoop的日子已經(jīng)快到頭了。但究竟這三者之間是什么關(guān)系，未來大數(shù)據(jù)架構(gòu)究竟該走向何方呢?

短短幾年時(shí)間，大數(shù)據(jù)這個(gè)詞便已家喻戶曉。但在大數(shù)據(jù)這個(gè)名詞被命名之前，人類對(duì)數(shù)據(jù)的搜集與分析已有著悠久的歷史。從人工統(tǒng)計(jì)分析到電腦/大型機(jī)再到今天的分布式計(jì)算平臺(tái)，數(shù)據(jù)處理速度飛速提高的背后則是整體架構(gòu)的不斷演進(jìn)。今天大數(shù)據(jù)架構(gòu)最火熱的莫過于Hadoop，Spark和Storm這三種，而Spark和Storm這兩個(gè)后起之秀更是搶了不少Hadoop的風(fēng)頭，也讓網(wǎng)上逐漸開始有一種聲音說Hadoop的日子已經(jīng)快到頭了。但究竟這三者之間是什么關(guān)系，未來大數(shù)據(jù)架構(gòu)究竟該走向何方呢?

分布式計(jì)算架構(gòu)鼻祖Hadoop

所謂分布式計(jì)算過程就像螞蟻搬家一樣，將一個(gè)大型任務(wù)分割成很多部分，每一臺(tái)電腦相當(dāng)于一個(gè)小螞蟻將其中一部分搬走。Hadoop作為分布式系統(tǒng)的基礎(chǔ)架構(gòu)，其重要性不言而喻。Hadoop的數(shù)據(jù)處理工作在硬盤層面，借助HDFS(分布式文件系統(tǒng))，可以將架構(gòu)下每一臺(tái)電腦中的硬盤資源聚集起來，不論是存儲(chǔ)計(jì)算還是調(diào)用都可以視為一塊硬盤使用，就像以前電腦中的C盤，D盤，之后使用集群管理和調(diào)度軟件YARN，相當(dāng)于Windows，畢竟我們要進(jìn)行編程首先需要一個(gè)操作系統(tǒng)，最后利用Map/Reduce計(jì)算框架相當(dāng)于Virtual Studio，就可以在這上面進(jìn)行計(jì)算編程。從而大幅降低了整體計(jì)算平臺(tái)的硬件投入成本。而這也就是最基礎(chǔ)的分布式計(jì)算架構(gòu)。

流數(shù)據(jù)處理雙雄Spark和Storm

所謂流數(shù)據(jù)處理其實(shí)不難理解，比如看網(wǎng)上視頻，都是下載一段看一段，然后快結(jié)束的時(shí)候自動(dòng)下載下一段。由于Hadoop的計(jì)算過程放在硬盤，受制于硬件條件限制，數(shù)據(jù)的吞吐和處理速度明顯不如使用內(nèi)存來的快。于是Spark和Storm開始登上舞臺(tái)。Spark和Storm兩者最大的區(qū)別在于實(shí)時(shí)性：Spark是準(zhǔn)實(shí)時(shí)，先收集一段時(shí)間的數(shù)據(jù)再進(jìn)行統(tǒng)一處理，好比看網(wǎng)頁統(tǒng)計(jì)票數(shù)每隔幾秒刷新一次，而Storm則是完全實(shí)時(shí)，來一條數(shù)據(jù)就處理一條。當(dāng)然Storm實(shí)時(shí)處理方式所帶來的缺點(diǎn)也是很明顯的，不論離線批處理，高延遲批處理還是交互式查詢都不如Spark框架。不同的機(jī)制決定了兩者架構(gòu)適用的場(chǎng)景不同，比如炒股，股價(jià)的變化不是按秒計(jì)算的(Spark實(shí)時(shí)計(jì)算延遲度是秒級(jí))，在高頻交易中，高頻獲利與否往往就在1ms(0.001秒)之間，而這恰好就是Storm的實(shí)時(shí)計(jì)算延遲度。

混合架構(gòu)，各顯神通

今天大數(shù)據(jù)的混合架構(gòu)就像目前云計(jì)算市場(chǎng)中風(fēng)頭最勁的混合云一樣，成為大多數(shù)公司的首選。每一種架構(gòu)都有其自身的獨(dú)特優(yōu)缺點(diǎn)，就像Hadoop，盡管數(shù)據(jù)處理的速度和難易度都遠(yuǎn)比不過Spark和Storm。但是由于硬盤斷電后數(shù)據(jù)可以長(zhǎng)期保存，因此在處理需要長(zhǎng)期存儲(chǔ)的數(shù)據(jù)時(shí)還是需要借助Hadoop。不過Hadoop由于具有非常好的兼容性，因此非常容易的同Spark和Storm進(jìn)行結(jié)合，從而滿足公司的不同需求。

縱觀技術(shù)的發(fā)展史，我們可以看到，每一項(xiàng)新技術(shù)的問世都有著之前技術(shù)的身影，伴隨著大數(shù)據(jù)的需求增長(zhǎng)，不同的架依然會(huì)不斷進(jìn)化，并改進(jìn)自身的缺點(diǎn)，從而使得自身架構(gòu)得到進(jìn)一步的完善。就目前來看Hadoop，Spark和Storm目前遠(yuǎn)談不到誰取代誰。

文章編輯：CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類，六類,七類線，屏蔽模塊，配線架及相關(guān)模塊配件的研發(fā)和生產(chǎn)。

歡迎來電咨詢0574 88168918,郵箱sales@cobinet.cn，網(wǎng)址78867.cn

上一篇：淺談綜合布線中屏蔽系統(tǒng)相關(guān)問題下一篇：數(shù)據(jù)中心服務(wù)器接入部署的布線方式

相關(guān)新聞

四虎8848在线精品观看,色婷婷久久久,中文字幕精品久久一二三区红杏,国产女人高潮大片99

大數(shù)據(jù)計(jì)算架構(gòu)Hadoop、Spark和Storm 三者技術(shù)比較

大數(shù)據(jù)計(jì)算架構(gòu)Hadoop、Spark和Storm 三者技術(shù)比較