您當前的位置:首頁(yè) > 新(xīn)聞資訊 > 産(chǎn)品動态 > 正文(wén)

【東網技(jì )術大咖帶您走進Hadoop】當Hadoop邂逅大數據 會碰撞出怎樣的火花(huā)?

發布時間: 2017-01-23 12:12:22  
分(fēn)享到:

 

Hadoop是什麽?有(yǒu)哪些應用(yòng)?Hadoop和大數據又(yòu)是什麽關系?接下來将圍繞這幾個問題展開闡述。

 

 

 

Hadoop是什麽
 

 

Hadoop是一個由Apache基金會所開發的分(fēn)布式系統基礎架構。用(yòng)戶可(kě)以在不了解分(fēn)布式底層細節的情況下,開發分(fēn)布式程序。充分(fēn)利用(yòng)集群的威力進行高速運算和存儲。Hadoop實現了一個分(fēn)布式文(wén)件系統(Hadoop Distributed File System),簡稱HDFS。

 

HDFS有(yǒu)高容錯性的特點,并且設計用(yòng)來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用(yòng)程序的數據,适合那些有(yǒu)着超大數據集(large data set)的應用(yòng)程序。HDFS放寬了(relax)POSIX的要求,可(kě)以以流的形式訪問(streaming access)文(wén)件系統中(zhōng)的數據。

 

 

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為(wèi)海量的數據提供了存儲,則MapReduce為(wèi)海量的數據提供了計算。

 

Hadoop的起源
 

 

Hadoop由 Apache Software Foundation 公(gōng)司于 2005 年秋天作(zuò)為(wèi)Lucene的子項目Nutch的一部分(fēn)正式引入。它受到最先由 Google Lab 開發Map/Reduce 和 Google File System(GFS) 的啓發。

 

2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分(fēn)别被納入稱為(wèi) Hadoop 的項目中(zhōng)。

 

Hadoop 是在 Internet 上對搜索關鍵字進行内容分(fēn)類最受歡迎的工(gōng)具(jù),但它也可(kě)以解決許多(duō)要求極大伸縮性的問題。例如,如果您要 grep 一個 10TB 的巨型文(wén)件,會出現什麽情況?在傳統的系統上,這将需要很(hěn)長(cháng)的時間。但是 Hadoop 在設計時就考慮到這些問題,采用(yòng)并行執行機制,因此能(néng)大大提高效率。

 

Hadoop的發展曆程
 

 

Hadoop原本來自于谷歌一款名(míng)為(wèi)MapReduce的編程模型包。谷歌MapReduce框架可(kě)以把一個應用(yòng)程序分(fēn)解為(wèi)許多(duō)并行計算指令,跨大量的計算節點運行非常巨大的數據集。使用(yòng)該框架的一個典型例子就是在網絡數據上運行的搜索算法。Hadoop 最初隻與網頁(yè)索引有(yǒu)關,迅速發展成為(wèi)分(fēn)析大數據的領先平台。

 

目前有(yǒu)很(hěn)多(duō)公(gōng)司開始提供基于Hadoop的商(shāng)業軟件、支持、服務(wù)以及培訓。Cloudera是一家美國(guó)的企業軟件公(gōng)司,該公(gōng)司在2008年開始提供基于Hadoop的軟件和服務(wù)。GoGrid是一家雲計算基礎設施公(gōng)司,2012年,該公(gōng)司與Cloudera合作(zuò)加速了企業采納基于Hadoop應用(yòng)的步伐。Dataguise公(gōng)司是一家數據安(ān)全公(gōng)司,同樣在2012年該公(gōng)司推出了一款針對Hadoop的數據保護和風險評估。

 

Hadoop的應用(yòng)案例
 

 

美國(guó)國(guó)會圖書館是全球最大的圖書館,自1800年設立至今,收藏了超過1.5億個實體(tǐ)對象,包括書籍、影音、老地圖、膠卷等,數字數據量也達到了235TB,但美國(guó)eBay拍賣網站,8千萬名(míng)用(yòng)戶每天産(chǎn)生的數據量就有(yǒu)50TB,5天就相當于1座美國(guó)國(guó)會圖書館的容量。

 

在國(guó)外,不隻eBay這種跨國(guó)電(diàn)子商(shāng)務(wù)業者感受到巨量數據的沖擊,其他(tā)如美國(guó)連鎖超市龍頭沃爾瑪、發行信用(yòng)卡的Visa公(gōng)司等,在台灣如台灣集成電(diàn)路(台積電(diàn))、中(zhōng)華電(diàn)信等手上擁有(yǒu)大量顧客資料的企業,都紛紛感受到這股如海嘯般來襲的Big Data巨量資料浪潮。這樣的巨量數據并非是沒有(yǒu)價值的數據,其中(zhōng)潛藏了許多(duō)使用(yòng)者親身經驗的第一手原始數據,不少企業更是從中(zhōng)嗅到了商(shāng)機。

 

這些企業紛紛向最早面臨大數據挑戰的搜索引擎業者Google、Yahoo取經,學(xué)習處理(lǐ)巨量數據的技(jì )術和經驗,其中(zhōng),最受這些企業青睐,用(yòng)來解決巨量數據難題的技(jì )術就是Apache基金會的分(fēn)布式計算技(jì )術Hadoop。

 

應用(yòng)案例1-全球最大超市業者沃爾瑪

 

沃爾瑪雖然十年前就投入在線(xiàn)電(diàn)子商(shāng)務(wù),但在線(xiàn)銷售的營收遠(yuǎn)遠(yuǎn)落後于亞馬遜(Amazon)。後來,沃爾瑪決定采用(yòng)Hadoop來分(fēn)析顧客搜尋商(shāng)品的行為(wèi),以及用(yòng)戶透過搜索引擎尋找到沃爾瑪網站的關鍵詞,利用(yòng)這些關鍵詞的分(fēn)析結果發掘顧客需求,以規畫下一季商(shāng)品的促銷策略。他(tā)們并進一步打算要分(fēn)析顧客在Facebook、Twitter等社交網站上對商(shāng)品的讨論,甚至沃爾瑪能(néng)比父親更快知道女兒懷孕的消息,并且主動寄送相關商(shāng)品的促銷郵件,可(kě)說是比競争對手提前一步發現顧客。

 

 

應用(yòng)案例2-全球最大拍賣網站 eBay

 

經營拍賣業務(wù)的eBay則是用(yòng)Hadoop來分(fēn)析買賣雙方在網站上的行為(wèi)。eBay擁有(yǒu)全世界最大的數據倉儲系統,每天增加的數據量有(yǒu)50TB,光是儲存就是一大挑戰,更遑論要分(fēn)析這些數據,而且更困難的挑戰是這些數據報括了結構化的數據和非結構化的數據,如照片、影片、電(diàn)子郵件、用(yòng)戶的網站浏覽Log記錄等。eBay正是用(yòng)Hadoop來解決同時要分(fēn)析大量結構化數據和非結構化的難題。

 

 

eBay分(fēn)析平台高級總監Oliver Ratzesberger也坦言,大數據分(fēn)析最大的挑戰就是要同時處理(lǐ)結構化以及非結構化的數據。


eBay在5年多(duō)前就另外建置了一個軟硬件整合的平台Singularity,搭配壓縮技(jì )術來解決結構化數據和半結構化數據分(fēn)析問題,3年前更在這個平台整合了Hadoop來處理(lǐ)非結構化數據,透過Hadoop來進行數據預先處理(lǐ),将大塊結構的非結構化數據拆解成小(xiǎo)型數據,再放入數據倉儲系統的數據模型中(zhōng)分(fēn)析,來加快分(fēn)析速度,也減輕對數據倉儲系統的分(fēn)析負載。

 

應用(yòng)案例3-全球最大信用(yòng)卡公(gōng)司 Visa

 

Visa公(gōng)司則是擁有(yǒu)一個全球最大的付費網絡系統VisaNet,作(zuò)為(wèi)信用(yòng)卡付款驗證之用(yòng)。2009年時,每天就要處理(lǐ)1.3億次授權交易和140萬台ATM的聯機存取。為(wèi)了降低信用(yòng)卡各種詐騙、盜領事件的損失,Visa公(gōng)司得分(fēn)析每一筆(bǐ)事務(wù)數據,來找出可(kě)疑的交易。雖然每筆(bǐ)交易的數據記錄隻有(yǒu)短短200位,但每天VisaNet要處理(lǐ)全球上億筆(bǐ)交易,2年累積的資料多(duō)達36TB,過去光是要分(fēn)析5億個用(yòng)戶賬号之間的關聯,得等1個月才能(néng)得到結果,所以,Visa也在2009年時導入了Hadoop,建置了2套Hadoop叢集(每套不到50個節點),讓分(fēn)析時間從1個月縮短到13分(fēn)鍾,更快速地找出了可(kě)疑交易,也能(néng)更快對銀行提出預警,甚至能(néng)及時阻止詐騙交易。

 

Hadoop這套被衆多(duō)企業賴以解決大數據難題的分(fēn)布式計算技(jì )術,并不是一項全新(xīn)的技(jì )術,早在2006年就出現了,而且Hadoop的核心技(jì )術原理(lǐ),更是源自Google打造搜索引擎的關鍵技(jì )術,後來由Yahoo支持的開源開發團隊發展成一套Hadoop分(fēn)布式計算平台,也成為(wèi)Yahoo内部打造搜索引擎的關鍵技(jì )術。

分(fēn)享到:
地址:福建省福州市銅盤路軟件大道89号軟件園A區(qū)26号樓 電(diàn)話:0591-83519233 傳真:0591-87882335 E-mail:doone@doone.com.cn
版權所有(yǒu) 新(xīn)東網科(kē)技(jì )有(yǒu)限公(gōng)司 京ICP證000000号 閩公(gōng)網安(ān)備 35010202001006号