- 相關推薦
關于hadoop開題報告參考
1 選題的目的和意義
1.1 設計的背景
Hadoop作為Apache基金會資助的開源項目,由Doug Cutting帶領的團隊進行開發,基于Lucene和Nutch等開源項目,實現了Google的GFS和Hadoop能夠穩定運行在20個節點的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop項目正式支持HDFS和MapReduce的獨立開發。同時,新興公司Cloudera為Hadoop提供了商業支持,幫助企業實現標準化安裝,并志愿貢獻社區。
1.1 選題的現狀
1.1.1 海量數據時代的現狀
我們生活在數據的時代,很難估計全球的數據有多少,“數字宇宙”項目統計得出,2006年的數據總量為0.18zb,也就是10億TB。
問題1:數據處理速度不夠,以100mb每秒計算,讀取1tb的數據需要2個半小時。一個比較好的方案就是把數據放在100個磁盤中每個磁盤中存放1%的數據并行讀取,不到2min就能讀取所有數據。經過統計用戶的分析工作會在不同的時間點進行,所以用戶相互間的干擾不會太大。但是一旦硬件發生故障,用戶的數據就會丟失,所以要準備多份。(HDFS)
問題2:需要從100個磁盤中取出數據結合使用。Mapreduce將這個問題抽象,轉化為對一個數據集合的計算。這個計算模型分為map和reduce兩個階段,只有這兩個部分對外提供接口。
舉例 Rackspace的一個部門Mailtrust:mapreduce是一種比較蠻力的辦法,每個查詢幾乎需要處理整個數據集,至少是數據集的很大一部分。在合理的時間內對整個數據集合的數據即時查詢,是對數據的一種創新。rackspace的mailtrust部門,使用hadoop處理郵件日志,他們做用戶地理分布查詢。“這些數據非常有用,每個月運行一次決定哪些rackspace數據中心需要添加新的郵件服務器“。通過整合數百GB的數據,并分析,可以通過這些數據改善現有服務。
1.1.2 Hadoop的發展史
Hadoop起源于Nutch網絡搜索引擎,Nutch是Lucene(一個文本搜索系統庫)的一部分,創始人為Doug Cutting。
Nutch項目開始于2002年
2004年開始開發GFS的開源版本NDFS,谷歌發表論文向全世界介紹它的mapreduce系統。
2005年實現了mapreduce的開源版本。
2006年將hadoop移出Nutch獨立成為一個項目,hadoop創始人進入雅虎
2008年Hadoop成為apache頂級項目,證明了其成功。209S 完成1tb數據排序 2009年4月 59秒排序500GB 1400節點 173分鐘排序100T的數據3400節點 典型案例 紐約時報 facebook last.fm
1.1.3 Hadoop生態系統
Common:IO組件于接口(序列化,javaRPC,持久化數據結構)
Pig: 數據流語言和運行環境,檢索非常大的數據集
Hive: 管理HDFS中的數據,提供sql查詢
Hbase: 安列存儲數據庫,支持批量式計算和點查詢
ZooKeeper: 一個分布式、可用性高的協調系統。ZooKeeper提供分布式鎖之類的基本服務用于構建分布式應用。
Sqoop: 在數據庫和HDFS之間高效傳輸的數據工具。
Kerberos:實現的是機器級別的安全認證,也就是前面提到的服務到服務的認證問題。防止了用戶偽裝成Datanode,Tasktracker,去接受JobTracker,Namenode的任務指派。Kerberos對可信任的客戶端提供認證,確保他們可以執行作業的相關操作。防止用戶惡意冒充client提交作業的情況。用戶無法偽裝成其他用戶入侵到一個HDFS或者MapReduce集群上。用戶即使知道datanode的相關信息,也無法讀取HDFS上的數據,用戶無法發送對于作業的操作到JobTracker上。
2 主要研究的內容
2.1 系統概述
2.1.1 功能與作用
眾所周知,現代社會的信息量增長速度極快,這些信息里又積累著大量的數據,其中包括個人數據和工業數據。預計到2020年,每年產生的數字信息將會有超過1/3的內容駐留在云平臺中或借助云平臺處理。我們需要對這些數據進行分析和處理,以獲取更多有價值的信息。那么我們如何高效地存儲和管理這些數據,如何分析這些數據呢?這時可以選用Hadoop系統,它在處理這類問題時,采用了分布式存儲方式,提高了讀寫速度,并擴大了存儲容量。采用MapReduce來整合分布式文件系統上的數據,可保證分析和處理數據的高效。與此同時,Hadoop還采用存儲冗余數據的方式保證了數據的安全性。
Hadoop中HDFS的高容錯特性,以及它是基于Java語言開發的,這使得Hadoop可以部署在低廉的計算機集群中,同時不限于某個操作系統。Hadoop中HDFS的數據管理能力,MapReduce處理任務時的高效率,以及它的開源特性,使其在同類的分布式系統中大放異彩,并在眾多行業和科研領域中被廣泛采用。
2.1.2 具體任務
對本系統分析后,系統的具體任務主要如下:
1) 調研該項目的狀況和成果。
2) 對所選題目進行可行性分析,從技術和可操作性上進行分析
3) 根據目前掌握和了解的技術選擇最適合的開發工具和開發語言,對所用到的
技術及語言相關知識進行學習鞏固
4) 配置,部署hadoop
5) 測試,使用hadoop
2.1.3 設備要求
1) 操作系統
CentOS6.2
2) Hadoop-1.0.4-1
3) JDK1.6.0_04
2.2 系統設計
2.2.1 體系結構
Hadoop的核心框架包括兩個部分:HDFS 和Mapreduce;HDFS(即Hadoop Distributed System的縮寫)是分布式計算的基石,而Mapreduce是任務的分解和結果的匯總。簡單的說,Map就是 將一個任務分解成 為多個任務,而Reduce就是將分解后多任務處理的結果匯總起來得出最后的結果;HDFS是一個與其它文件系統類似的,對于整個集群有單一的命名空間,文件被分割為多塊分配存儲到數據節點上的一個系統。
圖2.1 數據處理流程圖
3 設計的預期結果
1) 部署和測試hadoop
隨時掌控工作的全面情況。
2) 使用hadoop
用來實現諸如統計單詞出現次數的mapreduce程序
[關于hadoop開題報告參考]相關文章:
1.開題報告寫作內容參考
2.壓鑄開題報告參考案例
3.開題報告范例參考
4.開題報告范本參考
5.開題報告的范文參考
6.論文開題報告的大綱參考
7.關于ofdm的開題報告
8.關于課題開題的報告
9.關于華工的開題報告
10.關于課題開題報告格式
【hadoop開題報告參考】相關文章:
教育開題報告03-25
開題報告怎么寫11-25
金融開題報告范文12-31
撰寫開題報告的意義及方法08-14
個人網站設計開題報告03-28
學前教育美術的開題報告03-28
甜品包裝設計開題報告03-26
碩士生開題報告范文12-31
開題報告包含哪些主要內容10-10
初中語文課題開題報告03-26