- 相關推薦
基于云計算的數據挖掘技術探討論文
1、前言
毫無疑問,21世紀10年代,已經是不折不扣的信息時代,或者也可以稱之為數據時代。隨著計算機的發展,網絡的快速普及,尤其是移動互聯網在近年來的蓬勃發展,數據量、信息量無時無刻不在海量增長著。目前,面對海量的信息,找出自己真正感興趣的內容已經成為用戶最為頭疼的事情,數據挖掘已經成為當前最為熱門的技術領域。近年來,云計算成為廣受關注的技術領域,也使得數據挖掘平臺有了新的發展方向,構建新一代的數據挖掘平臺來應對數據的日趨復雜龐大成為可能。云計算實為傳統計算機技術與網絡技術融合的產物。云計算并非簡單的計算,它是新型計算方式、數據存儲方式、備份方式、網絡資源分配方式的綜合體,是基于互聯網的相關服務的增加、使用和交付模式。傳統的數據挖掘技術是建立在數據庫之上的,是通過對已收集數據信息的計算,找出隱藏在不同數據中的相關信息。傳統的數據挖掘技術需要在海量數據的基礎上進行大量的數據訪問與統計計算,在對數據進行挖掘的過程中需要消耗及占用大量的計算以及存儲資源,面對規模不斷增長的海量數據,需要消耗及占用大量計算及存儲資源的傳統數據挖掘技術顯得越來越力不從心,難以勝任。而云計算獨特的計算模式,為海量數據的挖掘提供了一種新的解決方案。
2、云計算與數據挖掘
2.1云計算。云計算是基于互聯網的一種商業計算模式,對于云計算的定義,目前并沒有一個統一的說法,現階段廣為人接受的是美國國家標準與技術研究院對云計算所做出的定義,即:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。從云計算的定義我們可以知道,云計算擁有可配置的、大型的計算資源共享池,這種資源共享池包括了網絡、服務器、存儲器、應用軟件以及服務。那也就是說,云計算就是對計算資源共享池的一種資源分配技術或服務,它的特點是可以快速提供這些計算資源,可以減少客戶的管理工作。云計算將計算任務分布在了由大量計算機或服務器構成的共享資源池上,大大提高了資源的有效利用,使計算處理能力以及存儲能力等得到了提高,并且具有更好的擴展性。云計算具有虛擬化的特點,用戶不再受到地理位置以及終端設備的限制,只要接入互聯網,即可獲取所請求的應用服務,也就是說,用戶只需要擁有一臺可以接入互聯網的終端設備,即可獲利所需要的各種應用服務;云計算擁有通用性的特點,云平臺可以構造出千萬種應用,用戶沒有應用限制,在同一個云平臺即可運行不同的應用;云計算具有超大規模以及高擴展性的特點,對于云計算來說,云的規模擴展不會影響用戶應用服務的質量,而目前,云計算的規模已經發展出了超大型,如谷歌的云計算已經擁有了上百萬臺的服務器;云計算擁有高可靠性以及經濟性好的特點,多副本容錯、多計算節點同構可互換等技術確保了服務的高可靠性,而云計算采用廉價的節點構成云,自動化集中式管理相較于企業傳統的數據中心管理成本來說,經濟性能十分優越。
2.2數據挖掘。數據挖掘是數據庫知識發現中的一個步驟,數據挖掘又被稱為數據采礦,顧名思義,數據挖掘就是在已有的海量數據中通過特定的算法來挖掘、發現有用信息或知識的過程。數據挖掘是為了解決需求的問題,也是為了解決數據管理的問題。數據挖掘對于信息產業界來說,是產生價值的關鍵環節,只有將數據轉馮波換成具有應用價值的信息或是知識,才能具有實在商業價值。傳統的數據挖掘技術是建立在數據庫的基礎之上的,需要數據庫系統提供有效的存儲、索引和查詢處理支持,而高性能的計算技術是對海量數據進行處理的關鍵支撐,在處理效率方面具有重要影響。隨著互聯網規模的不斷擴大以及移動互聯網的興趣,數據規模呈現更快的增長速度,而對于數據挖掘的需求也日益增多,這使得傳統的數據挖掘技術暴露出一些問題,首先是數據挖掘效率的問題,傳統的基于數據庫的數據挖掘技術在面對如今海量數據的增長規模已經很難高效的完成計算分析任務;其次,面對海量數據規模的增長,傳統的數據挖掘技術需要更高的軟硬件成本的支持,這種成本的支撐面對數據量的大規模增長是長期性的;第三,傳統的基于數據系統的數據挖掘技術平臺架構,已經無法為挖掘算法能力的提升提供更多支持,算法受限于系統架構影響了數據挖掘技術的發展。
3、基于云計算的數據挖掘關鍵技術
云計算的出現為數據挖掘技術的發展提供了新的方向,數據挖掘技術基于云計算可以發展出新的模式,就具體的實現來說,其中幾個關鍵技術的發展至關重要。
3.1云計算技術。分布式計算是云計算平臺的關鍵技術,是目前應對海量數據挖掘任務,提高數據挖掘效率的有效手段之一。分布式計算包含分布式存儲和并行計算兩方面內容,分布式存儲有效解決了海量數據的存儲問題,實現了數據存儲高容錯、高安全、高性能等關鍵功能。目前,谷歌提出的分布式文件系統理論是業界流行的分布式文件系統的基礎,谷歌文件系統(GFS)就是為了解決其海量數據的存儲、搜索與分析等問題而研發的,其它如Hadoop分布式文件系統(HDFS)、Kosmos文件系統(KFs)是基于Goolgle分布式文件系統理論進行研發的開源系統。分布式并行計算框架是高效完成數據挖掘計算任務的關鍵。目前流行的一些分布式并行計算框架都對分布式計算的一些技術細節進行了封裝,這樣用戶只需要考慮任務間的邏輯關系,而不用再過多的關注這些技術細節,不僅大大提高了研發的效率,而且還可以有效的降低系統維護的成本。典型的分布式并行計算框架如谷歌提出的MapReduce并行計算框架、Pregel迭代處理計算框架等。目前業界開源的云計算平臺Hadoop平臺,包含HDFS和MapReduce,為海量數據挖掘平臺提供完備的云計算平臺支撐平臺。
3.2數據匯集調度技術。數據匯集調度技術需要實現的是對接入云計算平臺的不同類型數據的匯集與調度。數據匯集與調度需要支持不同格式的源數據,還要提供多種數據同步方式。解決不同數據的規約問題是數據匯集調度技術的任務,技術解決方案需要考慮對網絡上不同系統生成的數據格式的支持,如聯機事務處理系統(0LTP)數據、聯機分析處理系統(0LAP)數據、各種日志數據、爬蟲數據等,如此才能實現數據的挖掘與分析。
3.3服務調度和服務管理技術。為了能夠讓不同的業務系統使用本計算平臺,平臺必須要提供服務調度和服務管理功能。服務調度根據服務的優先級以及服務和資源的匹配情況等進行調度,解決服務的并行互斥、隔離等,保證數據挖掘平臺的云服務是安全、可靠的,并根據服務管控進行調度控制。服務管理實現統一的服務注冊、服務暴露等功能,不僅支持本地服務能力的暴露,也支持第三方數據挖掘能力的接入,很好地擴展數據挖掘平臺的服務能力。
3.4挖掘算法并行化技術。挖掘算法并行化是有效利用云計算平臺提供的基礎能力的關鍵技術之一,涉及到算法是否可以并行、以及并行策略的選擇等技術。數據挖掘算法主要有決策樹算法、關聯規則算法以及K-平均值算法等,算法的并行化,是利用云計算平臺進行數據挖掘的關鍵技術。
【基于云計算的數據挖掘技術探討論文】相關文章:
云計算與云數據管理技術研究的論文05-02
數據挖掘論文04-29
基于數據挖掘技術的交通事故分析04-26
一種基于數據挖掘技術的決策信息模型04-30
基于數據挖掘技術的高校管理決策支持系統04-29
網絡營銷中數據挖掘技術的應用論文11-27
數據挖掘技術在軟件工程的運用工程論文04-27
軟件工程數據挖掘開發測試技術論文04-27
數據挖掘論文[范例15篇]07-29
數據挖掘中抽樣技術的應用04-29