- 相關推薦
數據挖掘
數據挖掘
數據挖掘(數據挖掘)
數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering pattern...
目錄 概述 使用 成功案例 經典算法 收縮展開 概述數據挖掘(Data Mining,DM)是目前人工智能和數據庫領域研究的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。 知識發現過程由以下三個階段組成:(1)數據準備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶或知識庫交互。 數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示3個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。 數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。 并非所有的信息發現任務都被視為數據挖掘。例如,使用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特征來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。 起源 需要是發明之母。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。 數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。 發展階段 第一階段:電子郵件階段 這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。 第二階段:信息發布階段 從1995年起,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。中小企業如何把握好從“粗放型”到“精準型”營銷時代的電子商務。 第三階段: EC(Electronic Commerce),即電子商務階段 EC在美國也才剛剛開始,之所以把EC列為一個劃時代的東西,是因為Internet的最終主要商業用途,就是電子商務。同時反過來也可以說,若干年后的商業信息,主要是通過Internet傳遞。Internet即將成為我們這個商業信息社會的神經系統。1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統克林頓提出敦促各國共同促進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。 第四階段:全程電子商務階段 隨著SaaS(Software as a service)軟件服務模式的出現,軟件紛紛登陸互聯網[5],延長了電子商務鏈條,形成了當下最新的“全程電子商務”概念模式。
使用分析方法: · 分類 (Classification) · 估計(Estimation) · 預測(Prediction) · 相關性分組或關聯規則(Affinity grouping or association rules) · 聚類(Clustering) · 描述和可視化(Description and Visualization) · 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 方法簡介: ·分類 (Classification) 首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。 例子: a. 信用卡申請者,分類為低、中、高風險 b. 故障診斷:中國寶鋼集團與上海天律信息技術有限公司合作,采用數據挖掘技術對鋼材生產的全流程進行質量監控和分析,構建故障地圖,實時分析產品出現瑕疵的原因,有效提高了產品的優良率。 注意: 類的個數是確定的,預先定義好的 · 估計(Estimation) 估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。 例子: a. 根據購買模式,估計一個家庭的孩子個數 b. 根據購買模式,估計一個家庭的收入 c. 估計real estate的價值 一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然后,根據閾值,將貸款級別分類。 · 預測(Prediction) 通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。 相關性分組或關聯規則 (Affinity grouping or association rules) 決定哪些事情將一起發生。 例子: a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則) b. 客戶在購買A后,隔一段時間,會購買B (序列分析) · 聚類(Clustering) 聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區別是聚集不依賴于預先定義好的類,不需要訓練集。 例子: a. 一些特定癥狀的聚集可能預示了一個特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。 · 描述和可視化(Description and Visualization) 是對數據挖掘結果的`表示方式。一般只是指數據可視化工具,包含報表工具和商業智能分析產品(BI)的統稱。譬如通過Yonghong Z-Suite等工具進行數據的展現,分析,鉆取,將數據挖掘的分析結果更形象,深刻的展現出來。 挖掘分類 以上七種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘· 直接數據挖掘 目標是利用可用的數據建立一個模型,這個模型對剩余的數據,對一個特定的變量(可以理解成數據庫中表的屬性,即列)進行描述。 間接數據挖掘 目標中沒有選出某一具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系 。 · 分類、估值、預言屬于直接數據挖掘;后四種屬于間接數據挖掘
成功案例數據挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資產估計價值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預先付款客戶相關的潛在風險,以便將承擔的風險最小化。 該公司的第一個目標是創建一個與公司核心系統和兩家信用報告公司系統交互的決策引擎來處理信貸申請。同時,Credilogros還在尋找針對它所服務的低收入客戶群體的自定義風險評分工具。除這些之外,其他需求還包括解決方案能在其35個分支辦公地點和200多個相關的銷售點中的任何一個實時操作,包括零售家電連鎖店和手機銷售公司。 最終Credilogros 選擇了SPSS Inc.的數據挖掘軟件PASWModeler,因為它能夠靈活并輕松地整合到 Credilogros 的核心信息系統中。通過實現PASW Modeler,Credilogros將用于處理信用數據和提供最終信用評分的時間縮短到了8秒以內。這使該組織能夠迅速批準或拒絕信貸請求。該決策引擎還使 Credilogros 能夠最小化每個客戶必須提供的身份證明文檔,在一些特殊情況下,只需提供一份身份證明即可批準信貸。此外,該系統還提供監控功能。Credilogros目前平均每月使用PASW Modeler處理35000份申請。僅在實現 3 個月后就幫助Credilogros 將貸款支付失職減少了 20%. 數據挖掘幫助DHL實時跟蹤貨箱溫度 DHL是國際快遞和物流行業的全球市場領先者,它提供快遞、水陸空三路運輸、合同物流解決方案,以及國際郵件服務。DHL的國際網絡將超過220個國家及地區聯系起來,員工總數超過28.5萬人。在美國 FDA 要求確保運送過程中藥品裝運的溫度達標這一壓力之下,DHL的醫藥客戶強烈要求提供更可靠且更實惠的選擇。這就要求DHL在遞送的各個階段都要實時跟蹤集裝箱的溫度。 雖然由記錄器方法生成的信息準確無誤,但是無法實時傳遞數據,客戶和DHL都無法在發生溫度偏差時采取任何預防和糾正措施。因此,DHL的母公司德國郵政世界網(DPWN)通過技術與創新管理(TIM)集團明確擬定了一個計劃,準備使用RFID技術在不同時間點全程跟蹤裝運的溫度。通過IBM全球企業咨詢服務部繪制決定服務的關鍵功能參數的流程框架。DHL獲得了兩方面的收益:對于最終客戶來說,能夠使醫藥客戶對運送過程中出現的裝運問題提前做出響應,并以引人注目的低成本全面切實地增強了運送可靠性。對于DHL來說,提高了客戶滿意度和忠實度;為保持競爭差異奠定堅實的基礎;并成為重要的新的收入增長來源。 基本步驟 數據挖掘的步驟會隨不同領域的應用而有所變化,每一種數據挖掘技術也會有各自的特性和使用步驟,針對不同問題和需求所制定的數據挖掘過程也會存在差異。此外,數據的完整程度、專業人員支持的程度等都會對建立數據挖掘過程有所影響。這些因素造成了數據挖掘在各不同領域中的運用、規劃,以及流程的差異性,即使同一產業,也會因為分析技術和專業知識的涉入程度不同而不同,因此對于數據挖掘過程的系統化、標準化就顯得格外重要。如此一來,不僅可以較容易地跨領域應用,也可以結合不同的專業知識,發揮數據挖掘的真正精神。 數據挖掘完整的步驟如下: ① 理解數據和數據的來源(understanding)。 ② 獲取相關知識與技術(acquisition)。 ③ 整合與檢查數據(integration and checking)。 ④ 去除錯誤或不一致的數據(data cleaning)。 ⑤ 建立模型和假設(model and hypothesis development)。 ⑥ 實際數據挖掘工作(data mining)。 ⑦ 測試和驗證挖掘結果(testing and verification)。 ⑧ 解釋和應用(interpretation and use)。 由上述步驟可看出,數據挖掘牽涉了大量的準備工作與規劃工作,事實上許多專家都認為整套數據挖掘的過程中,有80%的時間和精力是花費在數據預處理階段,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接。可見,在進行數據挖掘技術的分析之前,還有許多準備工作要完成。 行業應用 價格競爭空前激烈,語音業務增長趨緩,快速增長的中國移動通信市場正面臨著前所未有的生存壓力。中國電信業改革的加速推進形成了新的競爭態勢,移動運營市場的競爭廣度和強度將進一步加大,這特別表現在集團客戶領域。移動信息化和集團客戶已然成為未來各運營商應對競爭、獲取持續增長的新引擎。 隨著國內三足鼎立全業務競爭態勢和3G牌照發放,各運營商為集團客戶提供融合的信息化解決方案將是大勢所趨,而移動信息化將成為全面進入信息化服務領域的先導力量。傳統移動運營商因此面臨著從傳統個人業務轉向同時拓展集團客戶信息化業務領域的挑戰。如何應對來自內外部的挑戰,迅速以移動信息化業務作為融合業務的競爭利器之一拓展集團客戶市場,在新興市場中立于不敗之地,是傳統移動運營商需要解決的緊迫問題。 IBM全球企業咨詢服務部經過研究認為,傳統移動運營商在拓展集團客戶信息化市場的過程中所面臨的外部挑戰主要來自三個方面,即市場需求不成熟,技術與業務融合,全業務的競爭。同時,運營商在自身發展上也存在諸多問題,例如目標市場細分不清晰,信息化需求挖掘與評估不足;產品規劃和管理難以滿足客戶信息化需求;渠道較為單一,無法有效覆蓋客戶;對合作伙伴吸引力較弱,尚未形成共贏的價值鏈;在運營管理層面,業務流程、銷售團隊能力以及IT支撐上都不適應集團信息化業務的發展。 從目前網絡招聘的信息來看,大小公司對數據挖掘的需求有50多個方面(來源見參考資料): 1、數據統計分析 2、預測預警模型 3、數據信息闡釋 4、數據采集評估 5、數據加工倉庫 6、品類數據分析 7、銷售數據分析 8、網絡數據分析 9、流量數據分析 10、交易數據分析 11、媒體數據分析 12、情報數據分析 13、金融產品設計 14、日常數據分析 15、總裁萬事通 16、數據變化趨勢 17、預測預警模型 18、運營數據分析 19、商業機遇挖掘 20、風險數據分析 21、缺陷信息挖掘 22、決策數據支持 23、運營優化與成本控制 24、質量控制與預測預警 25、系統工程數學技術 26、用戶行為分析/客戶需求模型 27、產品銷售預測(熱銷特征) 28、商場整體利潤最大化系統設計 29、市場數據分析 30、綜合數據關聯系統設計 31、行業/企業指標設計 32、企業發展關鍵點分析 33、資金鏈管理設計與風險控制 34、用戶需求挖掘 35、產品數據分析 36、銷售數據分析 37、異常數據分析 38、數學規劃與數學方案 39、數據實驗模擬 40、數學建模與分析 41、呼叫中心數據分析 42、貿易/進出口數據分析 43、海量數據分析系統設計、關鍵技術研究 44、數據清洗、分析、建模、調試、優化 45、數據挖掘算法的分析研究、建模、實驗模擬 46、組織機構運營監測、評估、預測預警 47、經濟數據分析、預測、預警 48、金融數據分析、預測、預警 49、科研數學建模與數據分析:社會科學,自然科學,醫藥,農學,計算機,工程,信息,軍事,圖書情報等 50、數據指標開發、分析與管理 51、產品數據挖掘與分析 52、商業數學與數據技術 53、故障預測預警技術 54、數據自動分析技術 55、泛工具分析 56、互譯 57、指數化 其中,互譯與指數化是數據挖掘除計算機技術之外最核心的兩大技術。
經典算法1. C4.5:是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法。 2. K-means算法:是一種聚類算法。 3.SVM:一種監督式學習的方法,廣泛運用于統計分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。 5.EM:最大期望值法。 6.pagerank:是google算法的重要內容。 7. Adaboost:是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器然后把弱分類器集合起來,構成一個更強的最終分類器。 8.KNN:是一個理論上比較成熟的的方法,也是最簡單的機器學習方法之一。 9.Naive Bayes:在眾多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes) 10.Cart:分類與回歸樹,在分類樹下面有兩個關鍵的思想,第一個是關于遞歸地劃分自變量空間的想法,第二個是用驗證數據進行減枝。 關聯規則規則定義 在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。 在一家超市里,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。 按常規思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。 數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等于1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,以后諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優化,如引入隨機采樣、并行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
【數據挖掘】相關文章:
數據挖掘論文04-29
淺談數據挖掘05-02
數據挖掘挖出效益05-02
論數據倉庫和數據挖掘04-28
數據挖掘論文[范例15篇]07-29
數據挖掘中抽樣技術的應用04-29
數據挖掘的發展和應用綜述04-30
中國基因專利的數據挖掘04-26
數據挖掘在信用卡公司的應用04-26
飛機實時監控數據挖掘方法研究04-27