- 相關推薦
大數據對統計學的挑戰和機遇論文
大數據給統計學提供了機遇、挑戰和緊迫感。本文闡述著大數據的環境利用大數據的目的和大數據帶來的整個變革;介紹著有關大數據的研究動向;探討著大數據包含的信息,大數據的準備處理、抽樣和分析方法。
當今社會,一方面人們在每個的獲取數據。各個科學領域都在大量的獲取數據。自然科學領域收集著從宏觀的天文數據到微觀的基因數據。從經濟、金融和人文社會科學收集著大量的數據。
一些人們在不斷地制造和收集著數據,相信著這些數據也許會對人有用。當然,也有人們不再繼續呆在實驗室里考核著研究,僅僅依靠著強大的網絡數據來進行研究。而人們也在很被動著積累著數據。
隨著互聯網這樣的大時代到來,各種方法也涌現出來。各式各樣的數據如滔滔江水連綿不絕的涌現出來。現如今數據這樣的大體系也在悄悄進行著變化。統計學又面臨著新的機遇和挑戰,這當然需要在方法論上有所突破和改變。
一、大數據及其目的
大數據是一個大樣本和高維變量的數據集合。針對這樣的問題,用于統計學上來說就是采用抽樣減少樣本量,最后達到需要的精度。關于這樣的問題,急需要變量選擇、降維、壓縮、分解。廣義的說,大數據涵蓋了許多種領域,像多源、混合的數據,自然科學、人文社會、經濟學、網絡、通訊、商業和娛樂各樣的領域。這其中大數據涉及了各種數據類型,包括文本和語言、錄像和圖像、時空網絡與圖形。
大數據的目的就是將數據轉化為知識,探索著數據將會產生的機制。并且大數據有著記錄保存自然和社會現狀的作用,F在的人收集著許多大量的數據。雖然還不是那樣的了解。但是依然相信需要保存現在這個社會經濟發展的整個過程,滿心期待在今后的歲月長河中不斷地分析和解釋著。
大數據將形成自然和人文社會的歷史長河,不僅用于當今時代的研究。甚至對于轉基因食品對子孫后代的影響來繼續深究問題,為未來的人留下先今的歷史材料。
二、大數據的處理、抽樣與分析
(一)數據的預處理。大數據的預處理包含數據清洗、不完全數據填補、數據糾偏和矯正。統計機構的數據是經過嚴格的抽樣設計所得到的[1]。有著代表性和系統誤差小的優勢。互聯網的數據速度更快、量大、項目繁瑣,但是難以避免一些這樣的問題。將統計機構的數據作為標準來對互聯網進行校正。從而將互聯網數據作為補充資源對統計機構的數據進行隨時隨地的更新。這或許是解決問題的一個思路。
(二)大數據環境的抽樣。大數據的抽樣方法有待研究。不管鍋有多大。只要可以充分的均勻攪拌。知道其中的滋味就可以了。針對大數據流環境,需要探索從源源不斷的數據流中抽取可以滿足統計目的和精度的樣本[2]。需要研究新的抽樣方法。可以有適應性、序貫性以及動態的抽樣方法。
盡力數據流的緩沖區,記錄著數據所發生的一切變化。利用其他各種抽樣技術。比如滾雪球這樣的方法,從種子開始逐步擴大著樣本。從各種隨機種子出發。不斷加入新鮮的種子,了解當代網絡性質和結構。
(三)大數據的分析和整合。針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。
(四)數據不需要保存,只是需要掃描一遍數據的數據流算法。只是考慮計算機內存和外存的數據傳送問題。分布數據和并行計算的方法。
針對多種不同數據庫的環境,利用關系數據庫技術,根據關鍵字將很多小數據庫連接成一個大數據。并且,在這些大的數據庫中還可以分解出許多的小數據庫。組合出不同的東西,更可以做出許多有創意的東西。
在大數據環境,很多的數據集不再有標識個體的關鍵字,傳統的關鍵數據庫連接方法不再適用。探索不必經過整合多數據庫,直接利用局部數據進行推斷結果傳播的方法。利用統計性質信息損失地分解和壓縮大數據。
(四)網絡圖模型。網絡圖模型用圖的結構描述高維變量之間的相互關系,包括貝葉斯網絡、無向圖概率模型、因果網絡等。網絡模型是處理和分析高維大數據和多源數據庫的有效工具。目前已經有豐富的圖模型的軟件系統。網絡圖模型可以用于分解大數據集合,處理多源數據庫,來進行計算。它還可以引入隱變量簡化復雜的關聯聯系。最終確定并能區分該目標節點的原因與結果。
結論:一個新生事物的出現會導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的己近消亡。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會像科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。大數據充滿了許多的隨機性,F在看到的大數據也給統計學帶來了機遇。
現在其他學科和行業的涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險。分布式的大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出應和大數據的新的統計方法。機遇和挑戰并存。
【大數據對統計學的挑戰和機遇論文】相關文章:
大數據時代統計學面臨機遇與挑戰論文05-02
挑戰和機遇并存的作文05-06
挑戰和機遇并存的作文(精選27篇)10-14
電信網絡面臨的挑戰和發展機遇05-01
21世紀理論化學的挑戰和機遇04-29
外國留學生臨床醫學教育的挑戰和機遇04-30
數據挖掘論文04-29
把握機遇議論文04-26
淺談統計學思想論文04-28