- 相關推薦
如何運用Stata完成統計數據匯總工作論文
統計數據匯總是數據發布和數據分析研究的基礎,也是統計工作者必不可少的一項工作技能。目前統計工作中數據匯總大體上有兩種方式,一種是通過國家統計聯網直報平臺或其他數據報送平臺定制的數據匯總表對調查數據進行匯總,這種匯總方式操作簡單,快捷,但是匯總表是通過平臺定制,匯總的分組和結構固定,靈活性不足。另一種途徑是統計工作者根據工作需要,選取數據匯總軟件,對企業或者個人報送的統計數據進行匯總。這種匯總方式靈活性大,時效性強,但是需要借助相應的數據匯總軟件完成。
Stata 由美國計算機資源中心研制,是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。Stata 功能強大,相對簡單易學,并且能夠應對經濟普查、人口普查等上百萬條樣本數據的匯總工作。本文就如何運用 Stata 完成統計數據匯總工作加以介紹。
合并數據文件
統計調查的原始數據經常存放在不同的數據文件里,比如,調查企業通過“調查單位基本情況表”上報企業所在地、登記注冊類型等情況,通過 “財務狀況表”上報財務相關指標。在數據匯總前,需要將兩個數據文件進行合并,才能實現對財務指標的分地區、分行業等交叉分組匯總。最常用的合并方式有兩種:
1. 數 據 文 件 的 橫 向 合 并。 橫 向合并是將兩個數據文件的變量合并到一起,合并后數據樣本不變 , 但變量數目增加,也就是數據文件變寬了。Stata 中只需指定合并序號變量,使用“merge”命令即可實現兩個數據文件的橫向合并。實際工作中,常把企業的組織機構代碼(zzjgdm)作為序號變量。比如,將“調查單位基本情況(101-1表)”數據文件“jbqk.dta”和“財務狀 況 表” 數 據 文 件“cwzk.dta” 按 照zzjgdm 合并的命令為:
use jbqk,clear
merge zzgjdm using cwzk
實 際 上,Stata 不 僅 可 以 將 兩 個dta 文件合并,也可以直接讀入 csv、txt 等格式的文件,完成數據合并。兩個數據文件合并過程中,Stata 還自動生成了一個新的變量“_merge”,_merge 賦值為 1,2,3 中的一個。上例中,_merge 值為 1 代表該樣本在“jbqk.dta”數據文件中,為2代表樣本在“cwzk.dta”數據文件中,為3代表樣本在“jcqk.dat”和“cwzk.dat”中同時存在。這樣,通過 _merge 變量,我們就可以方便完成兩個數據文件的比對。
2. 數據文件的縱向合并。縱向合并是把兩個數據文件的樣本加總在一起,合并后樣本變量數目不變,樣本數增加,也就是數據文件變長了。最常見的縱向合并情況是對一項調查在不同地區或者不同時間得來的數據進行合并。Stata 縱向合并數據文件的命令為“append”.比如,我們將調查得到的包含北京市調查數據的數據文件“bj.dta”和包含天津市調查數據的數據文件“tj.dta”縱向合并的Stata命令為:
use bj,clear
append using tj
需要注意的是,在縱向合并兩個數據文件前,兩個文件中相同變量的變量名要一致,否則將會被當成兩個變量處理,并產生無用的缺失值。同時,相同變量的變量類型要一致。
匯總問卷調查結果
問卷調查時效性較強,調查結果容易量化,便于統計處理與分析,是常用的統計調查方法。問卷調查結果用 Stata 進行匯總非常方便,使用“tabulate”命令,可方便的生成列聯表,根據變量的頻數分布可以得到問卷回答情況的匯總結果。比如,對 10000個樣本企業開展問卷調查,涉及 10 個問 題, 分 別 為:WT1,WT2, ……,WT10(每個問題的答案均為 A、B、C、D 四個選項)。匯總問題 WT1 的回答情況時,只需輸入命令:tabulateWT1,即可得到 WT1 樣本回答情況的頻 數(Freq)、 百 分 比(Percent) 及累計百分比(Cum)指標(Stata 輸出結果見表 1)。從 Freq 輸出結果可見,樣本企業對 WT1 的回答情況為:選擇答案 A、B、C、D 的企業數量分別為1000、3000、4000 和 2000 個。Percent結果給出了選擇答案 1、2、3、4 的比重分別為 10%,30%、40% 和 20%.
同 時,“tabulate” 命 令 還 可 以生成 2 維列聯表,比如,需要對問題WT1 做分省回答結果的匯總時,只需對省代碼(sf)和 WT1 執行“tabulate”匯總。Stata 命令為:tabulate sf WT1,即 可 輸 出 表 2 格 式 的 匯 總 結 果{ 假設調查只涉及北京市(代碼 11)、天 津 市( 代 碼 12)、 河 北 省( 代 碼13)}.
類似的,可以對每一個問題的調查結果分行業、分登記注冊類型、分控股情況等做交叉分組匯總。
匯總生產經營情況調查結果
現行的統計報表制度更多的是對調查單位的生產經營情況開展年度、季度或者是月度調查。日常的數據匯總工作更多的是對生產經營指標做各種交叉分組匯總。
與問卷調查結果不同,生產經營情況的調查結果需要對調查指標數據加總或者通過計算生成新的指標,因此,我們首先要生成新的變量,來記錄相應指標的匯總結果。Stata 生成新變量的命令為“generate”及其擴展命令“egen”.“generate”用來生成一般變量,“egen”可以生成包含函數表達式的變量。比如,我們對規模以上服務業企業“財務狀況(F103 表)”中“營業收入”指標的本年(yysr1)和上年同期(yysr2)數據進行匯總,并計算兩年的同比增速(d),用到的Stata 語句為:
egen a=sum(yysr1)
egen b=sum(yysr2)
gen d=(a/b)*100-100
其中:“sum()”為求和函數,變量 a 用來記錄“營業收入”本年的合計數,變量 b 用來記錄“營業收入”上年同期的合計數,變量d用來記錄“營業收入”的同比增速。
統計調查表中通常包含多個指標,我們可以使用 Stata 的循環語句“forvalues”同時對多個指標匯總。比如,我們對規模以上服務業企業“財務狀況(F103 表)”涉及的 31 個財務指標匯總。31 個指標的本年和上年同期數據我們分別用 ai 和 bi(i=1,2,…,31) 表示。匯總語句為:
forvalues i=1/31{
egen suma`i'=sum(a`i‘)
egen sumb`i'=sum(b`i’)
gen d`i'=(suma`i'/sumb`i‘)*100-100}
31 個指標的本年和上年同期匯總數據分別記錄于 sumai 和 sumbi 變量,di 為同比增速(i=1,2,…,31)。
我們還可以用“by+ 變量名”實現各種交叉分組匯總。比如,分省匯總“營業收入”本年(yysr1)和上年同期數(yysr2)指標的 Stata 語句為:
by sf,sort:egen a=sum(yysr1)
by sf,sort:egen b =sum(yysr2)
其中:“sort”命令為排序命令,對省代碼(sf)變量按照從小到大排序。在用“by”命令對變量進行分類匯總前,必須要對分類變量進行排序。運用“by+變量名”我們還可以進一步實現分行業分指標、分登記注冊類型分指標及分省分行業等交叉匯總工作。比如,分省分行業大類匯總“營業收入”指標的語句為:
sort sf hydl :egen suma=sum(yysr1)
sort sf hydl :egen sumb=sum(yysr2)
綜上可見,運用 Stata 語句,可以快速、靈活的完成統計數據的各種交叉匯總工作,為數據的審核及后續的分析研究工作帶來便利。同時,Stata的數據匯總結果既可以以文本格式直接粘貼進 Word 等文字編輯器,也可以以表格的形式粘貼進 Excel 等數據表格處理器,便于存儲和使用。
【如何運用Stata完成統計數據工作論文】相關文章:
運用修辭完成華麗的轉身04-30
統計數據質量論文05-02
如何出色的完成面試10-28
如何記憶和運用英語詞匯論文05-01
初中化學如何運用探究式教學論文05-02
如何運用積極心理暗示調控學生的行為論文05-03
在物理教學中如何把握多媒體運用的度論文05-03
如何運用游戲教學培養學生的運動興趣論文05-04
如何運用碳纖維進行橋梁加固補強論文05-03
如何高效完成英語筆試10-01