- 相關推薦
2003年中國互聯網絡信息資源數量調查報告 -調查報告
信息資源數量調查報告 主持單位:國務院信息辦推廣應用組 承辦單位:中國互聯網絡信息中心 完成時間: 2004年2月 (本文圖均略) 目 錄 第一部分 調查背景 1 第二部分 調查說明 2 一、調查對象 2 二、調查內容 2 三、調查時間 3 四、有關概念 3 五、調查方法 4 六、調查問卷 7 七、組織單位 7 第三部分 調查結果 9 第一章 域名、網站數及地區分布 9 一、域名數 9 二、網站數 10 第二章 網站性質及服務內容 12 一、網站按性質分類 12 二、網站的基本情況 13 三、各類型網站信息服務內容及信息更新情況 29 第三章 網頁數量及性質特征 60 一、全國網站的網頁情況 60 二、國內前100家大型網站的網頁情況 63 三、全國網站的網頁與國內前100家大型網站的網頁情況比較 65 第四章 在線數據庫數量及性質 67 一、在線數據庫數量及各類網站擁有在線數據庫情況 67 二、在線數據庫按內容和記錄數分類情況 70 第五章 總結 79 一、域名統計 79 二、網站統計 79 三、網頁統計 85 四、在線數據庫統計 86 圖目錄 圖 1 地區域名數量分布 10 圖 2 www站點性質分類 10 圖 3 地區網站數量分布 11 圖 4 不同性質類型網站分布圖-餅狀圖 12 圖 5 不同性質類型網站分布圖-柱狀圖(%) 13 圖 6 平均每個網站每天的頁面訪問數 13 圖 7 網站每天的頁面訪問數-按類型分布 14 圖 8 企業網站每天的頁面訪問數-按行業分布(%) 15 圖 9 制造業企業網站每天的頁面訪問數(%) 16 圖 10 IT業企業網站每天的頁面訪問數(%) 16 圖 11 各類網站的網站鏈接情況 17 圖 12 各網站鏈接數的網站比例 18 圖 13 各類網站的信息主要來源情況 19 圖 14 各類網站提供的語種/文字閱讀情況 20 圖 15 各類網站提供全站信息搜索的情況 21 圖 16 各類網站的網頁上提供網站地圖的情況 21 圖 17 各類網站的網頁上提供聯系方式的情況 22 圖 18 各類網站服務器擁有情況 22 圖 19 擁有服務器的網站比例 23 圖 20 各類網站擁有服務器情況 24 圖 21 擁有服務器的各類網站所采用的操作系統情況 25 圖 22 負責網站運營的全職員工人數情況 26 圖 23 各類網站負責運營的平均全職員工人數 26 圖 24 各類網站負責運營的全職員工人數擁有情況 27 圖 25 網站的成立時間-餅圖 28 圖 26 提供各類信息服務的 的比例 30 圖 27 交互性服務 31 圖 28 政府新聞更新周期 32 圖 29 政府職能/業務介紹更新周期 32 圖 30 統計數據/資料查詢更新周期 33 圖 31 法律法規/政策/文件更新周期 33 圖 32 辦事指南/說明更新周期 34 圖 33 辦公/業務咨詢信息更新周期 34 圖 34 政府通知/公告更新周期 35 圖 35 辦事進程狀態查詢更新周期 35 圖 36 企業/行業經濟信息更新周期 36 圖 37 便民生活/住行信息更新周期 36 圖 38 表格下載更新周期 37 圖 39 政府公告、新聞、政策等信息通過網站發布情況 37 圖 40 政府日常辦公事務與網站相關服務的結合程度 38 圖 41 提供以下信息服務的企業網站的比例 39 圖 42 提供以下交互服務的企業網站的比例 40 圖 43 企業網站信息總體更新情況 41 圖 44 企業介紹更新周期 41 圖 45 產品/服務介紹更新周期 42 圖 46 行業新聞更新周期 42 圖 47 企業動態更新周期 43 圖 48 售后服務/技術支持更新周期 43 圖 49 行業解決方案更新周期 44 圖 50 行業報告更新周期 44 圖 51 電子期刊更新周期 45 圖 52 招聘信息更新周期 45 圖 53 企業網站的行業分布 46 圖 54 制造業中各類網站的分布 47 圖 55 IT業中各類網站的分布 47 圖 56 企業產品、服務、企業新聞等信息通過網站發布情況 48 圖 57 企業業務與網站的結合程度 48 圖 58 提供各類服務的商業網站的比例 50 圖 59 提供各類信息的商業網站的比例 51 圖 60 商業網站總體信息更新情況 52 圖 61 商業網站新聞更新周期 52 圖 62 商業網站產品信息更新周期 53 圖 63 商業網站貿易信息更新周期 53 圖 64 商業網站企業信息更新周期 54 圖 65 商業網站科技信息更新周期 54 圖 66 商業網站教育信息更新周期 55 圖 67 商業網站招聘信息更新周期 55 圖 68 商業網站金融財經信息更新周期 56 圖 69 商業網站房地產信息更新周期 56 圖 70 商業網站汽車信息更新周期 57 圖 71 商業網站休閑娛樂信息更新周期 57 圖 72 商業網站生活服務信息更新周期 58 圖 73 商業網站體育信息更新周期 58 圖 74 商業網站醫療健康/保健信息更新周期 59 圖 75 商業網站文學藝術信息更新周期 59 圖 76 商業網站旅游交通信息更新周期 60 圖 77 商業網站交友征婚信息更新周期 60 圖 78 全國網站的靜動態網頁數 61 圖 79 網頁的更新周期 62 圖 80 全國前100家大型網站的動靜態網頁數 63 圖 81 全國前100家網站的網頁更新周期 64 圖 82 前100家大型網站與全國網站的網頁更新周期 66 圖 83 各類網站擁有的在線數據庫數和占全部在線數據庫的比例 67 圖 84 各類網站擁有在線數據庫的比例 68 圖 85 各類網站/平均每個網站擁有數據庫數量情況 69 圖 86 各類網站平均擁有在線數據庫數量情況 69 圖 87 擁有不同在線數據庫數的網站比例 70 圖 88 擁有各類在線數據庫的網站比例情況 71 圖 89 各類在線數據庫平均擁有的記錄數 72 圖 90 各類在線數據庫的更新周期情況 73 圖 91 各類在線數據庫的每次更新比率情況 75 圖 92 各類網站在線數據庫具有其它載體情況 76 圖 93 各類網站在線數據庫具體載體形式 76 圖 94 在線數據庫收費情況 77 圖 95 在線數據庫面向對象情況 78 表目錄 表 1 調查內容和指標 2 表 2 地區域名數量分布 9 表 3 www站點性質分類 10 表 4 地區網站數量分布 11 表 5 各類網站的網站鏈接情況 17 表 6 各類網站的信息主要來源情況 18 表 7 各類網站提供的語種/文字閱讀情況 20 表 8 各類網站擁有服務器情況 23 表 9 擁有服務器的各類網站所采用的操作系統情況 25 表 10 各類網站負責運營的平均全職員工人數擁有情況 27 表 11 網頁數及網頁字節數情況 61 表 12 網頁的編碼情況 62 表 13 網頁的內容分類情況(按多媒體形式) 62 表 14 網頁的更新周期情況 62 表 15 前100家網站的網頁數及網頁字節數情況 63 表 16 前100家網站的網頁編碼情況 63 表 17 前100家網站的網頁內容分類情況(按多媒體形式) 64 表 18 前100家網站的網頁更新周期 64 表 19 在線數據庫數量及分布情況 67 表 20 各類網站擁有在線數據庫情況 68 表 21 擁有各類在線數據庫的網站比例情況 70 表 22 各類在線數據庫平均擁有的記錄數 71 表 23 各類在線數據庫的更新周期情況 73 表 24 在線數據庫的每次更新記錄比率情況 74 表 25 在線數據庫的載體情況 75 表 26 各類網站在線數據庫具體載體形式 76 表 27 在線數據庫收費情況 77 表 28 在線數據庫面向對象情況 78 第一部分 調查背景 信息資源是國家的戰略資源,它在國民經濟信息化中位于核心的地位。正確開發、利用信息資源對促進我國信息化的快速發展,導正我國信息化的發展方向,拉動國民經濟和社會發展,提高全民族的文化素質和創新能力,促進社會進步和繁榮,實施西部大開發戰略等方面有著十分重要的意義。 互聯網絡信息資源是信息資源的重要組成部分,自從20世紀90年代中期開始,互聯網在我國迅猛發展,網上中文信息資源快速增長,到2002年12月31日,全國在線數據庫達到82929個,共15709萬個網頁,2744G數據量。網上政府信息、行業和企業信息、科技教育信息、文化娛樂信息、新聞信息、旅游信息、區域特色信息等均已形成一定規模。 隨著互聯網絡的飛速發展,我國互聯網絡信息資源得到了很大的發展,但是我國互聯網絡信息資源不斷進展的同時,存在一些問題需要重視。例如,網絡和數據庫存在大量低水平重復建設,難以實現互聯共享;信息資源的開發滯后應用,存在大量信息孤島現象等。因此,加大對我國互聯網絡信息資源開發和利用的引導力度,迫在眉睫。 為加深政府對我國互聯網絡信息資源開發和利用情況的把握,包括信息資源的存量、增量以及地區和行業分類特征等,為加快制定有關信息資源發展政策和措施提供重要參考依據,促進政府對信息資源開發的有力引導,促進我國互聯網絡信息資源的充分利用,國務院信息化工作辦公室決定對我國各行、各業、各地區互聯網絡信息資源數量情況進行全面調查。 本次調查是我國互聯網絡信息資源的第三次數量調查,開始于2003年12月,結束于2004年2月,歷時3個月。在保持與前二次調查有一定連續性、借鑒前二次調查成功經驗的基礎上,在調查方法、調查深度、結果分析等方面有所創新。本次調查初步探索了我國互聯網絡信息資源發展中的問題和規律,為我國政府進一步正確引導互聯網絡信息資源的開發利用提供了重要參考。 第二部分 調查說明 一、調查對象 所有域名注冊單位屬于中國(不包括香港、澳門、臺灣)的網站總和,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN,EDU.CN等)下的所有網站。 二、調查內容 表 1 調查內容和指標 指標 數據來源 備注 域名數量 CNNIC數據 注冊商上報 網站數量 CNNIC數據 注冊商上報 網頁數量 計算機自動搜索 在線數據庫數量 問卷調查 域名 各地區域名分布狀況 CNNIC數據 注冊商上報 網站 各地區網站分布狀況 CNNIC數據 注冊商上報 按照省級行政區域劃分 各種性質的網站分布狀況 按照網站的域名特征劃分 主要類型網站提供的服務 問卷調查 政府、商業、企業 各行業網站分布狀況 按照標準行業分類法 網站相關特征 每天頁面訪問數 服務器擁有情況 網站的鏈接數 網站的員工數 網站成立時間 頻道數 網站版本 網站的可訪問性 網站地圖等 安全性 防火墻、操作系統等 網站效果指標 信息發布 可用性度量 業務結合 網頁 網頁按內容形式分類比例 計算機搜索 包括圖像、音頻和視頻 網頁按性質分類比例 政府、企業、商業等 網頁按地域分布比例 省域及七大區分布 網頁長度 以字節數計算 網頁的更新周期 網頁編碼狀況 簡、繁體中文、英文等 在線數據庫 按性質分類比例 問卷調查 政府、企業、商業網站等 按地域分布比例 華北、華南等七大區分布 按內容分類比例 產品、科技信息數據庫等 按形式分類比例 圖形文字數據綜合等 按使用情況分類比例 分自用和公用 公用下分免費和收費 收費下分收費方式 按服務方式分類比例 面向終端用戶或中介 在線數據庫更新狀況 - 數據庫容量 物理存儲量(G) 是否同時具有其它載體 否、是(光盤、紙質等) 三、調查時間 調查時間:2003年12月-2004年2月;數據截至時間:2003年12月31日。 四、有關概念 1. 在本次調查中,中國互聯網絡信息資源定義為:中國互聯網絡上公開發布的網頁和在線數據庫的總和。 2. 中國互聯網絡是指所有域名注冊單位屬于中國大陸的網站總和。 3. 在線數據庫是指以Web為界面,提供公共檢索的收費或免費的數據庫。 4. 網站是指有獨立域名的web站點,其中包括CN和通用頂級域名(gTLD)下的web站點。此處的獨立域名指的是每個域名最多只對應一個網站WWW. 域名,如:對域名sina.com.cn來說,它只有一個網站 www.sina.com.cn ,并非它有news.sina.com.cn、mail.sina.com.cn……等多個網站。 5. 商業網站指業務主要在網上進行的電子商業網站,如新浪、搜狐、網易等網站;企業網站是相對于商業網站而言,指業務主要在網下進行的企業所建立的網站,如聯想集團的網站 www.lenovo.com.cn 。 6. 網頁搜索是指對抽取的網站從其首頁(WWW 域名)開始搜索,通過網頁上的層層鏈接,抓取所有屬于該網站的網頁的特征及其文本內容。 7. 靜態網頁是指URL中不含?和輸入參數的網頁,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。 8. 動態網頁是指URL中含?或輸入參數的網頁,包括:ASP,PHP,PERL,CGI等在Server方進行處理的網頁。 9. 網頁的編碼形式:是根據網頁本身的信息通過分析得到的,不是通過一篇網頁在HTML中的聲明來判斷的。因為大量國內的英文網頁在其HTML聲明中都是簡體中文。 10. 網頁的內容形式:是通過文件后綴獲得的。關于圖像、音頻、視頻的文件后綴定義標準參考MIME標準。 11. 網頁的更新情況:網頁的更新時間是指搜索到該網頁的當日日期與該網頁的最后更新日期之間的時間段。 五、調查方法 (一)數據獲取方式和渠道 域名和網站的總量數據通過國內各國際域名注冊商和CNNIC聯合獲得。 網頁的特征數據由百度公司利用搜索技術對全國網站進行搜索獲得。搜索時通過URL判斷同一網頁是否有多個鏈接指向,避免了對這類網頁的重復計算,通過判斷不同網站的IP地址和首頁字節數是否相同,排除了不同域名指向同一網站的情況。 網站的特征數據及在線數據庫的特征數據通過Call Center電話問卷調查的方式獲得。 (二)調查問卷的抽樣方法 1.總體界定 按照對中國互聯網絡信息資源的定義(中國互聯網絡上公開發布的網頁、在線數據庫的總和),同時考慮到未注冊域名而提供服務的網站數量較少以及調查的難度,本次調查中所指的總體為:中國(不包括香港、澳門、臺灣地區)所有已注冊域名的網站,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有網站。 2.抽樣框 關于抽樣框,最直接的作法是選擇抽樣框為全國有域名的網站名錄。由于保密性的原因,抽樣過程需要委托各域名注冊/代理商完成,從方便實施并提高數據精度的角度考慮選擇抽樣框為全國(不含港、澳、臺)范圍內的域名名錄。 由于一個網站可能會有兩個或兩個以上域名,而有的域名沒有建立網站。這樣對于總體而言,就出現了抽樣框單位沒有對應的抽樣單位、抽樣框單位和抽樣單位不一一對應等問題。對此,考慮采用排除、事后加權等方法來解決。 3.抽樣方法 本次調查的抽樣方法采用分層按比例抽樣:考慮到各域名類別下網站特征的差別,首先按域名類別分層;之后在每個類別內采用定距抽樣的方法來抽取樣本,最后對調查結果進行事后加權處理以估計全國范圍的估計量。下面分階段敘述抽樣方法: 第一階段:將樣本量分到各層 因為到目前(2003年11月)為止只有截止2003年6月30日的全國范圍的域名數的情況;同時考慮到我們主要是利用各類別域名數之間的比例關系來確定樣本量在各層的分配,而這種關系應該不會有較大的變化。因此本方案按照截止2003年6月30日的各類別域名數占全國域名總數的比例將樣本總量分配到各域名類別。 第二階段:將樣本量分配到各域名注冊/代理商 抽樣過程由域名注冊/代理商按照抽樣辦法(由中國互聯網絡信息中心提供)抽取指定數量的域名作為樣本。樣本按照各域名注冊/代理商所注冊擁有的域名數的比例進行分配。具體計算辦法如下: M ij =Mj×(Nij /Nj) 其中:M ij表示第i家域名注冊/代理商所應抽取第j類的域名數,M j表示第j類應抽取的域名樣本數,Nij表示第i家域名注冊/代理商所擁有第j類的域名總數,Nj表示第j類的域名總數。 第三階段:各家域名注冊/代理商抽取域名樣本 考慮到盡可能簡化各域名注冊/代理商抽取樣本的工作量和保證抽樣的精度,要求各域名注冊/代理商在整理了域名名錄(抽樣框)后采用等距抽樣,抽取樣本步驟如下: 步驟1:分組 以域名的類別為單位對域名名錄進行分組。 步驟2:排序 由域名注冊/代理商對其抽樣框(域名名錄及相關信息)內各組域名首先按照域名注冊單位所屬省份排序,進而在域名注冊單位所屬省份下按域名注冊先后時間進行排序。 步驟3:編號 對各組內完成排序的域名進行編號。域名注冊單位所屬省份排序和編號規則規定如下: 序號 省市區 序號 省市區 序號 省市區 序號 省市區 1 北京 9 上海 17 湖北 25 云南 2 天津 10 江蘇 18 湖南 26 西藏 3 河北 11 浙江 19 廣東 27 陜西 4 山西 12 安徽 20 廣西 28 甘肅 5 內蒙古 13 福建 21 海南 29 青海 6 遼寧 14 江西 22 重慶 30 寧夏 7 吉林 15 山東 23 四川 31 新疆 8 黑龍江 16 河南 24 貴州 步驟4:抽取樣本 以第i個域名注冊/代理商、抽取第j類樣本的過程為例敘述如下。第i個域名注冊/代理商在第j組域名列表中抽取出指定數量的Mij個域名作為其提供的第j類域名的樣本,抽取的規則如下:首先計算一個抽樣距離XIJ(XIJ=Round(nij/Mij)),XIJ為第i個域名注冊/代理商在第j類樣本中的抽樣間距,然后隨機從1到nij中選出一個數S,那么編號為P=S k*Xij(k=0、1、2、3 M ij-1)的域名即為被抽取的樣本域名(當P>nij時,取P=P-nij)。 其他組的樣本抽取過程類似,將各組中抽取到的樣本綜合到一起可組成第i個注冊/代理商應抽取的樣本。 步驟5:獲取樣本相關資料 將以上步驟所抽取的樣本域名及其相關信息(包括:域名、域名類型、域名注冊時間、域名所屬單位、域名單位所在地、域名聯系人、聯系電話等)存為Excel工作表文件。格式如下: 序號 域名 域名類型 域名注冊時間 域名所屬單位 域名單位所在地 聯系人及聯系方式 1 cnnic.net.cn Net 北京【中國互聯網絡信息資源數量調查報告 -調查報告】相關文章:
中國大學生擇業價值觀及求職心理調查報告 -調查報告07-16
社區調查報告 -調查報告08-09
暑期調查報告 -調查報告08-21
什么是調查報告 -調查報告06-10
貸款調查報告 -調查報告07-24
教育調查報告 -調查報告10-26
市場調查報告之婚慶調查報告 -調查報告10-29
調查報告06-24
市場調查報告的格式 -調查報告08-09
HR工作現狀調查報告 -調查報告06-16