數據管理是介于原始數據收集和統計分析之間的一項重要工作,其包含了數據分析中那些挑戰性的方面。《Stata環境下的數據管理實務手冊》從Stata入手,展示了Stata在管理數據工作中的作用,而非僅僅是其在統計上的優勢。
一本非常實用的社會統計軟件Stata數據管理的指導書!
有效提升大數據時代的數據管理能力和處理能力!
社會科學工作者、數據工作者的數據管理參考書!
手把手逐步演示數據管理的流程,易上手,易操作,突出實務!
國際Stata出版社授權,中國人民大學中國調查與數據中心翻譯,、經得起檢驗的數據管理實務手冊。
一本生動可讀的數據管理書。作者就像是一個坐在對面娓娓道來的講故事的人,將數據管理的流程和步驟一一展現,讓我們重新認識到Stata在數據管理方面的迷人魅力。大數據時代,讓數據為我所用,易用,樂用,是這本書的一個出發點。
該書的翻譯也是可圈可點的,,流暢,譯者唐麗娜不虧是科班出身并長期致力于社會統計的專家,她在社會數據的管理與統計方面的專業經驗,以及在CGSS(中國綜合社會調查)項目中豐富的實操經驗,也極大保障了這本書的翻譯質量。
邁克爾 N 米歇爾(Michael N. Mitchell),是一位醫療衛生服務領域的高級統計師。12年來,他一直在加州大學洛杉磯分校學術技術服務部門的統計咨詢組工作。所著書籍有A Visual Guide to Stata Graphics,Interpreting and Visualizing Regression Models Using Stata,Stata for the Behavioral Sciences等。
唐麗娜,社會學博士,就職于中國人民大學中國調查與數據中心。研究領域為宗教社會學、社會調查方法與技術、社會科學數據管理及數據可視化、數據庫建設。
及時章 入門介紹
1.1 本書的使用
1.2 本書的概要
1.3 本書使用的案例
第二章 讀取和錄入數據
2.1 簡 介
2.2 讀入Stata數據
2.3 保存Stata數據
2.4 讀取逗號或制表符作分隔符的文件
2.5 讀取空格作分隔符的文件
2.6 讀取固定格式文件
2.7 讀取一條觀測值包含多行原始數據的固定格式的文件
2.8 讀取SAS XPORT文件
2.9 讀取數據時的常見錯誤
2.10 在Stata數據編輯器中直接輸入數據
2.11 保存逗號或制表符作分隔符的文件
2.12 保存空格作分隔符的文件
2.13 保存SAS XPORT文件
第三章 數據清理
3.1 簡 介
3.2 數據的雙錄
3.3 單個變量檢查
3.4 用分類變量檢查分類變量
3.5 用連續變量檢查分類變量
3.6 用連續變量檢查連續變量
3.7 修正數據中的錯誤
3.8 識別重復錄入
3.9 關于數據清理的總結性思考
第四章 給數據加標簽
4.1 簡 介
4.2 描述數據
4.3 給變量加標簽 4.4 給取值加標簽
4.5 標簽的作用
4.6 用不同的語言給變量和取值加標簽
4.7 給數據添加注釋
4.8 格式化變量的顯示
4.9 改變數據中的變量順序
第五章 創建變量
5.1 簡 介
5.2 創建和修改變量
5.3 數值表達式和函數
5.4 字符表達式和函數
5.5 重新編碼
5.6 給缺失值編碼
5.7 虛擬變量
5.8 日期變量
5.9 日期-時間變量
5.10 變量間的計算
5.11 個案間的計算
5.12 更多的使用egen命令的例子
5.13 把字符型變量轉換成數值型變量
5.14 把數值型變量轉換成字符型變量
5.15 變量重命名和變量排序
第六章 合并數據
6.1 簡 介
6.2 添加數據
6.3 添加數據時存在的問題
6.4 一對一匹配合并數據
6.5 一對多匹配合并數據
6.6 合并多個數據
6.7 更新合并
6.8 合并數據時的其他選項
6.9 合并數據時的問題
6.10 連接數據
6.11 交叉合并數據
第七章 處理分組的觀測值
7.1 簡 介
7.2 為每個分組獲取獨立的結果
7.3 分組獨立計算數值
7.4 組內計算:加下標的觀測值
7.5 組內計算:跨觀測值計算
7.6 組內計算:求和
7.7 組內計算:更多示例
7.8 比較by命令和tsset命令
第八章 改變數據形狀
8.1 簡 介
8.2 寬數據和長數據
8.3 長數據轉換成寬數據
8.4 長數據轉寬數據時的問題
8.5 寬數據轉換成長數據
8.6 寬數據轉長數據時的問題
8.7 多層次數據
8.8 延展數據
第九章 數據管理編程
9.1 簡 介
9.2 對數據管理長期目標的建議
9.3 執行do文件和制作日志文件
9.4 數據檢驗的自動化
9.5 合并do文件
9.6 介紹Stata中的宏
9.7 使用Stata中的宏
9.8 通過變量循環實現命令的重復執行
9.9 通過數字循環實現命令的重復執行
9.10 任何數據管理都能用循環實現命令的重復執行
9.11 獲取Stata命令保存的結果
9.12 把estimation命令的結果保存為數據
9.13 編寫Stata程序
第十章 附加資源
10.1 本書的在線資源
10.2 搜索并安裝其他程序
有個濾油機公司曾經做過這么一則廣告:一個機修工一邊修理一臺發動機一邊說, 如果能夠定期給發動機換油,就可以不用修理它。那個機修工說:“你可以現在花錢,也可以等將來再花錢。”這里的暗示是你要么現在花3美元在一個濾油器上,要么將來花3 000美元去修理發動機。我覺得這是一個很好的類比,雙錄數據的努力(成本)相當于廣告中濾油器的費用。開始的數據雙錄代價很小(在數據錄入過程中拿出一定的時間來清理數據),但如果一開始只是單錄數據,后期就需要付出更大的代價來清理數據(檢查所有變量中可能出現的錯誤和不一致的地方)。如果你自己正在錄入一份問卷或拿到其他的已經搜集好的原始資料,我強烈建議進行數據雙錄。本節將介紹如何用 Stata實現數據的雙錄。
數據雙錄,顧名思義,就是把同一數據錄入兩次,且保存成兩個不同的數據文件。然后把兩個數據文件做比對。如果出現不一致的地方,就意味著數據錄入時出錯了,然后可以通過檢查原始資料(如原始問卷)找到正確的取值來糾正發現的錯誤。如果比對以后沒有出現不一致的地方,也不一定證明錄入的數據是正確的;因為也有可能兩次數據錄入的時候出錯的方式是一樣的。在大多數情況中,很難想象在兩次錄入出現一模一樣的錯誤,這種事情不會經常發生。比如,假設調查用的是紙筆問卷,答案都是手填的,且兩次是同一個人錄入。及時次錄入的時候把數字4誤認為數字9,如果是同一個錄入員,有可能把以后遇到的所有4都誤認為9。這一點提示我們:獨立雙錄數據是必要的,這樣能夠減少錄入數據時重復犯錯的可能性。
有人說收集數據就像收垃圾一樣:收集之前就應該想好怎么處理它。
——羅素.福克斯,馬克思.哥白尼和羅伯特.虎克
在看
1萬個贊
非常滿意!
一本很實用的書!好!!!!!
學術用書
hao
整體上感覺還不錯。
紙張很好!