本書自面世以來,得到了廣大讀者的支持和鼓勵。第三版根據需要做了一些修正、改動及增補,在第七章補充了Granger因果檢驗,增加了非線性時間序列一節。本書讀者對象包括統計學、應用統計學、經濟學、數學、應用數學、精算、環境、計量經濟學、生物醫學等專業的本科生、碩士及博士生,各領域的教師和實際工作者。
本書對第二版做了相當大的增補, 并且重新安排了章節. 除了對前兩版中發現的錯誤做出改正之外, 主要增加了貝葉斯網絡、 定序變量的比例優勢模型、調查問卷的垃圾比例計算等內容. 總共增加將近三分之一的篇幅. 和第二版一樣, 第三版的排版是筆者通過\LaTeX{}軟件實現的.
吳喜之
北京大學數學力學系本科,美國北卡羅來納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執教。
前言
及時章 引言
第二章 橫截面數據回歸: 經典方法
第三章 橫截面數據回歸: 機器學習方法
第四章 橫截面數據分類: 經典方法
第五章 橫截面數據分類: 機器學習方法
第六章 橫截面數據: 計數或有序因變量
第七章 縱向數據(多水平模型、面板數據)
第八章 多元分析
第九章 多元數據的關聯規則分析
第十章 調查數據中垃圾比例的計算
第十一章 路徑建模(結構方程建模)數據的PLS分析
第十二章 貝葉斯網絡
第十三章 多元時間序列數據
附錄 練習: 熟練使用R軟件
參考文獻
什么是復雜數據? 沒有人能夠確切定義. 本書將通常統計基本教科書中的例子所代表的數據稱為簡單數據, 例如通常最小二乘線性回歸所能夠圓滿處理的獨立同正態分布數據、
用標準多元分析方法能夠處理的具有多元正態分布的數據等. 其他本科教科書中能夠相對圓滿處理的數據應該不算復雜數據. 顯然,
現實世界中遇到的絕大多數數據都不是標準教科書中所介紹的方法能夠圓滿處理的, 因此都應該被認為是復雜數據. 按照這個定義, 絕大多數真實數據都是復雜數據.
對于一個實際工作者來說, 拿到一個真實數據以后, 很可能需要查閱不少文獻來尋找適合這個數據的幾種可能模型(假定知道用什么模型可能解決問題),
再翻閱若干種軟件手冊來查閱這些文獻所使用軟件的計算方法(假定購買了這些軟件). 造成這種情況的原因是, 多數統計教科書是以模型或方法為導向的,
內容也多是按照數學思維展開的.
以模型或方法為導向的教科書通常以介紹某種數學模型和方法為主, 同時說明這種模型適用于滿足某些數學假定的數據, 說明該模型對于
這些滿足假定的數據擬合的優越性.
實際上, 任何一種真實數據是否滿足某種數學假定幾乎無法證明, 每一類數據都可能有不止一種現成的統計方法來處理, 還有無數的未知方法等待人們去開發.
以模型或方法為主導的方式往往讓讀者忽略了其他有關的方法, 而那些被忽略的方法在某種意義下很可能更有效, 或者更優越.
筆者認為, 現在需要一本具有以下特點的書:
用實際數據做案例.
介紹的數據種類盡可能廣泛;
這些數據必須是真實的;
這些數據必須不是簡單平凡的教科書例子;
每個數據都有理論及應用方面的背景;
所有數據都能從網上下載.
對每種數據都介紹可能的方法.
這些方法盡可能新;
對各種方法進行比較;
所有方法必須有計算支持.
全書使用一種軟件.
該軟件必須是免費的, 可以從網上下載的;
該軟件必須能夠包含盡可能多的近期統計方法;
該軟件必須不斷更新;
書中所有結論都可以通過運行該軟件程序而得出, 并給出所有代碼.
篇幅不能太大.
必須由淺入深, 對經典知識和模型進行必要的回顧.
不能有太多數學公式, 但至少必須讓讀者能直觀理解各種方法的含義.
其宗旨是訓練動手的能力, 而不是面面俱到地告訴人們所有細節.
不僅提供各種方法, 而且提醒人們使用各種方法存在的風險.
本書以數據形式為導向, 對應不同的數據形式介紹可能使用的一些方法. 首先引入某些感興趣類型的數據, 再介紹并且對比可能適合這些數據的一些統計方法.
這些統計方法可能屬于許多不同的模型, 屬于不同的統計方向, 但只要適用于同一類數據,
我們就盡量將它們都予以介紹. 筆者覺得這種以數據為主導的學習方式有助于理解統計作為數據科學的本質,
有助于實際工作者通過數據學習多種統計方法的應用. 我們列舉了可能用于同類數據的若干方法, 希望對創造新的數據分析方法有所啟發并促使進一步探索,
同時也讓讀者免受查閱大量不同文獻之苦. 本書不可能介紹所有的方法, 大量新方法在你閱讀本書的時候正在誕生.
本書所有的分析都通過免費的自由軟件R來實現. 讀者可以毫不費力地重復本書所有的計算.
R網站\footnote {網址: www.r-project.org/.}擁有世界各地統計學家貢獻的大量近期程序包(package),
這些程序包以飛快的速度增加和更新, 已從2009年底的大約1000個增加到2012年8月底的4009個, 僅2012年8月份就增加了449個.
它們代表了統計學家創造的嶄新的統計方法.
這些程序包的代碼都是公開的.\footnote{除了極個別并非秘密的子程序之外, 因為它們很費時間, 用機器代碼實行.}.
與此相對比, 所有商業軟件遠沒有如此多的資源, 也不會更新得如此之快, 而且商業軟件的代碼都是保密的昂貴``黑匣子'
在發達國家, 不能想象一個統計研究生不會使用R軟件. 那里很多學校都開設了R軟件的課程.
今天, 任何一個統計學家想要介紹和推廣其創造的統計方法, 都必須提供相應的計算程序, 而發表該程序的地點就是R網站. 由于方法和代碼是公開的,
這些方法很容易引起有關學者的關注, 這些關注對研究相應方法形成群體效應, 推動其發展. 不會編程的統計學家在今天是很難生存的.
在學校講授任何一款商業軟件都是為該公司做義務廣告, 如果沒有相關軟件公司的資助, 就沒有學校愿意花錢講授商業軟件. 在教學中使用盜版軟件是違法行為,
不應該或明或暗地鼓勵師生使用盜版商業軟件.
對R軟件編程的熟悉還有助于學習其他快速計算的語言, 比如C , FORTRAN和Python等, 這對于應對因快速處理龐大的數據集而面臨的巨大的計算量有所裨益.
本書首先通過一些簡單的統計和數學內容介紹R軟件的基本知識, 然后介紹數據分析的一些基本邏輯和常識.
本書的主體則是根據不同數據形式介紹相應的方法. 本書以數據為主導, 各章都是獨立的. 有一些統計基本知識的讀者可以
選讀本書的任何一個完整的部分. 雖然本書介紹的方法涉及應用統計的各個方面, 但不可能介紹所有的數學和統計細節, 否則將會是一部巨型的百科全書.
筆者盡量用文字和少量數學公式對各種方法的原理予以直觀介紹, 并引導讀者做進一步的閱讀.
由于本書沒有按照數學模型的分類來編排, 因此對各種方法的介紹不可能滿足數學上的系統、整潔和的要求, 但這正是對現實數據和現實世界的反映.
如果現實數據都像標準教科書例子那樣``規范',
統計就沒有存在和發展的必要了. 本書試圖讓讀者理解世界是復雜的, 數據形式是多種多樣的. 必須有超越書本、超越所謂的智慧和勇氣,
才能充滿自信地面對世界上出現的各種挑戰.
由于統計正以前所未有的速度發展, R網站及其各個程序包也在不斷更新, 因此, 筆者希望讀者通過對本書的學習, 學會如何通過R不斷學習新的知識和方法.
``授人以魚不如授之以漁', 成功的教師不是像百科全書那樣告訴學生一些現成的知識, 而是讓學生產生疑問和興趣, 以促進其做進一步的探索.
本書絕大多數數據例子都可以從網上找到并且下載. 這些例子背后都有一些理論和應用的故事.
筆者并沒有刻意挑選例子所在的領域, 這沒有關系. 你學會了一加一等于二, 也就學會了一個蘋果加一個蘋果等于兩個蘋果,
或一個梨加一個梨等于兩個梨這樣的計算. 那個把作為科學的統計按照工種來劃分(諸如工業統計、農業統計、勞動統計)的時代早已一去不復返了.
統計是為各個領域服務的, 我們想要得到的是到任何領域都能施展的能力, 而不是有限的行業培訓. 如果你能夠
處理具有挑戰性的數據, 那么無論該數據來自何領域, 你的感覺都會很好.
雖然本書冠以``復雜數據統計方法'之名, 但對``非復雜'數據的方法都有較完整的回顧, 并給出了相應的運算程序, 只不過沒有像標準教科書那樣詳細地解釋細節而已.
本書的適用范圍很廣, 其內容曾經在中國人民大學、首都經貿大學、中央財經大學、西南財經大學、云南財經大學、四川大學、哈爾濱理工大學、新疆財經大學、中山大學、內蒙古科技大學、云南師范大學講授過, 對象包括數學、應用數學、統計、精算、經濟、旅游、環境等專業的本科生以及數學、應用數學、統計、計量經濟學、生物醫學、應用統計、經濟學等專業的碩士和博士研究生.
作為成績評定, 給每個學生分配若干網站上的實際數據, 并且要求他們在學期末將他們分析處理這些數據的結果形成報告.
這些數據如何處理, 沒有標準答案, 甚至有些必要的方法還超出了授課的范圍, 需要學生做進一步的探索和學習.
筆者認為, 應用統計碩士所學的內容應該包括本書的大部分內容. 希望本書對于各個領域的教師以及實際工作者都有參考價值.
本書面世以來, 得到了廣大讀者的支持和鼓勵. 目前的第三版對第二版做了相當大的增補, 并且重新安排了章節. 除了對前兩版中發現的錯誤做出改正之外, 主要增加了貝葉斯網絡, 定序變量的比例優勢模型, 調查問卷的垃圾比例計算等內容. 總共增加將近三分之一的篇幅. 和第二版一樣, 第三版的排版是筆者通過\LaTeX{}軟件實現的.
在任何國家及任何制度下都能夠生存和發展的知識和能力, 就是科學, 是人們在生命的歷程中應該獲得的
好
學習數據分析!
正版!
沒有到
看見了新版本,果斷買進來!
有用
當當給力,書全,還有圖書的清單,這點比某東好。
基本理論應該解釋清楚
不錯的書呦!!!
挺好的,不錯哦
內容很豐富,送貨很快,
很不錯呦。
書看著很不錯。
書籍內容不錯,沒有什么問題的和好評的就用這個通用評價,差評的和不滿意的就單獨指出!
六月活動買的
值得一買的教材,有點讀功能,能讓小朋友聽到比較純正的發音。教材內容也很很可愛,符合小朋友的接受能力
紙張很好!
一直以來在當當網購買圖書,比較滿意。贊一個!
這本書還是很實用的,有很多例子。
還可以吧,都是專業書,還沒有看。。。
實踐性很強,扎實看一遍。作者顯然是用心了。
紙張很好!
很好的案例書和代碼書,但是原理復雜的內容講解的不夠
很好,很實用,具體的方法,還需要自己下去下功夫深入學習。
粗略看了下,總體來說挺不錯的,但是講得不夠深入
有些抽象啦,也可能我沒有開發出里邊的東西,需要進一步研究
撰寫的角度很好,都是干貨,不過基礎知識介紹不足,需要有一定基礎