本書自面世以來,得到了廣大讀者的支持和鼓勵。第三版根據(jù)需要做了一些修正、改動及增補,在第七章補充了Granger因果檢驗,增加了非線性時間序列一節(jié)。本書讀者對象包括統(tǒng)計學、應用統(tǒng)計學、經濟學、數(shù)學、應用數(shù)學、精算、環(huán)境、計量經濟學、生物醫(yī)學等專業(yè)的本科生、碩士及博士生,各領域的教師和實際工作者。
本書對第二版做了相當大的增補, 并且重新安排了章節(jié). 除了對前兩版中發(fā)現(xiàn)的錯誤做出改正之外, 主要增加了貝葉斯網(wǎng)絡、 定序變量的比例優(yōu)勢模型、調查問卷的垃圾比例計算等內容. 總共增加將近三分之一的篇幅. 和第二版一樣, 第三版的排版是筆者通過\LaTeX{}軟件實現(xiàn)的.
吳喜之
北京大學數(shù)學力學系本科,美國北卡羅來納大學統(tǒng)計博士。中國人民大學統(tǒng)計學院教授,博士生導師。曾在美國加利福尼亞大學、北卡羅來納大學以及南開大學、北京大學等多所著名學府執(zhí)教。
前言
及時章 引言
第二章 橫截面數(shù)據(jù)回歸: 經典方法
第三章 橫截面數(shù)據(jù)回歸: 機器學習方法
第四章 橫截面數(shù)據(jù)分類: 經典方法
第五章 橫截面數(shù)據(jù)分類: 機器學習方法
第六章 橫截面數(shù)據(jù): 計數(shù)或有序因變量
第七章 縱向數(shù)據(jù)(多水平模型、面板數(shù)據(jù))
第八章 多元分析
第九章 多元數(shù)據(jù)的關聯(lián)規(guī)則分析
第十章 調查數(shù)據(jù)中垃圾比例的計算
第十一章 路徑建模(結構方程建模)數(shù)據(jù)的PLS分析
第十二章 貝葉斯網(wǎng)絡
第十三章 多元時間序列數(shù)據(jù)
附錄 練習: 熟練使用R軟件
參考文獻
什么是復雜數(shù)據(jù)? 沒有人能夠確切定義. 本書將通常統(tǒng)計基本教科書中的例子所代表的數(shù)據(jù)稱為簡單數(shù)據(jù), 例如通常最小二乘線性回歸所能夠圓滿處理的獨立同正態(tài)分布數(shù)據(jù)、
用標準多元分析方法能夠處理的具有多元正態(tài)分布的數(shù)據(jù)等. 其他本科教科書中能夠相對圓滿處理的數(shù)據(jù)應該不算復雜數(shù)據(jù). 顯然,
現(xiàn)實世界中遇到的絕大多數(shù)數(shù)據(jù)都不是標準教科書中所介紹的方法能夠圓滿處理的, 因此都應該被認為是復雜數(shù)據(jù). 按照這個定義, 絕大多數(shù)真實數(shù)據(jù)都是復雜數(shù)據(jù).
對于一個實際工作者來說, 拿到一個真實數(shù)據(jù)以后, 很可能需要查閱不少文獻來尋找適合這個數(shù)據(jù)的幾種可能模型(假定知道用什么模型可能解決問題),
再翻閱若干種軟件手冊來查閱這些文獻所使用軟件的計算方法(假定購買了這些軟件). 造成這種情況的原因是, 多數(shù)統(tǒng)計教科書是以模型或方法為導向的,
內容也多是按照數(shù)學思維展開的.
以模型或方法為導向的教科書通常以介紹某種數(shù)學模型和方法為主, 同時說明這種模型適用于滿足某些數(shù)學假定的數(shù)據(jù), 說明該模型對于
這些滿足假定的數(shù)據(jù)擬合的優(yōu)越性.
實際上, 任何一種真實數(shù)據(jù)是否滿足某種數(shù)學假定幾乎無法證明, 每一類數(shù)據(jù)都可能有不止一種現(xiàn)成的統(tǒng)計方法來處理, 還有無數(shù)的未知方法等待人們去開發(fā).
以模型或方法為主導的方式往往讓讀者忽略了其他有關的方法, 而那些被忽略的方法在某種意義下很可能更有效, 或者更優(yōu)越.
筆者認為, 現(xiàn)在需要一本具有以下特點的書:
用實際數(shù)據(jù)做案例.
介紹的數(shù)據(jù)種類盡可能廣泛;
這些數(shù)據(jù)必須是真實的;
這些數(shù)據(jù)必須不是簡單平凡的教科書例子;
每個數(shù)據(jù)都有理論及應用方面的背景;
所有數(shù)據(jù)都能從網(wǎng)上下載.
對每種數(shù)據(jù)都介紹可能的方法.
這些方法盡可能新;
對各種方法進行比較;
所有方法必須有計算支持.
全書使用一種軟件.
該軟件必須是免費的, 可以從網(wǎng)上下載的;
該軟件必須能夠包含盡可能多的近期統(tǒng)計方法;
該軟件必須不斷更新;
書中所有結論都可以通過運行該軟件程序而得出, 并給出所有代碼.
篇幅不能太大.
必須由淺入深, 對經典知識和模型進行必要的回顧.
不能有太多數(shù)學公式, 但至少必須讓讀者能直觀理解各種方法的含義.
其宗旨是訓練動手的能力, 而不是面面俱到地告訴人們所有細節(jié).
不僅提供各種方法, 而且提醒人們使用各種方法存在的風險.
本書以數(shù)據(jù)形式為導向, 對應不同的數(shù)據(jù)形式介紹可能使用的一些方法. 首先引入某些感興趣類型的數(shù)據(jù), 再介紹并且對比可能適合這些數(shù)據(jù)的一些統(tǒng)計方法.
這些統(tǒng)計方法可能屬于許多不同的模型, 屬于不同的統(tǒng)計方向, 但只要適用于同一類數(shù)據(jù),
我們就盡量將它們都予以介紹. 筆者覺得這種以數(shù)據(jù)為主導的學習方式有助于理解統(tǒng)計作為數(shù)據(jù)科學的本質,
有助于實際工作者通過數(shù)據(jù)學習多種統(tǒng)計方法的應用. 我們列舉了可能用于同類數(shù)據(jù)的若干方法, 希望對創(chuàng)造新的數(shù)據(jù)分析方法有所啟發(fā)并促使進一步探索,
同時也讓讀者免受查閱大量不同文獻之苦. 本書不可能介紹所有的方法, 大量新方法在你閱讀本書的時候正在誕生.
本書所有的分析都通過免費的自由軟件R來實現(xiàn). 讀者可以毫不費力地重復本書所有的計算.
R網(wǎng)站\footnote {網(wǎng)址: www.r-project.org/.}擁有世界各地統(tǒng)計學家貢獻的大量近期程序包(package),
這些程序包以飛快的速度增加和更新, 已從2009年底的大約1000個增加到2012年8月底的4009個, 僅2012年8月份就增加了449個.
它們代表了統(tǒng)計學家創(chuàng)造的嶄新的統(tǒng)計方法.
這些程序包的代碼都是公開的.\footnote{除了極個別并非秘密的子程序之外, 因為它們很費時間, 用機器代碼實行.}.
與此相對比, 所有商業(yè)軟件遠沒有如此多的資源, 也不會更新得如此之快, 而且商業(yè)軟件的代碼都是保密的昂貴``黑匣子'
在發(fā)達國家, 不能想象一個統(tǒng)計研究生不會使用R軟件. 那里很多學校都開設了R軟件的課程.
今天, 任何一個統(tǒng)計學家想要介紹和推廣其創(chuàng)造的統(tǒng)計方法, 都必須提供相應的計算程序, 而發(fā)表該程序的地點就是R網(wǎng)站. 由于方法和代碼是公開的,
這些方法很容易引起有關學者的關注, 這些關注對研究相應方法形成群體效應, 推動其發(fā)展. 不會編程的統(tǒng)計學家在今天是很難生存的.
在學校講授任何一款商業(yè)軟件都是為該公司做義務廣告, 如果沒有相關軟件公司的資助, 就沒有學校愿意花錢講授商業(yè)軟件. 在教學中使用盜版軟件是違法行為,
不應該或明或暗地鼓勵師生使用盜版商業(yè)軟件.
對R軟件編程的熟悉還有助于學習其他快速計算的語言, 比如C , FORTRAN和Python等, 這對于應對因快速處理龐大的數(shù)據(jù)集而面臨的巨大的計算量有所裨益.
本書首先通過一些簡單的統(tǒng)計和數(shù)學內容介紹R軟件的基本知識, 然后介紹數(shù)據(jù)分析的一些基本邏輯和常識.
本書的主體則是根據(jù)不同數(shù)據(jù)形式介紹相應的方法. 本書以數(shù)據(jù)為主導, 各章都是獨立的. 有一些統(tǒng)計基本知識的讀者可以
選讀本書的任何一個完整的部分. 雖然本書介紹的方法涉及應用統(tǒng)計的各個方面, 但不可能介紹所有的數(shù)學和統(tǒng)計細節(jié), 否則將會是一部巨型的百科全書.
筆者盡量用文字和少量數(shù)學公式對各種方法的原理予以直觀介紹, 并引導讀者做進一步的閱讀.
由于本書沒有按照數(shù)學模型的分類來編排, 因此對各種方法的介紹不可能滿足數(shù)學上的系統(tǒng)、整潔和的要求, 但這正是對現(xiàn)實數(shù)據(jù)和現(xiàn)實世界的反映.
如果現(xiàn)實數(shù)據(jù)都像標準教科書例子那樣``規(guī)范',
統(tǒng)計就沒有存在和發(fā)展的必要了. 本書試圖讓讀者理解世界是復雜的, 數(shù)據(jù)形式是多種多樣的. 必須有超越書本、超越所謂的智慧和勇氣,
才能充滿自信地面對世界上出現(xiàn)的各種挑戰(zhàn).
由于統(tǒng)計正以前所未有的速度發(fā)展, R網(wǎng)站及其各個程序包也在不斷更新, 因此, 筆者希望讀者通過對本書的學習, 學會如何通過R不斷學習新的知識和方法.
``授人以魚不如授之以漁', 成功的教師不是像百科全書那樣告訴學生一些現(xiàn)成的知識, 而是讓學生產生疑問和興趣, 以促進其做進一步的探索.
本書絕大多數(shù)數(shù)據(jù)例子都可以從網(wǎng)上找到并且下載. 這些例子背后都有一些理論和應用的故事.
筆者并沒有刻意挑選例子所在的領域, 這沒有關系. 你學會了一加一等于二, 也就學會了一個蘋果加一個蘋果等于兩個蘋果,
或一個梨加一個梨等于兩個梨這樣的計算. 那個把作為科學的統(tǒng)計按照工種來劃分(諸如工業(yè)統(tǒng)計、農業(yè)統(tǒng)計、勞動統(tǒng)計)的時代早已一去不復返了.
統(tǒng)計是為各個領域服務的, 我們想要得到的是到任何領域都能施展的能力, 而不是有限的行業(yè)培訓. 如果你能夠
處理具有挑戰(zhàn)性的數(shù)據(jù), 那么無論該數(shù)據(jù)來自何領域, 你的感覺都會很好.
雖然本書冠以``復雜數(shù)據(jù)統(tǒng)計方法'之名, 但對``非復雜'數(shù)據(jù)的方法都有較完整的回顧, 并給出了相應的運算程序, 只不過沒有像標準教科書那樣詳細地解釋細節(jié)而已.
本書的適用范圍很廣, 其內容曾經在中國人民大學、首都經貿大學、中央財經大學、西南財經大學、云南財經大學、四川大學、哈爾濱理工大學、新疆財經大學、中山大學、內蒙古科技大學、云南師范大學講授過, 對象包括數(shù)學、應用數(shù)學、統(tǒng)計、精算、經濟、旅游、環(huán)境等專業(yè)的本科生以及數(shù)學、應用數(shù)學、統(tǒng)計、計量經濟學、生物醫(yī)學、應用統(tǒng)計、經濟學等專業(yè)的碩士和博士研究生.
作為成績評定, 給每個學生分配若干網(wǎng)站上的實際數(shù)據(jù), 并且要求他們在學期末將他們分析處理這些數(shù)據(jù)的結果形成報告.
這些數(shù)據(jù)如何處理, 沒有標準答案, 甚至有些必要的方法還超出了授課的范圍, 需要學生做進一步的探索和學習.
筆者認為, 應用統(tǒng)計碩士所學的內容應該包括本書的大部分內容. 希望本書對于各個領域的教師以及實際工作者都有參考價值.
本書面世以來, 得到了廣大讀者的支持和鼓勵. 目前的第三版對第二版做了相當大的增補, 并且重新安排了章節(jié). 除了對前兩版中發(fā)現(xiàn)的錯誤做出改正之外, 主要增加了貝葉斯網(wǎng)絡, 定序變量的比例優(yōu)勢模型, 調查問卷的垃圾比例計算等內容. 總共增加將近三分之一的篇幅. 和第二版一樣, 第三版的排版是筆者通過\LaTeX{}軟件實現(xiàn)的.
在任何國家及任何制度下都能夠生存和發(fā)展的知識和能力, 就是科學, 是人們在生命的歷程中應該獲得的
好
學習數(shù)據(jù)分析!
正版!
沒有到
看見了新版本,果斷買進來!
有用
當當給力,書全,還有圖書的清單,這點比某東好。
基本理論應該解釋清楚
不錯的書呦!??!
挺好的,不錯哦
內容很豐富,送貨很快,
很不錯呦。
書看著很不錯。
書籍內容不錯,沒有什么問題的和好評的就用這個通用評價,差評的和不滿意的就單獨指出!
六月活動買的
值得一買的教材,有點讀功能,能讓小朋友聽到比較純正的發(fā)音。教材內容也很很可愛,符合小朋友的接受能力
紙張很好!
一直以來在當當網(wǎng)購買圖書,比較滿意。贊一個!
這本書還是很實用的,有很多例子。
還可以吧,都是專業(yè)書,還沒有看。。。
實踐性很強,扎實看一遍。作者顯然是用心了。
紙張很好!
很好的案例書和代碼書,但是原理復雜的內容講解的不夠
很好,很實用,具體的方法,還需要自己下去下功夫深入學習。
粗略看了下,總體來說挺不錯的,但是講得不夠深入
有些抽象啦,也可能我沒有開發(fā)出里邊的東西,需要進一步研究
撰寫的角度很好,都是干貨,不過基礎知識介紹不足,需要有一定基礎