引論:我們?yōu)槟砹?篇統(tǒng)計(jì)學(xué)數(shù)據(jù)論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)與統(tǒng)計(jì)學(xué)協(xié)同發(fā)展的思考分析
摘要:海量的數(shù)據(jù)已經(jīng)滲透了每個人的生活,以數(shù)據(jù)為研究對象的統(tǒng)計(jì)學(xué)應(yīng)該以科學(xué)的態(tài)度迎接大數(shù)據(jù)浪潮,并積極思考如何把握這重要的發(fā)展機(jī)會。本文首先闡明大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的密切關(guān)系,再從大數(shù)據(jù)時代下的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)、相關(guān)關(guān)系與因果關(guān)系,這兩個方面思考大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的協(xié)同發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計(jì)學(xué);
一、大數(shù)據(jù)與統(tǒng)計(jì)學(xué)
(一)大數(shù)據(jù)與統(tǒng)計(jì)學(xué)關(guān)系密切
簡單來說,我們可以分為兩個方面來理解大數(shù)據(jù):若“大數(shù)據(jù)”作為形容詞,則描述的是大數(shù)據(jù)時代數(shù)據(jù)的特點(diǎn);若“大數(shù)據(jù)”作為名詞,則體現(xiàn)的是數(shù)據(jù)科學(xué)研究的對象。對大數(shù)據(jù)的定義有非常多,不同領(lǐng)域不同專業(yè)對大數(shù)據(jù)的界定都會有些許不同。通俗地說:大數(shù)據(jù)是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加。現(xiàn)代互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數(shù)據(jù),從中挖掘出有用的信息促進(jìn)社會的發(fā)展。邁爾?舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析世界的渴望。而統(tǒng)計(jì)學(xué)正好是收集、整理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。由此可見大數(shù)據(jù)與統(tǒng)計(jì)學(xué)關(guān)系密切,將大數(shù)據(jù)與統(tǒng)計(jì)學(xué)結(jié)合發(fā)展?jié)摿o窮。
(二)大數(shù)據(jù)時代下的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)需整合
對接統(tǒng)計(jì)研究可根據(jù)自身的目的收集總體數(shù)據(jù)或樣本數(shù)據(jù),但如果總體太過龐大,以過去的技術(shù)方法來收集總體數(shù)據(jù)成本會很高,受于限制統(tǒng)計(jì)研究更多收集得是樣本數(shù)據(jù)。如今,人類已經(jīng)開始能夠在合適的成本下獲得大數(shù)據(jù),大數(shù)據(jù)的廣博給統(tǒng)計(jì)研究帶來了新的發(fā)展方向。我們需要著重研究的一個方向就是如何將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)對接。大數(shù)據(jù)的核心是數(shù)據(jù),統(tǒng)計(jì)學(xué)的研究對象也是數(shù)據(jù),但是它們獲得的數(shù)據(jù)性質(zhì)有所不同:大數(shù)據(jù)收集的多是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),通俗地理解,先獲得數(shù)據(jù),再整理結(jié)構(gòu)(如聲音、圖片、視頻等信息);傳統(tǒng)統(tǒng)計(jì)學(xué)收集則主要是結(jié)構(gòu)化數(shù)據(jù),先定好結(jié)構(gòu),再根據(jù)目標(biāo)結(jié)構(gòu)收集數(shù)據(jù)(如數(shù)字、符號等信息)。拿非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)來說:大數(shù)據(jù)時代使得我們有更多可以分析利用的數(shù)據(jù),使得統(tǒng)計(jì)研究不僅可以在有更多的結(jié)構(gòu)化數(shù)據(jù)的情形下進(jìn)行;對于一些領(lǐng)域的研究工作還可以設(shè)法將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù)結(jié)合起來分析。如何實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的結(jié)合?首先,完善非結(jié)構(gòu)化數(shù)據(jù)的整合,然后我們可以用結(jié)構(gòu)化數(shù)據(jù)做數(shù)量說明,非結(jié)構(gòu)化數(shù)據(jù)加強(qiáng)描述;或是提高數(shù)據(jù)處理技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的互相轉(zhuǎn)化,選擇能更好說明問題的數(shù)據(jù)形式作為后續(xù)分析基礎(chǔ)。這都是值得再深入思考研究的新問題,而且這不僅僅是大數(shù)據(jù)和統(tǒng)計(jì)研究的事,同時需要計(jì)算機(jī)技術(shù)的一同創(chuàng)新發(fā)展。統(tǒng)計(jì)研究的范圍在大數(shù)據(jù)時代越來越大,能用數(shù)據(jù)說明的問題越來越多。
(三)大數(shù)據(jù)時代下的相關(guān)分析與因果分析發(fā)展并重
《大數(shù)據(jù)時代》一書中表示:大數(shù)據(jù)時代的一個顯著變化是:相關(guān)分析比因果分析更重要。我的看法是:大數(shù)據(jù)時代下,市場確實(shí)會對相關(guān)分析有著更強(qiáng)的關(guān)注度,但這并不意味著因果分析的重要性會有褪色。統(tǒng)計(jì)學(xué)中既有相關(guān)分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關(guān)關(guān)系和因果關(guān)系之間的聯(lián)系,簡單說:有相關(guān)關(guān)系不一定有因果關(guān)系,有因果關(guān)系則一定有相關(guān)關(guān)系。大數(shù)據(jù)時代,相關(guān)關(guān)系變得比以前更加為人所關(guān)注的原因:一方面,在很多領(lǐng)域的應(yīng)用里,相關(guān)分析比因果分析更簡單可行;另一方面,因?yàn)橄嚓P(guān)關(guān)系足以體現(xiàn)事物之間的一定聯(lián)系,在商業(yè)效益上更為經(jīng)濟(jì)有效。因此在商業(yè)利潤的推動下,相關(guān)關(guān)系也會更加受到青睞。但是我們不能就此否定因果關(guān)系的重要性,因果關(guān)系是對數(shù)據(jù)更加深度地分析:相關(guān)關(guān)系讓我們知道了“是什么”,因果關(guān)系是讓我們知道了“為什么”。倘若只是在商業(yè)經(jīng)濟(jì)上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學(xué)研究領(lǐng)域,“知其然而不知其所以然”就遠(yuǎn)遠(yuǎn)不夠了。結(jié)合現(xiàn)實(shí)發(fā)展需要,可在分析確定相關(guān)關(guān)系后,根據(jù)情況研究因果關(guān)系,若能夠得出因果關(guān)系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力,因果分析是人類永恒的使命。
二、結(jié)語
大數(shù)據(jù)時代的到來幾乎對每個領(lǐng)域都有著不可忽視的影響。大數(shù)據(jù)與統(tǒng)計(jì)學(xué)關(guān)系密切,大數(shù)據(jù)的出現(xiàn)對統(tǒng)計(jì)學(xué)的意義是非凡的,我們應(yīng)把握住大數(shù)據(jù)時代和統(tǒng)計(jì)學(xué)的可結(jié)合點(diǎn)。其一,完善非結(jié)構(gòu)化數(shù)據(jù)的整合,深入研究如何實(shí)現(xiàn)非現(xiàn)結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的對接,都需要我們思維上的創(chuàng)新、數(shù)據(jù)處理技術(shù)上的提高。其二,在注重相關(guān)分析的同時,不能丟掉對因果分析的研究,應(yīng)合理并重,實(shí)現(xiàn)大數(shù)據(jù)的進(jìn)一步利用,真正挖掘出數(shù)據(jù)的價值。對于以數(shù)據(jù)為研究對象的統(tǒng)計(jì)學(xué)科,大數(shù)據(jù)時代就是統(tǒng)計(jì)學(xué)變革創(chuàng)新的時代,統(tǒng)計(jì)研究工作人員也應(yīng)把握機(jī)會思考創(chuàng)新,為統(tǒng)計(jì)學(xué)增添新的生命力。
作者:張?zhí)焓?單位:廣州工商學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)發(fā)展研究
統(tǒng)計(jì)學(xué)在現(xiàn)實(shí)的生活中應(yīng)用十分廣泛,以至于如今很多人把統(tǒng)計(jì)學(xué)的范圍擴(kuò)展為用數(shù)據(jù)表示的現(xiàn)象。在如今的經(jīng)濟(jì)發(fā)展中一些金融分析師會利用一系列的數(shù)據(jù)對客戶提供咨詢服務(wù),證券分析師可以利用數(shù)據(jù)來分析股市的信息,然后對股市的行情進(jìn)行預(yù)測。在與我們息息相關(guān)的農(nóng)業(yè)領(lǐng)域,水稻的產(chǎn)量以及有機(jī)物的培養(yǎng)環(huán)境都可以利用數(shù)據(jù)進(jìn)行探究。以上都是與我們相關(guān)的實(shí)例,這些實(shí)例都是與統(tǒng)計(jì)學(xué)分不開的,這些實(shí)例都是統(tǒng)計(jì)學(xué)中的應(yīng)用實(shí)例。總之統(tǒng)計(jì)學(xué)的運(yùn)用可以貫穿各行各業(yè)。統(tǒng)計(jì)學(xué)的發(fā)展與大數(shù)據(jù)之間有著很密切的關(guān)系。如今隨著信息時代的發(fā)展,很多信息都是利用數(shù)字來進(jìn)行表述的,因此可以看出來數(shù)據(jù)其實(shí)就是信息的載體,也是數(shù)據(jù)學(xué)分析的對象,如今的統(tǒng)計(jì)學(xué)工作實(shí)際就是收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù)。如果沒有數(shù)據(jù)統(tǒng)計(jì)學(xué)就像植物失去土壤一樣難以存在,同樣離開了統(tǒng)計(jì)學(xué)以后,數(shù)據(jù)就會顯得沒有意義。數(shù)據(jù)在如今的大環(huán)境下變得越來越廣泛,其增長也是漫無邊際的。隨著社會的不斷發(fā)展,以及信息時代的不斷進(jìn)步,人們開始意識到了數(shù)據(jù)的重要性。目前最為實(shí)用的數(shù)據(jù)很多,不但可以提高生產(chǎn)力的發(fā)展水平,還能夠利用數(shù)據(jù)的分析來解決國家的民生問題,因此這種大數(shù)據(jù)下的統(tǒng)計(jì)學(xué)發(fā)展十分重要。
一、大數(shù)據(jù)時代的內(nèi)涵及其意義
(一)大數(shù)據(jù)時代的內(nèi)涵
大數(shù)據(jù)其實(shí)就是一個大樣本和高維便利的數(shù)據(jù)集合,針對一些樣本的問題,利用統(tǒng)計(jì)學(xué)原理進(jìn)行抽樣、分析,來達(dá)到所需要的精度,但是對于一些維數(shù)高的問題需要運(yùn)用統(tǒng)計(jì)學(xué)原理進(jìn)行選擇降維、壓縮、分解。從另一種角度講大數(shù)據(jù)包含很多方面,它是多領(lǐng)域的數(shù)據(jù)綜合,其中包含自然科學(xué)、人文科學(xué)等一系列的混合數(shù)據(jù),各個學(xué)科之間進(jìn)行融會貫通,相互穿插。一些傳統(tǒng)的統(tǒng)計(jì)學(xué)方法只適合分析單個計(jì)算機(jī)的數(shù)據(jù)存儲,然而目前的大數(shù)據(jù)環(huán)境下改變了這一現(xiàn)象。如今大數(shù)據(jù)環(huán)境下包括了數(shù)據(jù)流環(huán)境、磁盤存儲環(huán)境、分布存儲環(huán)境、多線條環(huán)境等。目前大數(shù)據(jù)環(huán)境下最主要的目的就是把數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗內(nèi)菀锥玫闹R,來探索數(shù)據(jù)產(chǎn)生的源頭和機(jī)制,從而制定相應(yīng)的對策。由于要把信息轉(zhuǎn)變?yōu)橹R需要一個漫長的時間,因此如今有很多人搜集當(dāng)今社會的大量的數(shù)據(jù)存放在相應(yīng)的存儲器中,甚至有些人并不知道如何去分析所搜集的數(shù)據(jù),但是他們把這些數(shù)據(jù)當(dāng)成一段發(fā)展的歷史,把如今高速發(fā)展的過程記錄下來,供以后應(yīng)用。
(二)大數(shù)據(jù)時代給社會帶來的變革
如今大數(shù)據(jù)環(huán)境下給人們帶來了很大的變革,目前各行各業(yè)的勞動者們都開始利用研究問題來驅(qū)動搜集數(shù)據(jù),利用搜集來的數(shù)據(jù)進(jìn)行分析來解決問題。因此以這種發(fā)展的趨勢可以看出,在以后人們會慢慢地利用搜集數(shù)據(jù)來驅(qū)動問題的解決,就像我們出門查天氣、查交通一樣,未來的勞動者們會通過大數(shù)據(jù)的分析來決策一些研究性的問題。現(xiàn)在國內(nèi)外很多統(tǒng)計(jì)學(xué)專家、甚至一些大學(xué)教授都開始利用計(jì)算機(jī)中相應(yīng)的軟件來搜索、分析一些研究性成果。在古希臘哲學(xué)家是百科全書式的人物,在文藝復(fù)興時期開始細(xì)化了一些單一科學(xué)的科學(xué)家。如今大數(shù)據(jù)時代勢必會再次產(chǎn)生百科全書式的人物,大數(shù)據(jù)將慢慢地減弱專家在各個領(lǐng)域的影響,甚至導(dǎo)致專家的消亡,比如,現(xiàn)在很多統(tǒng)計(jì)學(xué)家、物理學(xué)家、計(jì)算機(jī)專家等開始利用他們敏銳的數(shù)據(jù)處理和分析能力進(jìn)入生命科學(xué)界,在以后假如我們有成千上萬本書和它的外文譯本,即使我們不懂外文也能夠通過一些翻譯軟件進(jìn)行翻譯,把它翻譯成我們懂得的語言,大數(shù)據(jù)中包含很多數(shù)據(jù)集,為我們以后的生活提供很大的便利。
二、大數(shù)據(jù)的研究動向、信息問題
(一)研究動向
目前美國一些機(jī)構(gòu)開始提出了大數(shù)據(jù)環(huán)境下的一些挑戰(zhàn)性的問題,即處理高度分布的數(shù)據(jù)資源,追蹤數(shù)據(jù)的來源以及核實(shí)數(shù)據(jù)、處理樣本等。他們開始把數(shù)據(jù)處理的方式進(jìn)行改進(jìn),開發(fā)并行和分布式的算法。我國也十分重視大數(shù)據(jù)科學(xué)的發(fā)展,國家多次組織召開會議探討大數(shù)據(jù)科學(xué)發(fā)展的前景,并且設(shè)立了大數(shù)據(jù)專項(xiàng)研究計(jì)劃。國家自然科學(xué)基金的一些專項(xiàng)科學(xué)項(xiàng)目開始設(shè)立,在業(yè)界以及一些咨詢公司都在尋找大數(shù)據(jù)合作的機(jī)會。大數(shù)據(jù)的分析需要多個領(lǐng)域進(jìn)行結(jié)合,已經(jīng)不是單一的一個科學(xué)領(lǐng)域,統(tǒng)計(jì)學(xué)家不但要認(rèn)真研究計(jì)算機(jī)的實(shí)時決策還要把計(jì)算機(jī)與統(tǒng)計(jì)學(xué)的相關(guān)知識進(jìn)行緊密的結(jié)合。相反計(jì)算機(jī)專家也要時刻了解統(tǒng)計(jì)學(xué)的相關(guān)知識。
(二)大數(shù)據(jù)的信息問題
隨著大數(shù)據(jù)信息時代的到來,人們也不斷地對大數(shù)據(jù)進(jìn)行探究。由于大數(shù)據(jù)中不只是包含一種數(shù)據(jù),它是很多數(shù)據(jù)的一個集合體。為了能夠把搜集到了各個方面的數(shù)據(jù)融合起來,必須對數(shù)據(jù)的來源以及數(shù)據(jù)的獲取方式進(jìn)行探究,利用這些探究的結(jié)果來進(jìn)行數(shù)據(jù)的分析。如今數(shù)據(jù)的來源一般都是多方面、多渠道的,難免會產(chǎn)生較大的誤差,這樣也就產(chǎn)生了一些問題,比如數(shù)據(jù)搜集的準(zhǔn)則與決策不相符,甚至有些數(shù)據(jù)根本不是原始搜集的數(shù)據(jù),而是經(jīng)過分析推斷而來的數(shù)據(jù),這種數(shù)據(jù)更會產(chǎn)生較大的誤差。由于數(shù)據(jù)的量是非常大的,然而并不是數(shù)據(jù)量越大所包含的信息就越多,如果所獲的數(shù)據(jù)中含有一些偏差較大的信息,就會破壞原始的數(shù)據(jù),因此從這一方面我們應(yīng)該意識到在數(shù)據(jù)的搜集過程中應(yīng)該避免得到一些破壞性的信息。在大數(shù)據(jù)時代中會產(chǎn)生一些缺失的數(shù)據(jù),數(shù)據(jù)的缺失難免會對數(shù)據(jù)的分析產(chǎn)生影響,不同的研究搜集的數(shù)據(jù)會有一些重疊的部分,比如經(jīng)濟(jì)、社會、保險、醫(yī)學(xué)等研究的問題不同,搜集的變量和集合不相同,但是他們肯定會有一些共同用處的數(shù)據(jù)。在對數(shù)據(jù)進(jìn)行分析時,其中有2種數(shù)據(jù)需要進(jìn)行具體的分析,一類是觀察的數(shù)據(jù),一類是試驗(yàn)的數(shù)據(jù),這兩種數(shù)據(jù)包含兩種不同的信息,這樣依然會導(dǎo)致一些人對數(shù)據(jù)的認(rèn)知錯誤。由于數(shù)據(jù)的本身是有一定的范圍的,數(shù)據(jù)搜集以后就已經(jīng)確定了它的這一屬性,因此如果想需要范圍以外的含義就必須進(jìn)行推斷。
三、大數(shù)據(jù)的處理、抽樣與分析
(一)數(shù)據(jù)的預(yù)處理
大數(shù)據(jù)環(huán)境下對數(shù)據(jù)的處理包括很多方面,比如,數(shù)據(jù)清洗、數(shù)據(jù)矯正、數(shù)據(jù)填補(bǔ)等,其中數(shù)據(jù)矯正是一種非常有效的數(shù)據(jù)處理方式,它可以大大減少系統(tǒng)的誤差。如今互聯(lián)網(wǎng)領(lǐng)域中數(shù)據(jù)的獲取是非常復(fù)雜的,在大量的、復(fù)雜的數(shù)據(jù)進(jìn)行分析時難免會產(chǎn)生一些差異性,為了盡可能地使得這些數(shù)據(jù)不產(chǎn)生偏倚性,就必須利用計(jì)算機(jī)來對這些數(shù)據(jù)進(jìn)行矯正。矯正的方法就是把一些從互聯(lián)網(wǎng)上搜集的數(shù)據(jù)作為一些補(bǔ)充的資源進(jìn)行更新,這種更新速度要快,而且是實(shí)時的更新。
(二)大數(shù)據(jù)的分析與整合
在對大數(shù)據(jù)分析時,針對一些高維的問題需要進(jìn)行降維、分解。還要探究一些壓縮數(shù)據(jù)的方法,經(jīng)過壓縮的數(shù)據(jù)可以直接進(jìn)行傳輸和操作。這一系列的過程除了可以用常規(guī)的方法以外還可以利用一些數(shù)據(jù)的實(shí)時分析以及一些先進(jìn)的算法進(jìn)行操作。考慮計(jì)算機(jī)內(nèi)存和外存的數(shù)據(jù)傳送問題、分布數(shù)據(jù)和并行計(jì)算的方法。如何無信息損失或無統(tǒng)計(jì)信息損失地分解大數(shù)據(jù)集,獨(dú)立并行地在分布計(jì)算機(jī)環(huán)境進(jìn)行推斷,各個計(jì)算機(jī)的中間計(jì)算結(jié)果能相互聯(lián)系溝通,構(gòu)造全局統(tǒng)計(jì)結(jié)果。研究多個數(shù)據(jù)資源的融合算法,研究利用數(shù)據(jù)流尋找模型變化時間點(diǎn)的動態(tài)變化模型。
四、結(jié)束語
在一個新的事物到來以后勢必會對社會的發(fā)展帶來一定的沖擊,會慢慢地把一些傳統(tǒng)的關(guān)鍵和技術(shù)進(jìn)行淹沒,比如,數(shù)碼相機(jī)的出現(xiàn)取代了傳統(tǒng)的膠片相機(jī),使得影像業(yè)幾乎消亡。在大數(shù)據(jù)環(huán)境下將會對傳統(tǒng)的統(tǒng)計(jì)學(xué)進(jìn)行嚴(yán)格的考驗(yàn),統(tǒng)計(jì)學(xué)會不會像以往的哲學(xué)那樣,只有一些歷史的光環(huán),而不再作為人們分析和利用大數(shù)據(jù)的資源。目前來看很多的學(xué)科都開始慢慢地涌入大數(shù)據(jù)時代,如果統(tǒng)計(jì)學(xué)的發(fā)展不進(jìn)行改革的話也會慢慢的被邊緣化。目前統(tǒng)計(jì)學(xué)的主要的目標(biāo)就是通過大范圍的獲取數(shù)據(jù),然后利用計(jì)算機(jī)對獲取的數(shù)據(jù)進(jìn)行分析,來發(fā)現(xiàn)真理,統(tǒng)計(jì)的方法和理論有過高的要求,在大數(shù)據(jù)的環(huán)境下存在各種隨機(jī)和非隨機(jī)的誤差,根本無法滿足這些要求。大數(shù)據(jù)已經(jīng)給統(tǒng)計(jì)學(xué)帶來了很大的機(jī)遇,我們不但要洞察到這種機(jī)遇,還要看到現(xiàn)在的統(tǒng)計(jì)學(xué)中的一些基本的分析方法已經(jīng)不能滿足現(xiàn)在的數(shù)據(jù)分析,如今一些分布式的大數(shù)據(jù)已經(jīng)給統(tǒng)計(jì)學(xué)帶來了很大的挑戰(zhàn),由此看來一些統(tǒng)計(jì)學(xué)家要積極應(yīng)對目前的這種現(xiàn)狀,不應(yīng)該把傳統(tǒng)的數(shù)據(jù)環(huán)境作為目前研究的目的,必須積極地去學(xué)習(xí)新生的事物,只有這樣才能面對未來的挑戰(zhàn)有一席之地。
作者:彭先萌 單位:湖北工業(yè)職業(yè)技術(shù)學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)課程教學(xué)改革思考
隨著互聯(lián)網(wǎng)時代的到來,特別是微博、微信、朋友圈等社交網(wǎng)絡(luò)的興起和手機(jī)使用功能的多元化,導(dǎo)致人們的生活行為產(chǎn)生大量的數(shù)據(jù)信息,而企業(yè)可以通過這些數(shù)據(jù)了解顧客的需求以及消費(fèi)習(xí)慣等,并應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行市場細(xì)分和定位;與此同時,政府也意識到數(shù)據(jù)信息的經(jīng)濟(jì)開發(fā)價值,并在《“十二五”時期統(tǒng)計(jì)發(fā)展和改革規(guī)劃綱要》中明確提出“:建立現(xiàn)代統(tǒng)計(jì)體系就是建立以現(xiàn)代信息技術(shù)為支撐的方案設(shè)計(jì)、任務(wù)布置、過程控制和行為監(jiān)督的統(tǒng)計(jì)系統(tǒng)。”2015年3月3日在北京召開的兩會,也特別強(qiáng)調(diào)“數(shù)字兩會”,讓老百姓通過實(shí)實(shí)在在的數(shù)據(jù)對比感受生活的變化。可見,政府、企業(yè)乃至老百姓都已經(jīng)認(rèn)識到大數(shù)據(jù)的價值,所以大數(shù)據(jù)相關(guān)人才也成為社會各界爭搶的對象。如何培養(yǎng)符合大數(shù)據(jù)時代背景下所需要的人才?這使得統(tǒng)計(jì)課程的教學(xué)不得不面臨較大的改革。
一、大數(shù)據(jù)的概念
大數(shù)據(jù)即大的數(shù)據(jù)集,它不像我們過去那些數(shù)值型數(shù)據(jù)那么簡單,但至今它也尚無確切、統(tǒng)一的定義。通過參照多方對大數(shù)據(jù)概念的理解,作者認(rèn)為大數(shù)據(jù)的概念是指在對海量數(shù)據(jù)進(jìn)行傳輸、采集、儲存、處理、分析和挖掘的基礎(chǔ)上,獲得憑直覺難以發(fā)現(xiàn)的有用信息,從而揭示數(shù)據(jù)隱藏的規(guī)律和發(fā)展趨勢,為決策者所用,它是科技,是訊號,是機(jī)會。
二、大數(shù)據(jù)時代對統(tǒng)計(jì)學(xué)的影響
大數(shù)據(jù)時代的到來,對統(tǒng)計(jì)工作者而言,為了更好的服務(wù)于經(jīng)濟(jì)社會的發(fā)展,較大的考驗(yàn)和“本領(lǐng)”就是如何深度開發(fā)和利用海量的數(shù)據(jù)信息,這就要求統(tǒng)計(jì)學(xué)既從理論上又在方法上必須進(jìn)行改革。一方面需要統(tǒng)計(jì)學(xué)解決更多、更復(fù)雜的問題,另一方面也對統(tǒng)計(jì)學(xué)提出了更高的要求。不僅要求對統(tǒng)計(jì)學(xué)的理論與方法進(jìn)行創(chuàng)新,還要求對統(tǒng)計(jì)學(xué)進(jìn)行教學(xué)改革,尤其是注重培養(yǎng)對象的統(tǒng)計(jì)思維的養(yǎng)成。因?yàn)榻y(tǒng)計(jì)學(xué)是一門方法論科學(xué),在長期的發(fā)展過程中,形成了很多具有特色的統(tǒng)計(jì)思維,如靜態(tài)思維、變異思維、動態(tài)思維、指數(shù)思維、推斷思維、相關(guān)思維、假設(shè)思維等等。而這些統(tǒng)計(jì)思維對處理不確定現(xiàn)象、分析數(shù)據(jù)和解釋數(shù)據(jù)等都有巨大的影響,成為統(tǒng)計(jì)學(xué)的核心內(nèi)容。但在大數(shù)據(jù)時代背景下,由于數(shù)據(jù)分析直接針對總體,而且具有復(fù)雜性和混雜性,因此,有些統(tǒng)計(jì)思維可能用不上,就必須摒棄掉,但也需要統(tǒng)計(jì)學(xué)隨著環(huán)境的變化不斷創(chuàng)新新的統(tǒng)計(jì)思維。
三、當(dāng)前統(tǒng)計(jì)學(xué)課程教學(xué)中存在的問題
目前統(tǒng)計(jì)學(xué)課程在教學(xué)中存在以下幾個主要問題:
(一)教學(xué)內(nèi)容偏重理論,學(xué)生學(xué)習(xí)興趣不高
目前的統(tǒng)計(jì)學(xué)教學(xué)中一般采用的是理論的教學(xué)模式,雖然也在提倡項(xiàng)目化教學(xué),但是教師主要依托教材,對與統(tǒng)計(jì)學(xué)相關(guān)理論和方法逐一進(jìn)行介紹,對涉及到的公式和定理進(jìn)行推導(dǎo)。學(xué)生聽和記,真正理解的內(nèi)容并不多,應(yīng)用則更談不上。在這樣的教學(xué)模式下,學(xué)生對該課程的學(xué)習(xí)不僅興趣不高,而且容易對課程產(chǎn)生抵觸心理。
(二)忽略對統(tǒng)計(jì)相關(guān)軟件的教學(xué)
統(tǒng)計(jì)理論和方法很重要,但要真正用統(tǒng)計(jì)作為一個工具來解決實(shí)際問題,單憑會動筆計(jì)算相關(guān)的統(tǒng)計(jì)指標(biāo)是遠(yuǎn)遠(yuǎn)不夠的,尤其是在目前大數(shù)據(jù)時代背景下。高職院校經(jīng)濟(jì)管理類專業(yè)的學(xué)生所接觸的統(tǒng)計(jì)相關(guān)軟件從表面上只有WORD和EXCEL,而這兩軟件往往是在計(jì)算機(jī)基礎(chǔ)課程中介紹的,在統(tǒng)計(jì)學(xué)課程中幾乎不作介紹,導(dǎo)致不少高職院校學(xué)生沒有意識,更不會使用甚至根本不知道大多數(shù)普通函數(shù)計(jì)算機(jī)都具備的求和、平均、方差和標(biāo)準(zhǔn)差、相關(guān)系數(shù)等統(tǒng)計(jì)功能鍵,這也限制了很多學(xué)生不會運(yùn)用統(tǒng)計(jì)學(xué)思維和方法去看待和解決身邊遇到的實(shí)際問題。目前許多統(tǒng)計(jì)學(xué)課程的教學(xué)過程中,由于受到學(xué)生基礎(chǔ)差和實(shí)訓(xùn)條件不夠等的限制,教師在講授的統(tǒng)計(jì)知識內(nèi)容的時候主要圍繞描述統(tǒng)計(jì)和簡單的推斷統(tǒng)計(jì),而對于分析社會問題的多元統(tǒng)計(jì)方法在課堂上涉及不多,另外目前高職可用的教材中也缺乏統(tǒng)計(jì)軟件相關(guān)理論知識的介紹,導(dǎo)致學(xué)生在學(xué)習(xí)和應(yīng)用統(tǒng)計(jì)軟件進(jìn)行實(shí)際問題的操作時增加難度。
(三)缺乏校企合作
在我國目前國情環(huán)境中,大多數(shù)高職院校與企業(yè)之間很難找到利益共同點(diǎn),所以實(shí)訓(xùn)條件、實(shí)訓(xùn)項(xiàng)目等受到限制,使得大多數(shù)高職院校的在安排該課程教學(xué)時偏重理論教學(xué),而實(shí)踐教學(xué)課時所占課時比重偏低,對開展社會調(diào)查的活動僅僅局限于本校學(xué)生,并沒有跨出校門,更不能與當(dāng)?shù)氐恼块T、市場調(diào)研公司、市場咨詢公司以及企業(yè)建立協(xié)作和參與機(jī)制,導(dǎo)致學(xué)生在學(xué)習(xí)統(tǒng)計(jì)和運(yùn)用統(tǒng)計(jì)之間不能較好地銜接。
四、對統(tǒng)計(jì)學(xué)課程教學(xué)改革的思考
在大數(shù)據(jù)時代背景下,企業(yè)和政府對統(tǒng)計(jì)工作者要求較高,不但要求具備一定的統(tǒng)計(jì)學(xué)理論與方法,而且更重要的是要求能夠運(yùn)用現(xiàn)代化的信息處理工具對海量數(shù)據(jù)進(jìn)行采集、處理、分析和挖掘,從而為企業(yè)、政府的決策使用者提供正確、快速、的數(shù)據(jù)支撐資料。為此,作者結(jié)合十多年的統(tǒng)計(jì)教學(xué)經(jīng)驗(yàn),對統(tǒng)計(jì)學(xué)課程在教學(xué)中的改革提出以下幾個方面的思考。
(一)統(tǒng)計(jì)學(xué)課程教學(xué)內(nèi)容的改革
1.著重介紹統(tǒng)計(jì)方法的應(yīng)用
統(tǒng)計(jì)方法有很強(qiáng)的實(shí)用性,加之統(tǒng)計(jì)學(xué)課程的課時限制,所以應(yīng)該著重介紹統(tǒng)計(jì)方法的在實(shí)踐中應(yīng)用。因此,教學(xué)中設(shè)計(jì)并引入好的統(tǒng)計(jì)項(xiàng)目,然后從項(xiàng)目中的數(shù)據(jù)來源入手,著重介紹現(xiàn)成數(shù)據(jù)如何收集,若項(xiàng)目中沒有現(xiàn)成的數(shù)據(jù),則如何采用不同的調(diào)查組織方式開展數(shù)據(jù)的搜集活動?怎樣組織學(xué)生設(shè)計(jì)調(diào)查方案?怎樣開展調(diào)查活動?怎么做好調(diào)研員等知識內(nèi)容就被引出來,從而讓學(xué)生產(chǎn)生對統(tǒng)計(jì)課程學(xué)習(xí)的興趣;若采用抽樣調(diào)查,則會涉及到樣本單位數(shù)的如何確定?抽樣框如何取得?如何才能保障樣本具有足夠的代表性?如何減少抽樣誤差等。當(dāng)然,對高職院校學(xué)生除了介紹傳統(tǒng)的統(tǒng)計(jì)方法外,還是有必要引入國外比較通行的、實(shí)踐證明有現(xiàn)實(shí)應(yīng)用價值的一些統(tǒng)計(jì)方法,比如時間序列分析、相關(guān)分析、回歸分析等,以提高統(tǒng)計(jì)方法的可學(xué)性和運(yùn)用性,為高職院校學(xué)生踏入社會運(yùn)用統(tǒng)計(jì)方法解決本專業(yè)領(lǐng)域問題奠定良好的基礎(chǔ)。故該課程的教學(xué)內(nèi)容可根據(jù)專業(yè)的特殊要求、課時的安排情況進(jìn)行適當(dāng)?shù)母母铮抑攸c(diǎn)體現(xiàn)統(tǒng)計(jì)方法的有用性和可行性。
2.在教學(xué)內(nèi)容中增加Excel軟件的運(yùn)用能力
目前在實(shí)際統(tǒng)計(jì)學(xué)課程教學(xué)中,教師并沒有把Excel軟件作為教學(xué)內(nèi)容教給學(xué)生,而是認(rèn)為計(jì)算機(jī)基礎(chǔ)中學(xué)生已經(jīng)學(xué)習(xí)了,然后讓學(xué)生在課外自行復(fù)習(xí)和運(yùn)用,這樣效果就大打折扣。作為高職院校應(yīng)結(jié)合學(xué)生的特點(diǎn)有針對性的將Excel應(yīng)用軟件作為統(tǒng)計(jì)學(xué)課程的實(shí)訓(xùn)內(nèi)容,增加實(shí)訓(xùn)課時,提高學(xué)生的Excel基礎(chǔ)應(yīng)用、Excel函數(shù)、Excel圖表與圖形以及Excel數(shù)據(jù)透視表等方面的應(yīng)用能力。
(二)創(chuàng)新教學(xué)模式,激發(fā)學(xué)生興趣
統(tǒng)計(jì)學(xué)是一門實(shí)用性很強(qiáng)的課程,我們應(yīng)該結(jié)合高職院校學(xué)生的特點(diǎn)創(chuàng)新教學(xué)模式,激發(fā)學(xué)生學(xué)習(xí)統(tǒng)計(jì)學(xué)課程的興趣。例如在課程教學(xué)中以“練———學(xué)———思———拓”能力訓(xùn)練模式進(jìn)行課堂教學(xué)模式改革,讓學(xué)生在快樂中學(xué)習(xí)、快樂中成長,同時挖掘?qū)W生學(xué)習(xí)趣味性、調(diào)動學(xué)生積極性、注重團(tuán)隊(duì)合作、增強(qiáng)溝通交流,并與就業(yè)接軌,多方位、全過程提高學(xué)生素質(zhì)等,打破了僵化死板的教學(xué)方式,樹立以學(xué)生為本的教學(xué)思想,著力培養(yǎng)學(xué)生的個性化發(fā)展和自主學(xué)習(xí)能力、創(chuàng)新思維能力和綜合實(shí)踐能力、開發(fā)思維能力、競爭能力,有助于學(xué)生理解、掌握統(tǒng)計(jì)方法的應(yīng)用條件和應(yīng)用思路,強(qiáng)化了學(xué)生的統(tǒng)計(jì)思維。
(三)加強(qiáng)校企合作,提高學(xué)生實(shí)踐創(chuàng)新能力
社會經(jīng)濟(jì)現(xiàn)象是錯綜復(fù)雜的,其表現(xiàn)的各種數(shù)據(jù)信息在相互影響、相互作用,這就要求學(xué)生不僅學(xué)會在實(shí)踐中去尋找各種異常出現(xiàn)的原因,而且也要求學(xué)生能對事物的關(guān)聯(lián)、因果、發(fā)展等方面進(jìn)行分析,培養(yǎng)學(xué)生嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)處理態(tài)度,同時增強(qiáng)學(xué)生創(chuàng)新統(tǒng)計(jì)思維。為此,在開展社會與企業(yè)實(shí)踐活動時,建議并組織學(xué)生以小組為單位,然后再來選擇和確定實(shí)踐課題,當(dāng)然,研究課題可以是學(xué)生日常生活中所關(guān)心的問題,如大學(xué)生校園戀愛觀的調(diào)查,也可以是社會經(jīng)濟(jì)中的熱點(diǎn)問題,如生態(tài)功能區(qū)環(huán)境保護(hù)統(tǒng)計(jì)監(jiān)測研究。因此,在學(xué)院“會-站-室”的整體框架下,在學(xué)院公共服務(wù)平臺的支撐下,在系專業(yè)共建委員會的有力支持下,通過加強(qiáng)與當(dāng)?shù)氐慕y(tǒng)計(jì)局、市場咨詢公司、市場調(diào)查公司、企業(yè)等單位之間的合作,讓學(xué)生真正參與社會統(tǒng)計(jì)實(shí)踐活動,從而使得學(xué)生在實(shí)踐中體會統(tǒng)計(jì)理論與方法的美感,感受統(tǒng)計(jì)的在生活中的樂趣。
(四)優(yōu)化課程考核評價方法
在“兩全多方”人才培養(yǎng)質(zhì)量保障體系下,為實(shí)現(xiàn)高職院校和行業(yè)企業(yè)共訂標(biāo)準(zhǔn)、共管過程、共評效果。統(tǒng)計(jì)學(xué)課程的考核應(yīng)多樣化,既考核學(xué)生對統(tǒng)計(jì)理論的理解程度,也考核學(xué)生對統(tǒng)計(jì)知識的綜合運(yùn)用能力,同時也考核學(xué)生在參與統(tǒng)計(jì)實(shí)踐中的組織能力、團(tuán)隊(duì)協(xié)作精神、溝通能力、表達(dá)能力等;對學(xué)生的評價不僅僅是任課老師,還需要學(xué)生之間的互評、家長對學(xué)生的綜合評價以及第三方對學(xué)生的評價等。總之,統(tǒng)計(jì)學(xué)一門關(guān)于一切學(xué)問的學(xué)問,在大數(shù)據(jù)時代,應(yīng)加強(qiáng)統(tǒng)計(jì)學(xué)基礎(chǔ)性原理與真實(shí)的教學(xué),凸出統(tǒng)計(jì)學(xué)理論與方法的應(yīng)用性,讓學(xué)生建立起大數(shù)據(jù)統(tǒng)計(jì)思維,并在統(tǒng)計(jì)思維的引導(dǎo)下,選擇合適或最有效的統(tǒng)計(jì)方法,或通過創(chuàng)新統(tǒng)計(jì)方法,有效地解決實(shí)際問題。
作者:陳秀芬 單位:四川化工職業(yè)技術(shù)學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)改革探索
從狹義上來講,大數(shù)據(jù)的構(gòu)成包括兩方面,一方面是大樣本,在統(tǒng)計(jì)學(xué)上要達(dá)到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。
一、大數(shù)據(jù)及其意義
大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個計(jì)算機(jī)存儲的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。1.流數(shù)據(jù):數(shù)據(jù)快速地不斷涌來,現(xiàn)有存儲設(shè)備和計(jì)算能力難以應(yīng)付這種數(shù)據(jù)流(比如歐洲高能粒子對撞機(jī)所產(chǎn)生的數(shù)據(jù),每秒鐘可以達(dá)到500TB)。2.磁盤存儲限制:數(shù)據(jù)已不能存儲在內(nèi)存中,需要硬盤存儲。3.分布存儲狀態(tài):數(shù)據(jù)分布存儲在多個計(jì)算機(jī)中。4.多線條狀態(tài):數(shù)據(jù)存儲在一個計(jì)算機(jī)中,多個處理器共享內(nèi)存。大數(shù)據(jù)的發(fā)展就是對數(shù)據(jù)產(chǎn)生的機(jī)制進(jìn)行探索,將所產(chǎn)生的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兯枰闹R,進(jìn)而對相關(guān)政策的制定產(chǎn)生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據(jù)一個孩子的年齡確定他掌握的單詞多少則并不科學(xué)。進(jìn)一步來說,大數(shù)據(jù)有記錄保存自然與社會現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù),盡管他們還不清楚如何分析大量的數(shù)據(jù),但是他們相信需要保存現(xiàn)今社會經(jīng)濟(jì)高速發(fā)展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標(biāo)本等存放在冰箱里,他們認(rèn)為當(dāng)今的技術(shù)還不足以測試和分析這些資源,期待今后更先進(jìn)的測試技術(shù)能夠做到。大數(shù)據(jù)就如同自然和社會的血液那樣記錄著社會的現(xiàn)狀和發(fā)展過程。17世紀(jì)望遠(yuǎn)鏡以及顯微鏡的發(fā)明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴(kuò)大了人類對自然的基本認(rèn)識。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數(shù)據(jù)來觀察和分析自然、經(jīng)濟(jì)、社會的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù),可以及時了解疾病的疫情、科學(xué)的動態(tài)、社會的動態(tài)。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會的歷史長河,不但能用于探索當(dāng)代的科學(xué)問題,將來也可以用于研究人們食用轉(zhuǎn)基因食品對子孫后代的影響等追蹤研究問題,為未來留下當(dāng)前的歷史資料。
二、大數(shù)據(jù)帶來的變革
時代的進(jìn)步有賴于大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展給時代變革增加了更多的不確定性。就當(dāng)前研究來看,數(shù)據(jù)的搜集很大程度上依靠所研究問題的出現(xiàn)來推動其向前發(fā)展。不過在不久的將來,隨著大數(shù)據(jù)時代的到來,人們對于問題的研究將會由“數(shù)據(jù)”來驅(qū)動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據(jù)所查詢的數(shù)據(jù)信息來決定所要去的目的地。在古希臘時代,當(dāng)時的哲學(xué)家無所不知,號稱百科全書,到了文藝復(fù)興時代,隨著學(xué)科的不斷細(xì)化,不同學(xué)科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時代的到來,大百科全書式的人物將有可能再次出現(xiàn),而不同領(lǐng)域的專家的性將被逐步消弱,隨著大數(shù)據(jù)的不斷發(fā)展,很有可能會逐漸將學(xué)科專家消亡掉。例如,隨著計(jì)算機(jī)專家和統(tǒng)計(jì)學(xué)家對數(shù)據(jù)的搜集越來越多并且處理能力不斷增強(qiáng),他們將逐步成為生命科學(xué)方面的專家。再比如,如果我們掌握了足夠數(shù)量的相關(guān)專業(yè)書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因?yàn)槲覀冇泻芏喾浅5姆g軟件,如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個領(lǐng)域和學(xué)科得到了應(yīng)用,例如醫(yī)療領(lǐng)域,大數(shù)據(jù)可以指導(dǎo)人們健康飲食,適時進(jìn)行身體檢查,并且確定檢查項(xiàng)目,幫助醫(yī)生對患者進(jìn)行疾病診斷等。
三、大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)現(xiàn)狀
隨著科技的不斷發(fā)展和進(jìn)步,人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化,電子商務(wù)的發(fā)展和各種多媒體信息技術(shù)的飛速發(fā)展和應(yīng)用,給傳統(tǒng)的統(tǒng)計(jì)學(xué)應(yīng)用和教學(xué)帶來了機(jī)遇的同時也帶來了非常大的挑戰(zhàn)。一方面,由于各種信息和數(shù)據(jù)的不斷涌入,人們在被動搜集著各種數(shù)據(jù)。統(tǒng)計(jì)學(xué)的教學(xué)也需要不斷探索新的模式。另一方面,人們在被動接受數(shù)據(jù)的同時也在主動搜集數(shù)據(jù)信息,不同學(xué)科有不同的數(shù)據(jù)需要。例如經(jīng)濟(jì)學(xué)領(lǐng)域的專家每天都在搜集各自的調(diào)查數(shù)據(jù)和觀察數(shù)據(jù),而自然科學(xué)領(lǐng)域的專家學(xué)者則不僅搜集宏觀天文數(shù)據(jù),還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同,有的在實(shí)驗(yàn)室通過試驗(yàn)進(jìn)行數(shù)據(jù)搜集,有的人則通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)搜集和研究。對于當(dāng)前大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來的挑戰(zhàn),美國科學(xué)院“大數(shù)據(jù)分析委員會”給出了分析,他們認(rèn)為這些挑戰(zhàn)在于對不同格式和結(jié)構(gòu)的數(shù)據(jù)的處理方面、對于數(shù)據(jù)來源的追蹤方面、對于共享數(shù)據(jù)的安全性問題和完整性問題方面、對于樣本異質(zhì)性和偏倚性處理方面、在對問題進(jìn)行處理時的決策和分析方面以及對分布式和并行式在開發(fā)時的算法方面的問題等。國內(nèi)相關(guān)部門也對這一問題進(jìn)行了研討,最早一次是2012年5月在香山召開的“大數(shù)據(jù)科學(xué)與工程”會議,第二次是在2013年5月召開的對于大數(shù)據(jù)原理以及發(fā)展前景的探討會,并同時制定了相關(guān)的科研計(jì)劃。但關(guān)于大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的探索還非常稀缺。
四、統(tǒng)計(jì)學(xué)專業(yè)課程改革
針對以上所述大數(shù)據(jù)時代的特點(diǎn)和變革意義以及目前統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的現(xiàn)狀,本文進(jìn)行了相應(yīng)的初步探索。
(一)改革的總體思路
將現(xiàn)有的統(tǒng)計(jì)學(xué)頂級雜志或著名文獻(xiàn)中的成熟的大數(shù)據(jù)分析方法逐步凝練,形成教學(xué)內(nèi)容;將使用R軟件中的函數(shù)包實(shí)現(xiàn)這些大數(shù)據(jù)分析方法。
(二)改革的具體內(nèi)容
1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語言的代碼實(shí)現(xiàn)。2.在《非參數(shù)統(tǒng)計(jì)》課程中引入多元非參數(shù)統(tǒng)計(jì)方法(諸如多元符號、多元秩、多元符號秩等)、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語言的代碼實(shí)現(xiàn)。3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機(jī)森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態(tài)LASSO回歸等)及其R語言的代碼實(shí)現(xiàn)。4.在《多元統(tǒng)計(jì)分析》課程中引入高維統(tǒng)計(jì)分析方法及其R語言的代碼實(shí)現(xiàn)。5.在工科《概率論與數(shù)理統(tǒng)計(jì)》課程中引入R語言的代碼實(shí)現(xiàn)。
(三)改革的主要創(chuàng)新點(diǎn)
在傳統(tǒng)的統(tǒng)計(jì)學(xué)專業(yè)課程教學(xué)中引入近期的大數(shù)據(jù)分析方法及其R語言實(shí)現(xiàn)。其中R語言是區(qū)別SAS、SPSS等傻瓜軟件的結(jié)構(gòu)化程序設(shè)計(jì)語言,可以靈活實(shí)現(xiàn)傻瓜軟件所不能實(shí)現(xiàn)的各種高級數(shù)據(jù)分析功能。其非常適應(yīng)于大數(shù)據(jù)統(tǒng)計(jì)分析方法的教學(xué)。所以大部分國內(nèi)外著名大學(xué)已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析方法的教學(xué)。R語言已經(jīng)逐步成為統(tǒng)計(jì)學(xué)系的標(biāo)準(zhǔn)的教學(xué)軟件。
作者:周茂袁 單位:中國民航大學(xué)理學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)專業(yè)建設(shè)分析
[摘要]大數(shù)據(jù)時代對統(tǒng)計(jì)學(xué)人才培養(yǎng)而言,既是機(jī)遇又是挑戰(zhàn)。高校的統(tǒng)計(jì)學(xué)專業(yè)要從統(tǒng)計(jì)學(xué)專業(yè)的培養(yǎng)目標(biāo)出發(fā),通過改革教學(xué)模式,調(diào)整教學(xué)內(nèi)容,對課程設(shè)置、師資培養(yǎng)、課堂教學(xué)、實(shí)踐環(huán)節(jié)各個方面進(jìn)行改革,承擔(dān)起大學(xué)人才培養(yǎng)的責(zé)任。
[關(guān)鍵詞]大數(shù)據(jù)時代;統(tǒng)計(jì)學(xué);專業(yè)建設(shè);實(shí)踐教學(xué)
全球知名的麥肯錫咨詢公司最早提出了“大數(shù)據(jù)”的概念,宣告了大數(shù)據(jù)時代的來臨;IBM公司指出了大數(shù)據(jù)的4個特點(diǎn):數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、數(shù)據(jù)產(chǎn)出速度快、數(shù)據(jù)價值密度低。[1]大數(shù)據(jù)對高等學(xué)校人才培養(yǎng)的影響表現(xiàn)在以下方面:1.思維方式與認(rèn)知模式的改變;2.海量的學(xué)習(xí)對象與輔助教學(xué)資源;3.開源課程(慕課,微課、翻轉(zhuǎn)課堂)的教育方式對傳統(tǒng)教學(xué)模式產(chǎn)生沖擊;4.新媒體模式的社會化互助學(xué)習(xí)打破教學(xué)界限;5.網(wǎng)絡(luò)思維拓展了個體思維。[2]在這個意義上,大數(shù)據(jù)時代對高校人才培養(yǎng)提出了新的要求。對于統(tǒng)計(jì)學(xué)專業(yè)建設(shè)而言,大數(shù)據(jù)的背景既是一個機(jī)遇也是一個挑戰(zhàn)。高等學(xué)校統(tǒng)計(jì)學(xué)專業(yè)需要通過整合現(xiàn)有人才培養(yǎng)資源、建立創(chuàng)新人才培養(yǎng)平臺,承擔(dān)起大學(xué)人才培養(yǎng)的責(zé)任,緊隨大數(shù)據(jù)的發(fā)展趨勢,占領(lǐng)大數(shù)據(jù)發(fā)展人才培養(yǎng)的制高點(diǎn),體現(xiàn)高等學(xué)校滿足社會需求、提供智力支撐的載體作用,確保大數(shù)據(jù)產(chǎn)業(yè)科學(xué)、健康、持續(xù)、高速地發(fā)展。本文擬從統(tǒng)計(jì)學(xué)專業(yè)的培養(yǎng)目標(biāo)出發(fā),研討在大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)專業(yè)學(xué)生培養(yǎng)各個環(huán)節(jié)的問題。
一、關(guān)于培養(yǎng)目標(biāo)
統(tǒng)計(jì)學(xué)專業(yè)的培養(yǎng)目標(biāo)是:培養(yǎng)德、智、體、美發(fā)展,掌握堅(jiān)實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基本理論,具備扎實(shí)的經(jīng)濟(jì)學(xué)基礎(chǔ)和數(shù)據(jù)分析技能,能夠熟練地運(yùn)用統(tǒng)計(jì)方法和數(shù)據(jù)分析軟件進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)處理,能在企事業(yè)單位和經(jīng)濟(jì)管理部門從事統(tǒng)計(jì)調(diào)查、數(shù)據(jù)分析、風(fēng)險決策、質(zhì)量管理等工作,或者在科研單位、高等學(xué)校從事統(tǒng)計(jì)學(xué)研究和教學(xué)工作的高級專門人才。本專業(yè)學(xué)制四年,通過四年的學(xué)習(xí),統(tǒng)計(jì)學(xué)專業(yè)的畢業(yè)生應(yīng)具備以下能力:
1.掌握堅(jiān)實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基本理論。掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)的基本理論、基本知識、基本方法和計(jì)算機(jī)操作基本技能;具備數(shù)據(jù)采集、調(diào)查問卷設(shè)計(jì)和數(shù)據(jù)處理的基本能力;了解與經(jīng)濟(jì)統(tǒng)計(jì)、生物統(tǒng)計(jì)、醫(yī)學(xué)統(tǒng)計(jì)或社會統(tǒng)計(jì)等有關(guān)的自然科學(xué)、社會科學(xué)某一領(lǐng)域的基本知識,具備利用統(tǒng)計(jì)學(xué)專業(yè)知識,發(fā)現(xiàn)、分析、解決某一領(lǐng)域?qū)嶋H問題的基本能力;了解統(tǒng)計(jì)學(xué)學(xué)科的發(fā)展前沿及其應(yīng)用前景。
2.具備扎實(shí)的經(jīng)濟(jì)學(xué)基礎(chǔ)和數(shù)據(jù)分析技能。具備扎實(shí)的經(jīng)濟(jì)學(xué)基礎(chǔ),了解國家經(jīng)濟(jì)運(yùn)行的基本方針、政策、法律、法規(guī);掌握R語言,精通Python、Spark、SAS、SPSS等流行大數(shù)據(jù)處理軟件中的一種,有較強(qiáng)的統(tǒng)計(jì)計(jì)算能力;掌握資料查詢、文獻(xiàn)檢索及數(shù)據(jù)獲取的基本方法;具有一定的從事科學(xué)研究和實(shí)際工作的能力;英語達(dá)到四級水平,計(jì)算機(jī)達(dá)到二級水平。
二、關(guān)于課程設(shè)置
1.專業(yè)主干課程包括:數(shù)學(xué)基礎(chǔ)部分(數(shù)學(xué)分析,高等代數(shù)與解析幾何)、C語言、數(shù)據(jù)庫、概率論與數(shù)理統(tǒng)計(jì)、統(tǒng)計(jì)學(xué)、微觀經(jīng)濟(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、時間序列分析、多元統(tǒng)計(jì)分析、市場調(diào)查方法與抽樣技術(shù)、實(shí)驗(yàn)設(shè)計(jì)、統(tǒng)計(jì)預(yù)測與決策、數(shù)據(jù)挖掘、隨機(jī)過程、統(tǒng)計(jì)分析軟件。
2.充分調(diào)研市場需求,在保障基礎(chǔ)課程的前提下,靈活設(shè)置選修課程,機(jī)動調(diào)整培養(yǎng)計(jì)劃及課程設(shè)置。
3.對高年級實(shí)行模塊式分流,包括數(shù)據(jù)處理、數(shù)理金融等防線,并與數(shù)據(jù)分析師、市場調(diào)查師等一些職業(yè)資格考試接軌,開設(shè)相關(guān)選修課。
三、關(guān)于師資培養(yǎng)
師資方面,要培養(yǎng)、引進(jìn)并舉,以培養(yǎng)為主。主要立足于現(xiàn)有師資隊(duì)伍,同時積極引進(jìn)國內(nèi)外統(tǒng)計(jì)學(xué)專業(yè)人才,充實(shí)、提高教學(xué)研究水平。1.努力為教師的成長創(chuàng)造條件,支持和鼓勵教師攻讀統(tǒng)計(jì)學(xué)博士學(xué)位;積極引進(jìn)國內(nèi)外統(tǒng)計(jì)學(xué)博士。2.加強(qiáng)在職培訓(xùn)提高,深入有效地開展統(tǒng)計(jì)學(xué)教研活動,教師相互學(xué)習(xí),在教學(xué)過程中不斷學(xué)習(xí),促進(jìn)教師教學(xué)科研水平同步提高。3.結(jié)合課程教育,以單位進(jìn)修方式對教師進(jìn)行短期培訓(xùn)。鼓勵教師外出學(xué)習(xí),要求每人掌握\精通一門課程或一門外語;通過培訓(xùn)學(xué)習(xí)近期統(tǒng)計(jì)學(xué),數(shù)據(jù)分析教育理念、方法、技術(shù),提高教師的教學(xué)水平,以滿足不斷變化的教學(xué)需要;積極開展科研立項(xiàng)及學(xué)術(shù)交流活動,積極組織教師申報部級、省級教學(xué)改革項(xiàng)目,并積極開展學(xué)術(shù)交流活動。4.對于實(shí)戰(zhàn)中比較流行的軟件、算法、設(shè)備,聘請具備豐富經(jīng)驗(yàn)的數(shù)據(jù)分析公司工程師來校為學(xué)生授課。
四、關(guān)于課堂教學(xué)
實(shí)踐性、動手能力培養(yǎng)貫穿教學(xué)始終,除基礎(chǔ)課程外,其他課程都在實(shí)驗(yàn)室進(jìn)行教學(xué),學(xué)用結(jié)合。數(shù)據(jù)分析語言\軟件教學(xué)貫穿課程教學(xué),如:1.基于R語言的時間序列分析;2.基于SPSS的多元統(tǒng)計(jì)分析;3.高等統(tǒng)計(jì)與SAS語言,等等。每門課程完成一個案例報告。
五、關(guān)于實(shí)踐環(huán)節(jié)
(一)3+1模式
學(xué)生前三學(xué)年在學(xué)校,第四學(xué)年在實(shí)習(xí)單位學(xué)習(xí)。在實(shí)習(xí)單位的前四個月,學(xué)習(xí)數(shù)據(jù)分析實(shí)踐技能,以案例教學(xué)為主;后8個月在公司、企業(yè)接觸具體工作。冶金工業(yè)過程湖北省系統(tǒng)科學(xué)重點(diǎn)實(shí)驗(yàn)室、統(tǒng)計(jì)學(xué)專業(yè)實(shí)驗(yàn)室、湖北省統(tǒng)計(jì)局、武漢市統(tǒng)計(jì)局、廣發(fā)證券等實(shí)習(xí)實(shí)訓(xùn)基地是學(xué)生開展實(shí)踐活動的硬件保障及重要保障。
(二)校內(nèi)實(shí)習(xí)
以數(shù)據(jù)挖掘技術(shù)為依托,每年為校內(nèi)教務(wù)處、研究生處、招生就業(yè)處、校醫(yī)院、招投標(biāo)辦公室、后勤等部門出具一份完整、的數(shù)據(jù)分析報告,確實(shí)對學(xué)校各個部門的決策起到積極作用。以項(xiàng)目形式申報,每年以此類項(xiàng)目作為統(tǒng)計(jì)學(xué)專業(yè)的固定訓(xùn)練題,或?qū)I(yè)實(shí)踐題目。
(三)參加數(shù)據(jù)分析、數(shù)據(jù)挖掘
競賽學(xué)科競賽為創(chuàng)新統(tǒng)計(jì)學(xué)科人才培養(yǎng)模式,進(jìn)一步提升大學(xué)生調(diào)研能力、數(shù)據(jù)分析能力和處理實(shí)際問題能力,促進(jìn)學(xué)校應(yīng)用型人才的培養(yǎng),同時為社會實(shí)際工作部門和高校人才培養(yǎng)的銜接提供一個良性平臺。[5]我們要求統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生在讀期間都必須參加至少一次數(shù)據(jù)分析、數(shù)據(jù)挖掘類競賽,通過競賽提高學(xué)生分析、解決實(shí)際問題的能力,并以此作為創(chuàng)新學(xué)分的得分依據(jù)。目前學(xué)生參加的相關(guān)專業(yè)競賽有:
1.全國大學(xué)生數(shù)據(jù)挖掘挑戰(zhàn)賽。競賽由全國大學(xué)生數(shù)學(xué)建模競賽組織委員會主辦,廣州泰迪智能科技有限公司承辦,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會、華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院協(xié)辦。從2015年開始,我們組隊(duì)參加這一比賽,成績逐步提高。2015年雖然沒有獲得很好的成績,但卻鍛煉了學(xué)生,激勵了教師。參加了競賽的學(xué)生,數(shù)據(jù)分析能力有了明顯的長進(jìn),論文撰寫水平也提高不少。這些學(xué)生的本科學(xué)位畢業(yè)論文內(nèi)容充實(shí),條理清晰,答辯時胸有成竹,語言流暢。一些學(xué)生因?yàn)閰⒓舆^這一賽事,在找工作時增分不少,順利簽下了數(shù)據(jù)分析師的就業(yè)合同。我們教師也從這一賽事中了解了目前數(shù)據(jù)分析領(lǐng)域的前沿知識,感受到了和兄弟院校的差距,這促使教師積極參加國內(nèi)數(shù)據(jù)分析的各種培訓(xùn),鉆研數(shù)據(jù)分析的近期方法與技術(shù),提高數(shù)據(jù)分析教學(xué)能力。2016年,我校再次組隊(duì)參加該項(xiàng)賽事,獲得國家三等獎兩項(xiàng)。
2.中國高校SAS數(shù)據(jù)分析大賽。這是由SAS中國公司發(fā)起的專門針對中國高校數(shù)據(jù)分析相關(guān)專業(yè)的一次非營利性的公益大賽。2016年,我校首次組織統(tǒng)計(jì)專業(yè)本科生、研究生混合組隊(duì)參加了這一比賽,總共3隊(duì)參加華中區(qū)初賽,1隊(duì)參加復(fù)賽,在比賽中表現(xiàn)良好,最終獲得“匯豐杯”2016中國高校SAS數(shù)據(jù)分析大賽決賽百強(qiáng),并被授予“大賽組織獎”。
六、就業(yè)前景
武漢科技大學(xué)從2012年就開始培養(yǎng)統(tǒng)計(jì)學(xué)研究生,2015年本科也開始招生。實(shí)際上,我們從2001年就在信息與計(jì)算科學(xué)本科專業(yè)開設(shè)了經(jīng)濟(jì)統(tǒng)計(jì)模塊,2002年就開始招收數(shù)理統(tǒng)計(jì)方向的研究生,已經(jīng)有了10屆畢業(yè)生,這些學(xué)生的就業(yè)單位有政府統(tǒng)計(jì)局、金融行業(yè)的證券交易所、保險公司、銀行、軟件公司、企業(yè)里的信息中心、高校等。還有部分學(xué)生繼續(xù)攻讀了數(shù)理統(tǒng)計(jì)、經(jīng)濟(jì)統(tǒng)計(jì)、隨機(jī)分析等方向的博士研究生,畢業(yè)后在政府部門、高校從事研究工作。我們通過對這些畢業(yè)生的社會調(diào)查與用人單位的信息反饋,對本專業(yè)學(xué)生的社會適應(yīng)能力以及社會需求有了深入的了解。這也為我們做好教學(xué)改革工作指明了方向。在大數(shù)據(jù)時代,培養(yǎng)符合社會需求的統(tǒng)計(jì)學(xué)人才,這是高等學(xué)校的責(zé)任和義務(wù)。
作者:馮育強(qiáng);李德宜;余東 單位:武漢科技大學(xué)理學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)分析
摘要:基于大數(shù)據(jù)特征,統(tǒng)計(jì)學(xué)的抽樣理論和總體理論的存在價值、統(tǒng)計(jì)方法的重構(gòu)及統(tǒng)計(jì)結(jié)果評價標(biāo)準(zhǔn)的重建等成為統(tǒng)計(jì)學(xué)理論面臨解決的首要問題.為適應(yīng)大數(shù)據(jù)時代的發(fā)展,分析了大數(shù)據(jù)時代傳統(tǒng)統(tǒng)計(jì)學(xué)所面臨的機(jī)遇與挑戰(zhàn),對傳統(tǒng)統(tǒng)計(jì)學(xué)的繼承、發(fā)展和完善,重構(gòu)大數(shù)據(jù)時代新的統(tǒng)計(jì)理論有其重要意義.
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)分析;抽樣理論;理論
重構(gòu)隨著信息科學(xué)技術(shù)的高速度發(fā)展,當(dāng)代獲取和儲存數(shù)據(jù)信息的能力不斷增強(qiáng)而成本不斷下降,這為大數(shù)據(jù)的應(yīng)用提供了必要的技術(shù)環(huán)境和可能.應(yīng)用大數(shù)據(jù)技術(shù)的優(yōu)勢愈來愈明顯,它的應(yīng)用能夠幫助人類獲取真正有價值的數(shù)據(jù)信息.近年來,專家學(xué)者有關(guān)大數(shù)據(jù)技術(shù)問題進(jìn)行了大量的研究工作[1],很多領(lǐng)域也都受到了大數(shù)據(jù)分析的影響.這個時代將大數(shù)據(jù)稱為未來的石油,它必將對這個時代和未來的社會經(jīng)濟(jì)以及科學(xué)技術(shù)的發(fā)展產(chǎn)生深遠(yuǎn)的意義和影響.目前對于大數(shù)據(jù)概念,主要是從數(shù)據(jù)來源和數(shù)據(jù)的處理工具與處理難度方面考慮,但國內(nèi)外專家學(xué)者各有各的觀點(diǎn),并沒有給出一致的定義.麥肯錫全球數(shù)據(jù)分析研究所指出大數(shù)據(jù)是數(shù)據(jù)集的大小超越了典型數(shù)據(jù)庫工具集合、存儲、管理和分析能力的數(shù)據(jù)集,大數(shù)據(jù)被Gartner定義為極端信息管理和處理一個或多個維度的傳統(tǒng)信息技術(shù)問題[23].目前得到專家們認(rèn)可的一種觀點(diǎn),即:“超大規(guī)模”是GB級數(shù)據(jù),“海量”是TB級數(shù)據(jù),而“大數(shù)據(jù)”是PB及其以上級別數(shù)據(jù)[2].
一些研究學(xué)者把大數(shù)據(jù)特征進(jìn)行概括,稱其具有數(shù)據(jù)規(guī)模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強(qiáng)調(diào)大數(shù)據(jù)區(qū)別于其他概念的最重要特征是快速動態(tài)變化的數(shù)據(jù)和形成流式數(shù)據(jù).大數(shù)據(jù)技術(shù)發(fā)展所面臨的問題是數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)分析、數(shù)據(jù)顯示和數(shù)據(jù)安全等.大數(shù)據(jù)的數(shù)據(jù)量大、多樣性、復(fù)雜性及實(shí)時性等特點(diǎn),使得數(shù)據(jù)存儲環(huán)境有了很大變化[45],而大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個計(jì)算機(jī)存儲的數(shù)據(jù),這些問題無疑增加了數(shù)據(jù)處理和整合的困難.數(shù)據(jù)分析是大數(shù)據(jù)處理的核心過程,同時它也給傳統(tǒng)統(tǒng)計(jì)學(xué)帶來了巨大的挑戰(zhàn)[6].產(chǎn)生大數(shù)據(jù)的數(shù)據(jù)源通常情況下具有高速度性和實(shí)時性,所以要求數(shù)據(jù)處理和分析系統(tǒng)也要有快速度和實(shí)時性特點(diǎn),而傳統(tǒng)統(tǒng)計(jì)分析方法通常不具備快速和實(shí)時等特點(diǎn).基于大數(shù)據(jù)的特點(diǎn),傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)理論已經(jīng)不能適應(yīng)大數(shù)據(jù)分析與研究的范疇,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨著巨大的機(jī)遇與挑戰(zhàn),然而為了適應(yīng)大數(shù)據(jù)這一新的研究對象,傳統(tǒng)統(tǒng)計(jì)學(xué)必須進(jìn)行改進(jìn),以繼續(xù)和更好的服務(wù)于人類.目前國內(nèi)外將大數(shù)據(jù)和統(tǒng)計(jì)學(xué)相結(jié)合的研究文獻(xiàn)并不多.本文對大數(shù)據(jù)時代這一特定環(huán)境背景,統(tǒng)計(jì)學(xué)的抽樣理論和總體理論的存在價值、統(tǒng)計(jì)方法的重構(gòu)及統(tǒng)計(jì)結(jié)果的評價標(biāo)準(zhǔn)的重建等問題進(jìn)行分析與研究.
1傳統(tǒng)意義下的統(tǒng)計(jì)學(xué)
廣泛的統(tǒng)計(jì)學(xué)包括三個類型的統(tǒng)計(jì)方法:①處理大量隨機(jī)現(xiàn)象的統(tǒng)計(jì)方法,比如概率論與數(shù)理統(tǒng)計(jì)方法.②處理非隨機(jī)非概率的描述統(tǒng)計(jì)方法,如指數(shù)編制、社會調(diào)查等方法.③處理和特定學(xué)科相關(guān)聯(lián)的特殊方法,如經(jīng)濟(jì)統(tǒng)計(jì)方法、環(huán)境科學(xué)統(tǒng)計(jì)方法等[7].受收集、處理數(shù)據(jù)的工具和能力的限制,人們幾乎不可能收集到全部的數(shù)據(jù)信息,因此傳統(tǒng)的統(tǒng)計(jì)學(xué)理論和方法基本上都是在樣本上進(jìn)行的.或者即使能夠得到所有數(shù)據(jù),但從實(shí)際角度出發(fā),因所需成本過大,也會放棄搜集全部數(shù)據(jù).然而,選擇的抽樣方法和統(tǒng)計(jì)分析方法,也只能較大程度還原總體一個特定方面或某些方面的特征.事實(shí)上我們所察覺到的數(shù)據(jù)特征也只是總體大量特征中的一小部分,更多的其他特征尚待發(fā)掘.總之,傳統(tǒng)統(tǒng)計(jì)學(xué)是建立在抽樣理論基礎(chǔ)上,以點(diǎn)帶面的統(tǒng)計(jì)分析方法,強(qiáng)調(diào)因果關(guān)系的統(tǒng)計(jì)分析結(jié)果,推斷所測對象的總體本質(zhì)的一門科學(xué),是通過搜集、整理和分析研究數(shù)據(jù)從而探索數(shù)據(jù)內(nèi)部存在規(guī)律的一門科學(xué).
2統(tǒng)計(jì)學(xué)是大數(shù)據(jù)分析的核心
數(shù)的產(chǎn)生基于三個要素,分別是數(shù)、量和計(jì)量單位.在用數(shù)來表示事物的特征并采用了科學(xué)的計(jì)量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù),即有根據(jù)的數(shù).科學(xué)數(shù)據(jù)是基于科學(xué)設(shè)計(jì),通過使用觀察和測量獲得的數(shù)據(jù),認(rèn)知自然現(xiàn)象和社會現(xiàn)象的變化規(guī)律,或者用來檢驗(yàn)已經(jīng)存在的理論假設(shè),由此得到了具有實(shí)際意義和理論意義的數(shù)據(jù).從數(shù)據(jù)中獲得科學(xué)數(shù)據(jù)的理論,即統(tǒng)計(jì)學(xué)理論.科學(xué)數(shù)據(jù)是通過統(tǒng)計(jì)學(xué)理論獲得的,而統(tǒng)計(jì)學(xué)理論是為獲得科學(xué)數(shù)據(jù)而產(chǎn)生的一門科學(xué).若說數(shù)據(jù)是傳達(dá)事物特征的語言,進(jìn)行科學(xué)研究的必備條件,認(rèn)知世界的重要工具,那么大數(shù)據(jù)分析就是讓數(shù)據(jù)較大限度地發(fā)揮功能,充分表達(dá)并有效滿足不同需求的基本要求.基于統(tǒng)計(jì)學(xué)的發(fā)展史及在數(shù)據(jù)分析中的作用,完成將數(shù)據(jù)轉(zhuǎn)化為知識、挖掘數(shù)據(jù)內(nèi)在規(guī)律、通過數(shù)據(jù)發(fā)現(xiàn)并解決實(shí)際問題、預(yù)測可能發(fā)生的結(jié)果等是研究大數(shù)據(jù)的任務(wù),而這必然離不開統(tǒng)計(jì)學(xué).以大數(shù)據(jù)為研究對象,通過數(shù)據(jù)挖掘、提取、分析等手段探索現(xiàn)象內(nèi)在本質(zhì)的數(shù)據(jù)科學(xué)必須在繼承或改進(jìn)統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上產(chǎn)生.
統(tǒng)計(jì)數(shù)據(jù)的發(fā)展變化經(jīng)歷了一系列過程,從只能收集到少量的數(shù)據(jù)到盡量多地收集數(shù)據(jù),到科學(xué)利用樣本數(shù)據(jù),再到綜合利用各類數(shù)據(jù),以至于發(fā)展到今天的選擇使用大數(shù)據(jù)的過程.而統(tǒng)計(jì)分析為了適應(yīng)數(shù)據(jù)可觀察集的不斷增大,也經(jīng)歷了相應(yīng)的各個不同階段,產(chǎn)生了統(tǒng)計(jì)分組法、大量觀察法、歸納推斷法、綜合指標(biāo)法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計(jì)算機(jī)以及其他軟件的程度也越來越深.300多年來,隨著數(shù)據(jù)量以指數(shù)速度的不斷增長,統(tǒng)計(jì)學(xué)圍繞如何搜集、整理和分析數(shù)據(jù)而展開,合理構(gòu)建了應(yīng)用方法體系,幫助各個學(xué)科解決了許多復(fù)雜問題.現(xiàn)在進(jìn)入了大數(shù)據(jù)時代,統(tǒng)計(jì)學(xué)依舊是數(shù)據(jù)分析的靈魂,大數(shù)據(jù)分析是數(shù)據(jù)科學(xué)賦予統(tǒng)計(jì)學(xué)的新任務(wù).對于統(tǒng)計(jì)學(xué)而言,來自新時代的數(shù)據(jù)科學(xué)挑戰(zhàn)有可能促使新思想、新方法和新技術(shù)產(chǎn)生,這一挑戰(zhàn)也意味著對于統(tǒng)計(jì)學(xué)理論將面臨巨大的機(jī)遇.
3統(tǒng)計(jì)學(xué)在大數(shù)據(jù)時代下必須改革
傳統(tǒng)統(tǒng)計(jì)學(xué)是通過對總體進(jìn)行抽樣來搜索數(shù)據(jù),對樣本數(shù)據(jù)進(jìn)行整理、分析、描述等,從而推斷所測對象的總體本質(zhì),甚至預(yù)測總體未來的一門綜合性學(xué)科.從研究對象到統(tǒng)計(jì)結(jié)果的評判標(biāo)準(zhǔn)都是離不開樣本的抽取,不能適應(yīng)大數(shù)據(jù)的4V特點(diǎn),所以統(tǒng)計(jì)學(xué)為適應(yīng)大數(shù)據(jù)技術(shù)的發(fā)展,必須進(jìn)行改革.從學(xué)科發(fā)展角度出發(fā),大數(shù)據(jù)對海量數(shù)據(jù)進(jìn)行存儲、整合、處理和分析,可以看成是一種新的數(shù)據(jù)分析方法.數(shù)據(jù)關(guān)系的內(nèi)在本質(zhì)決定了大數(shù)據(jù)和統(tǒng)計(jì)學(xué)之間必然存在聯(lián)系,大數(shù)據(jù)對統(tǒng)計(jì)學(xué)的發(fā)展提出了挑戰(zhàn),體現(xiàn)在大樣本標(biāo)準(zhǔn)的調(diào)整、樣本選取標(biāo)準(zhǔn)和形式的重新確定、統(tǒng)計(jì)軟件有待升級和開發(fā)及實(shí)質(zhì)性統(tǒng)計(jì)方法的大數(shù)據(jù)化.但是也提供了一個機(jī)遇,體現(xiàn)在統(tǒng)計(jì)質(zhì)量的提高、統(tǒng)計(jì)成本的下降、統(tǒng)計(jì)學(xué)作用領(lǐng)域的擴(kuò)大、統(tǒng)計(jì)學(xué)科體系的延伸以及統(tǒng)計(jì)學(xué)家地位的提升[7].
3.1大數(shù)據(jù)時代抽樣和總體理論存在價值
傳統(tǒng)統(tǒng)計(jì)學(xué)中的樣本數(shù)據(jù)來自總體,而總體是客觀存在的全體,可以通過觀測到的或經(jīng)過抽樣而得到的數(shù)據(jù)來認(rèn)知總體.但是在大數(shù)據(jù)時代,不再是隨機(jī)樣本,而是全部的數(shù)據(jù),還需要假定一個看不見摸不著的總體嗎?如果將大數(shù)據(jù)看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統(tǒng)統(tǒng)計(jì)學(xué)的方法,可以采用抽樣的方法來減少樣本容量,并且可以達(dá)到需要的精度;對于維度高的問題,可以采取對變量進(jìn)行選擇、降維、壓縮、分解等方法來降低數(shù)據(jù)的復(fù)雜程度.但實(shí)際上很難做得到,大數(shù)據(jù)涵蓋多學(xué)科領(lǐng)域、多源、混合的數(shù)據(jù),各學(xué)科之間的數(shù)據(jù)融合,學(xué)科邊界模糊,各范疇的數(shù)據(jù)集互相重疊,合成一體,而且大數(shù)據(jù)涉及到各種數(shù)據(jù)類型.因此想要通過抽樣而使數(shù)據(jù)量達(dá)到傳統(tǒng)統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)分析能力范圍是一件相當(dāng)困難或是一件不可能的事.大量的結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)交織在一起,系統(tǒng)首先要認(rèn)清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數(shù)據(jù)信息來自于同一個地址的數(shù)據(jù)源,等等,傳統(tǒng)的統(tǒng)計(jì)學(xué)是無法做到的.在大數(shù)據(jù)時代下,是否需要打破傳統(tǒng)意義的抽樣理論、總體及樣本等概念和關(guān)系,是假設(shè)“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數(shù)據(jù)時代下,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨改進(jìn)的首要問題.
3.2統(tǒng)計(jì)方法在大數(shù)據(jù)時代下的重構(gòu)問題
在大數(shù)據(jù)時代下,傳統(tǒng)的高維度表達(dá)、結(jié)構(gòu)描述和群體行為分析方法已經(jīng)不能表達(dá)大數(shù)據(jù)在異構(gòu)性、交互性、時效性、突發(fā)性等方面的特點(diǎn),傳統(tǒng)的“假設(shè)-模型-檢驗(yàn)”的統(tǒng)計(jì)方法受到了質(zhì)疑,而且從“數(shù)據(jù)”到“數(shù)據(jù)”的統(tǒng)計(jì)模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數(shù)據(jù)噪聲、篩選有價值的數(shù)據(jù)、整合不同類型的數(shù)據(jù)、快速對數(shù)據(jù)做出分析并得出分析結(jié)果等一系列問題都有待于研究.大數(shù)據(jù)分析涉及到三個維度,即時間維度、空間維度和數(shù)據(jù)本身的維度,怎樣才能、深入地分析大數(shù)據(jù)的復(fù)雜性與特性,掌握大數(shù)據(jù)的不確定性,構(gòu)建高效的大數(shù)據(jù)計(jì)算模型,變成了大數(shù)據(jù)分析的突破口.科學(xué)數(shù)據(jù)的演變是一個從簡單到復(fù)雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進(jìn)的過程,而不是簡單的由一種形式取代另一種形式.研究科學(xué)數(shù)據(jù)的統(tǒng)計(jì)學(xué)理論也是一樣,也是由簡單到復(fù)雜的各種形式相互包容、不斷豐富的發(fā)展過程,而絕不是否定一種理論、由另一種理論形式所代替.大數(shù)據(jù)時代的到來統(tǒng)計(jì)學(xué)理論必須要進(jìn)行不斷的完善和發(fā)展,以適應(yīng)呈指數(shù)增長的數(shù)據(jù)量的大數(shù)據(jù)分析的需要.
3.3如何構(gòu)建大數(shù)據(jù)時代下統(tǒng)計(jì)結(jié)果的評價標(biāo)準(zhǔn)框架
大數(shù)據(jù)時代下,統(tǒng)計(jì)分析評價的標(biāo)準(zhǔn)又該如何變化?傳統(tǒng)統(tǒng)計(jì)分析的評價標(biāo)準(zhǔn)有兩個方面,一是性評價,二是有效性評價,然而這兩種評價標(biāo)準(zhǔn)都因抽樣而生.性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.性評價有時表現(xiàn)為置信水平,有時表現(xiàn)為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設(shè)檢驗(yàn)中,因?yàn)楦髯詤⒄盏姆植碱愋筒灰粯?其統(tǒng)計(jì)量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關(guān).而大數(shù)據(jù)在一定程度上是全體數(shù)據(jù),因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、性問題怎么確定?依據(jù)是什么?有效性評價指的是真實(shí)性,即為誤差的大小,它與性、性有關(guān).通常性是指觀察值與真實(shí)值的吻合程度,一般是無法衡量的,而性用抽樣分布的標(biāo)準(zhǔn)差來衡量.顯然,性是針對樣本數(shù)據(jù)而言的,也就是說樣本數(shù)據(jù)有性問題,同時也有性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數(shù)據(jù)中,抽樣誤差可以計(jì)算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數(shù)情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數(shù)據(jù)的全體數(shù)據(jù)而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的真實(shí)性只表現(xiàn)為性.但是由于大數(shù)據(jù)特有的種種特性,使得大數(shù)據(jù)的非抽樣誤差很難進(jìn)行防范、控制,也很難對其進(jìn)行性評價.總之,對于大數(shù)據(jù)分析來說,有些統(tǒng)計(jì)分析理論是否還有意義,確切說有哪些統(tǒng)計(jì)學(xué)中的理論可以適用于大數(shù)據(jù)分析,而哪些統(tǒng)計(jì)學(xué)中的理論需要改進(jìn),哪些統(tǒng)計(jì)學(xué)中的理論已不再適用于大數(shù)據(jù)統(tǒng)計(jì)研究,等等,都有待于研究.所以大數(shù)據(jù)時代的統(tǒng)計(jì)學(xué)必是在繼承中求改進(jìn),改進(jìn)中求發(fā)展,重構(gòu)適應(yīng)大數(shù)據(jù)時代的新統(tǒng)計(jì)學(xué)理論.
4結(jié)論
來自于社會各種數(shù)據(jù)源的數(shù)據(jù)量呈指數(shù)增長,大數(shù)據(jù)對社會發(fā)展的推動力呈指數(shù)效應(yīng),大數(shù)據(jù)已是生命活動的主要承載者.一個新事物的出現(xiàn),必然導(dǎo)致傳統(tǒng)觀念和傳統(tǒng)技術(shù)的變革.對傳統(tǒng)統(tǒng)計(jì)學(xué)來說,大數(shù)據(jù)時代的到來無疑是一個挑戰(zhàn),雖然傳統(tǒng)統(tǒng)計(jì)學(xué)必須做出改變,但是占據(jù)主導(dǎo)地位的依然會是統(tǒng)計(jì)學(xué),它會引領(lǐng)人類合理分析利用大數(shù)據(jù)資源.大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來了機(jī)遇和挑戰(zhàn),統(tǒng)計(jì)學(xué)家們應(yīng)該積極學(xué)習(xí)新事物,適應(yīng)新環(huán)境,努力為大數(shù)據(jù)時代創(chuàng)造出新的統(tǒng)計(jì)方法,擴(kuò)大統(tǒng)計(jì)學(xué)的應(yīng)用范圍.
作者:岳曉寧;丁宇 單位:沈陽大學(xué)
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵探討
一、統(tǒng)計(jì)學(xué)視角下的數(shù)據(jù)科學(xué)
統(tǒng)計(jì)學(xué)研究的對象是數(shù)據(jù),數(shù)據(jù)科學(xué)顧名思義也是以數(shù)據(jù)為研究對象,這產(chǎn)生一種直觀的錯覺,似乎數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)之間存在某種與生俱來的淵源關(guān)系。Wu(1998)直言不諱,數(shù)據(jù)科學(xué)就是統(tǒng)計(jì)學(xué)的重命名,相應(yīng)地,數(shù)據(jù)科學(xué)家替代了統(tǒng)計(jì)學(xué)家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因?yàn)閿?shù)據(jù)量大本身并不足以促成“統(tǒng)計(jì)學(xué)”向“數(shù)據(jù)科學(xué)”的轉(zhuǎn)變,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些概念似乎就已經(jīng)足夠了。問題的關(guān)鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)科學(xué)所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結(jié)構(gòu)型數(shù)據(jù)為主)使基于關(guān)系型數(shù)據(jù)庫的傳統(tǒng)分析工具很難發(fā)揮作用,或者說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計(jì)分析方法很難在可容忍的時間范圍內(nèi)完成存儲、管理和分析等一系列數(shù)據(jù)處理過程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學(xué)。真正意義上的現(xiàn)代統(tǒng)計(jì)學(xué)是從處理小數(shù)據(jù)、不的實(shí)驗(yàn)等這類現(xiàn)實(shí)問題發(fā)展起來的,而數(shù)據(jù)科學(xué)是因?yàn)樘幚泶髷?shù)據(jù)這類現(xiàn)實(shí)問題而興起的。因此數(shù)據(jù)科學(xué)的研究對象是大數(shù)據(jù),而統(tǒng)計(jì)學(xué)以結(jié)構(gòu)型數(shù)據(jù)為研究對象。退一步,單從數(shù)量級來講,也已發(fā)生了質(zhì)變。對于結(jié)構(gòu)化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟(jì)的(有效性),實(shí)踐中還需要借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、并行處理技術(shù)等現(xiàn)代計(jì)算技術(shù)才能實(shí)現(xiàn)。
二、數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵
(一)理論基礎(chǔ)
數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來的,譬如,統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)習(xí)或稱統(tǒng)計(jì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計(jì)算、密集計(jì)算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計(jì)量經(jīng)濟(jì)學(xué)、文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)、生物統(tǒng)計(jì)學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計(jì)算機(jī)科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計(jì)學(xué)知識、專業(yè)應(yīng)用知識三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識,并沒有進(jìn)行實(shí)質(zhì)性的分析,就好似任何現(xiàn)實(shí)活動都可以拆解為不同的細(xì)分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點(diǎn),數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計(jì)算機(jī)科學(xué)的一個替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒有作為一個獨(dú)立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個獨(dú)立的學(xué)科提出時,將數(shù)據(jù)科學(xué)表述為統(tǒng)計(jì)學(xué)加上它在計(jì)算技術(shù)方面的擴(kuò)展。這種觀點(diǎn)表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果。一如統(tǒng)計(jì)學(xué)最初只是作為征兵、征稅等行政管理的附屬活動,而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴(kuò)展來看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴(kuò)展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴(kuò)展來看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計(jì)模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計(jì)算機(jī)實(shí)現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢越來越突出。注意到,數(shù)據(jù)分析有驗(yàn)證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設(shè),就是觀測數(shù)據(jù)是由背后的一個(隨機(jī))模型生成,因此數(shù)據(jù)分析的基本問題就是找出這個(隨機(jī))模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強(qiáng)調(diào)EDA是因?yàn)樗坏凸懒恕?shù)據(jù)導(dǎo)向是計(jì)算機(jī)時代統(tǒng)計(jì)學(xué)發(fā)展的方向,這一觀點(diǎn)已被越來越多的統(tǒng)計(jì)學(xué)家所認(rèn)同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機(jī)制;而算法模型則認(rèn)為復(fù)雜的現(xiàn)實(shí)世界無法用數(shù)學(xué)公式來刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時對數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀(jì)80年代中期以來隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展而得到快速成長,然而很大程度上是在統(tǒng)計(jì)學(xué)這個領(lǐng)域之外“悄然”進(jìn)行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測變量記為x,擾動項(xiàng)和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對y做出預(yù)測,其中,f是一個有顯式表達(dá)的函數(shù)形式(若f先驗(yàn)假定,則對應(yīng)CDA;若f是探索得到的,則對應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統(tǒng)建模的基本觀點(diǎn)是,不僅要得到正確的模型———可解釋性強(qiáng),而且要得到的模型———外推預(yù)測能力強(qiáng)。而對于現(xiàn)實(shí)中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實(shí)際的做法是直接去尋找一個恰當(dāng)?shù)念A(yù)測規(guī)則(算法模型),不過代價是可解釋性較弱,但是算法模型的計(jì)算效率和可擴(kuò)展性更強(qiáng)。基于算法的基本形式類似于非參數(shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低yx,因?yàn)榉菂?shù)方法很多時候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過了函數(shù)機(jī)制的探討,尋找的只是一個預(yù)測規(guī)則(后續(xù)的檢驗(yàn)也是基于預(yù)測構(gòu)造的)。在很多應(yīng)用場合,算法模型得到的是針對具體問題的解(譬如某些參數(shù)是被當(dāng)作一個確定的值通過優(yōu)化算法得到的),并不是統(tǒng)計(jì)意義上的推斷解。
(二)技術(shù)維度
數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個毫無統(tǒng)計(jì)學(xué)知識的人應(yīng)用統(tǒng)計(jì)軟件也可以得到統(tǒng)計(jì)結(jié)果,但無論其過程還是結(jié)果都是可疑的,對統(tǒng)計(jì)結(jié)果的解釋也無法令人信服。“從計(jì)算機(jī)科學(xué)自身來看,這些應(yīng)用領(lǐng)域提供的主要研究對象就是數(shù)據(jù)。雖然計(jì)算機(jī)科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進(jìn)一步的加強(qiáng)”。不可否認(rèn),統(tǒng)計(jì)分析逐漸向計(jì)算機(jī)科學(xué)技術(shù)靠近的趨勢是明顯的。這一方面是因?yàn)椋瑪?shù)據(jù)量快速膨脹,數(shù)據(jù)來源、類型和結(jié)構(gòu)越來越復(fù)雜,迫切需要開發(fā)更高效率的存儲和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計(jì)算機(jī)科學(xué)技術(shù)的迅猛發(fā)展為新方法的實(shí)現(xiàn)提供了重要的支撐。對于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計(jì)算機(jī)科學(xué)這個屬性的一個重要原因還不單純是因?yàn)樾枰y(tǒng)計(jì)軟件來協(xié)助基本的統(tǒng)計(jì)分析和計(jì)算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)那樣可以直接用于統(tǒng)計(jì)分析。事實(shí)上,面對越來越龐雜的數(shù)據(jù),核心的統(tǒng)計(jì)方法并沒有實(shí)質(zhì)性的改變,改變的只是實(shí)現(xiàn)它的算法。因此,從某種程度上來講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,是如何實(shí)現(xiàn)統(tǒng)計(jì)分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒有實(shí)質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級來適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。
(三)應(yīng)用維度
在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息①的完整過程。數(shù)據(jù)科學(xué)家要同時具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說,數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來源、類型和存儲調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時對分析結(jié)果也能做出切合實(shí)際的解釋②。這實(shí)際上提出了兩個層面的要求:①長期目標(biāo)是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)學(xué)、商業(yè)分析等片段化碎片化的知識。②短期目標(biāo)實(shí)際上是一個“二級定義”,即,鼓勵已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計(jì)學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻(xiàn)中,對應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實(shí)際應(yīng)用。甚至有觀點(diǎn)認(rèn)為,數(shù)據(jù)科學(xué)是為應(yīng)對大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計(jì)人員的基本素質(zhì)。對數(shù)據(jù)的簡單收集和報告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強(qiáng)調(diào)對數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發(fā)問)。同時數(shù)據(jù)科學(xué)家要有良好的表達(dá)能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實(shí)清楚地表達(dá)給相關(guān)部門以便實(shí)現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會的角度來看,強(qiáng)調(diào)應(yīng)用這個維度無可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進(jìn)商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實(shí)務(wù)部門。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷(JimGray)就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長的科學(xué)研究數(shù)據(jù)進(jìn)行了廣泛的討論。格雷還進(jìn)一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上是將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開來了。
三、數(shù)據(jù)科學(xué)范式對統(tǒng)計(jì)分析過程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個機(jī)構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個層面來說,將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當(dāng)。事實(shí)上,孤立的大數(shù)據(jù),其價值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當(dāng)放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價值。譬如消費(fèi)行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計(jì),微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購物推薦,搜索數(shù)據(jù)用于流感預(yù)測、利用社交媒體數(shù)據(jù)監(jiān)測食品價等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無形中增強(qiáng)了對數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過去難以統(tǒng)計(jì)的指標(biāo)和變量提供了另辟蹊徑的思路。從統(tǒng)計(jì)學(xué)的角度來看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對統(tǒng)計(jì)分析過程的各個環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評價、等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計(jì)學(xué)被作為一個獨(dú)立的學(xué)科分離出來之前(1900年前),統(tǒng)計(jì)學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點(diǎn)逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計(jì)方法(統(tǒng)計(jì)推斷)以及現(xiàn)代意義上的統(tǒng)計(jì)調(diào)查(抽樣調(diào)查)正是在這個時期產(chǎn)生。隨后的45年里,統(tǒng)計(jì)方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來自于統(tǒng)計(jì)分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計(jì)調(diào)查方法通常是經(jīng)過設(shè)計(jì)的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實(shí)錄的、有機(jī)的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時都在增加(數(shù)據(jù)集是動態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來源和類型更加豐富,數(shù)據(jù)庫間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問題也變得更加復(fù)雜。隨著移動電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應(yīng)的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統(tǒng)計(jì)調(diào)查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護(hù)日益趨緊,涉及個人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來越難以取得(從各國的經(jīng)驗(yàn)來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統(tǒng)計(jì)的數(shù)據(jù)來源已經(jīng)無法局限于傳統(tǒng)的統(tǒng)計(jì)調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計(jì)分析方法的核心是抽樣推斷(參數(shù)估計(jì)和假設(shè)檢驗(yàn)),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠然改進(jìn)算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達(dá)到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計(jì)學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來產(chǎn)生質(zhì)量,而不再需要用樣本來推斷總體。事實(shí)上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計(jì)算機(jī)時代統(tǒng)計(jì)學(xué)發(fā)展無法回避的一個重要趨勢。算法模型不僅對數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計(jì)算效率上有很大的優(yōu)勢。特別是一些積極的開源軟件的支撐,以及天生與計(jì)算機(jī)的相容性,使算法模型越來越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲、傳輸?shù)却髷?shù)據(jù)管理方面的問題。僅從數(shù)量上來看,信息爆炸、數(shù)據(jù)過剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)埂⒇S富的數(shù)據(jù)貧乏的知識……這些詞組表達(dá)的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數(shù)據(jù)中有利用價值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對開采工具的渴求,當(dāng)時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數(shù)據(jù)。然而,大數(shù)據(jù)時代的思路改變了,開始變本加厲巨細(xì)靡遺地記錄一切可以記錄的數(shù)據(jù)。因?yàn)?數(shù)據(jù)再怎么拋棄還是會越來越多。我們不能通過刪減數(shù)據(jù)來適應(yīng)自己的無能,為自己不愿做出改變找借口,而是應(yīng)該面對現(xiàn)實(shí),提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當(dāng)前無用的數(shù)據(jù)將來也無用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲的成本。大數(shù)據(jù)存儲目前廣泛應(yīng)用的是GFS、HDFS等基于計(jì)算機(jī)群組的文件系統(tǒng),它可以通過簡單增加計(jì)算機(jī)來無限地?cái)U(kuò)充存儲能力。值得注意的是,分布式文件系統(tǒng)存儲的數(shù)據(jù)僅僅是整個架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計(jì)分析。而NoSQL這類分布式存儲系統(tǒng)可以實(shí)現(xiàn)高級查詢語言,事實(shí)上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫編程,二者的差異將變得越來越模糊。大數(shù)據(jù)分析的可行性問題指的是,數(shù)據(jù)量可能大到已經(jīng)超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對也就“大”了。換句話說,可行性問題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內(nèi)完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計(jì)算和網(wǎng)格計(jì)算也是并行處理,但是對于大數(shù)據(jù)而言,由于很多節(jié)點(diǎn)需要訪問大量數(shù)據(jù),因此很多計(jì)算節(jié)點(diǎn)會因?yàn)榫W(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會盡量在計(jì)算節(jié)點(diǎn)上存儲數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)的本地快速訪問。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結(jié)論
(一)數(shù)據(jù)科學(xué)不能簡單地理解為統(tǒng)計(jì)學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時,數(shù)量級也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來越受到學(xué)界的廣泛重視。
(二)從某種程度上來講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,核心的數(shù)據(jù)分析邏輯并沒有實(shí)質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。
(三)大數(shù)據(jù)問題很大程度上來自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動,因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息的完整過程。這種強(qiáng)調(diào)應(yīng)用維度的觀點(diǎn)無可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開了。
(四)數(shù)據(jù)科學(xué)范式對統(tǒng)計(jì)分析過程的各個環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過設(shè)計(jì)的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,這種改變的直接影響是淡化了樣本的意義,同時增進(jìn)了數(shù)據(jù)的客觀性。事實(shí)上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲和分析也不再一味地依賴于高性能計(jì)算機(jī),而是轉(zhuǎn)向由中低端設(shè)備構(gòu)成的大規(guī)模群組并行處理,采用橫向擴(kuò)展的方式。
(五)目前關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)的討論多集中于軟硬件架構(gòu)(IT視角)和商業(yè)領(lǐng)域(應(yīng)用視角),統(tǒng)計(jì)學(xué)的視角似乎被邊緣化了,比如覆蓋面、代表性等問題。統(tǒng)計(jì)學(xué)以數(shù)據(jù)為研究對象,它對大數(shù)據(jù)分析的影響也是顯而易見的,特別是天然的或潛在的平衡或相關(guān)關(guān)系不僅約束了數(shù)據(jù)質(zhì)量,而且為統(tǒng)計(jì)推斷和預(yù)測開辟了新的視野。
作者:魏瑾瑞蔣萍
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)環(huán)境下統(tǒng)計(jì)學(xué)改革探討
摘要:進(jìn)年來,隨著科學(xué)技術(shù)的不斷創(chuàng)新,信息技術(shù)的不斷發(fā)展,人類文明已經(jīng)迎來了大數(shù)據(jù)時代,隨之而來的必將是經(jīng)濟(jì)的不斷攀升,企業(yè)運(yùn)行模式的不斷轉(zhuǎn)型,人們生活方式的不斷改變,社會整體經(jīng)濟(jì)以及人們生活方式也將朝著多元化、便捷化、科技化、舒適化方向發(fā)展,所以,這將是一個具有潛力的新型產(chǎn)業(yè),而與之對應(yīng)的統(tǒng)計(jì)學(xué)也將順勢而行,迎來新的改革,基于在大數(shù)據(jù)環(huán)境下統(tǒng)計(jì)學(xué)理論及方法改革探究,筆者進(jìn)行簡單闡述與研究。
關(guān)鍵詞:大數(shù)據(jù):統(tǒng)計(jì)學(xué)理論:創(chuàng)新應(yīng)用
顧名思義,統(tǒng)計(jì)學(xué)幾乎是對所有領(lǐng)域的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與研究、分析篩選,因而統(tǒng)計(jì)學(xué)在如今的大數(shù)據(jù)時代幾乎涉及到各行各業(yè),其表現(xiàn)方式為,統(tǒng)計(jì)出來的數(shù)據(jù)進(jìn)行科學(xué)的研究與分析,可以有效的幫著企業(yè)獲取有效信息,探索其中數(shù)量規(guī)律行,進(jìn)而企業(yè)可以更高效、更精準(zhǔn)的進(jìn)行工作。而如今隨著現(xiàn)代信息技術(shù)以及數(shù)字科學(xué)技術(shù)的不斷發(fā)展,統(tǒng)計(jì)學(xué)也得到了更多的應(yīng)用,也被人們更加重視,應(yīng)用最多的為企業(yè)管理系統(tǒng)中,統(tǒng)計(jì)學(xué)中的理論及其分析方式幫助企業(yè)進(jìn)行對數(shù)據(jù)數(shù)量規(guī)律性的探以及定性分析,為企業(yè)尋找自身的管理經(jīng)營的基礎(chǔ)進(jìn)行有效地夯實(shí),奠定企業(yè)向更加穩(wěn)定方向進(jìn)行發(fā)展。而如今計(jì)算機(jī)軟件的不斷發(fā)展與更新,大數(shù)據(jù)時代的到來,統(tǒng)計(jì)學(xué)的應(yīng)用也會得到更為廣泛的發(fā)展,其中有政府和企業(yè)利用計(jì)算機(jī)對相關(guān)數(shù)據(jù)的采集、整理、統(tǒng)計(jì)進(jìn)行綜合的分析。統(tǒng)計(jì)學(xué)相關(guān)的軟件開發(fā)商也將軟件設(shè)計(jì)的更為簡易化、便捷化,使得非統(tǒng)計(jì)學(xué)專業(yè)的人員也可以使用。當(dāng)今社會經(jīng)濟(jì)高速發(fā)展,統(tǒng)計(jì)學(xué)的應(yīng)用及其發(fā)展趨勢將會迎合時代的到來進(jìn)行改革改變,促進(jìn)社會經(jīng)濟(jì)的快速提高。
一、大數(shù)據(jù)時代的內(nèi)涵及其意義
(一)大數(shù)據(jù)時代的內(nèi)涵
大數(shù)據(jù)是指在一定時間內(nèi)對信息的捕捉、管理、處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力、流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。針對這些信息資產(chǎn),利用統(tǒng)計(jì)學(xué)原理對其進(jìn)行數(shù)據(jù)分析、提煉、分解。也可以從另一個方面理解大數(shù)據(jù),它涉及各行各業(yè),是多個領(lǐng)域數(shù)據(jù)的集中區(qū)域,涉及到的有自然科學(xué)、人文科學(xué)、社會經(jīng)濟(jì)學(xué)等等相關(guān)的混合數(shù)據(jù),它們之間相互參雜,互相融合,形成非常龐大的數(shù)據(jù)系統(tǒng)。目前傳統(tǒng)統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)方法是分析單個計(jì)算機(jī)系統(tǒng)的數(shù)據(jù)儲備,無法分析多臺計(jì)算機(jī)的數(shù)據(jù),在數(shù)據(jù)統(tǒng)計(jì)中產(chǎn)生了局限性、單一性、不穩(wěn)定性和客觀性等,但是目前大數(shù)據(jù)時代的到來,改變了如今這一現(xiàn)象,改變了大數(shù)據(jù)環(huán)境下數(shù)據(jù)流、磁盤存儲、分布存儲、多線條等環(huán)境。大數(shù)據(jù)環(huán)境主要起到的作用為,將龐大而復(fù)雜的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換成為簡單易懂、顯而易見的內(nèi)容,進(jìn)而使工作人員對數(shù)據(jù)進(jìn)行源頭和機(jī)制的追述,從而研究出適合自身并有效的應(yīng)對策略。因?qū)?shù)據(jù)轉(zhuǎn)換成需要的知識需要相對緩慢的時間,所以工作人員將當(dāng)前龐大復(fù)雜的數(shù)據(jù)分別存放在不同的儲備空間里,有些工作人員將目前無法分析的或是不需要的數(shù)據(jù)進(jìn)行整體精準(zhǔn)的記錄儲存,記錄成一整套的數(shù)據(jù)發(fā)展史,已供日后應(yīng)用,以備不時之需,為今后科研做出充分準(zhǔn)備。
(二)大數(shù)據(jù)時代給社會帶來的改革
大數(shù)據(jù)在一夜之間成為各大互聯(lián)網(wǎng)上的討論話題,成為一個包含性非常強(qiáng)的概念,大數(shù)據(jù)時代也成為人們關(guān)注的話題,它的到來已然成為不爭的事實(shí),從本質(zhì)上來看,它是當(dāng)今中新型的產(chǎn)業(yè),通過對海量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析追蹤發(fā)現(xiàn)龐大的市場,通過對人們行為喜好進(jìn)行科學(xué)分析,獲取營銷手段。大數(shù)據(jù)使得廣告投放精準(zhǔn)化、醫(yī)療衛(wèi)生體系精密化、社會安全管理有序化等多方面優(yōu)勢,同時大數(shù)據(jù)時代的到來隨著帶來了新的新業(yè)市場,大數(shù)據(jù)將為全球帶來440萬個IT崗位和上千萬個非IT崗位,提供了更多的就業(yè)崗位。大數(shù)據(jù)時代到來的變革之大,影響著人們傳統(tǒng)的工作方式,各行各業(yè)的人利用研究問題來驅(qū)動收據(jù)數(shù)據(jù),然后再利用收集來的數(shù)據(jù)進(jìn)行分析,從而解決問題,從這一行為來講,人們會慢慢適應(yīng)通過大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)的研究分析來解決問題,利用通過統(tǒng)計(jì)學(xué)理論開發(fā)的軟件搜索、分析一些研究性成果。目前統(tǒng)計(jì)學(xué)家通過數(shù)據(jù)的收集、數(shù)據(jù)的處理以及個人分析能力進(jìn)行科學(xué)探索,如今大數(shù)據(jù)的到來將會威脅的他們的領(lǐng)域,大數(shù)據(jù)將我們難以理解的內(nèi)容翻譯成我們一看便知的統(tǒng)計(jì)成果,優(yōu)化了人們工作的便捷性、舒適性等。
二、大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)的發(fā)展研究
大數(shù)據(jù)發(fā)展如今,滲透社會的各個角落,分析大數(shù)據(jù)需要多個領(lǐng)域的結(jié)合,它并非單一的科學(xué)領(lǐng)域,自成一體,現(xiàn)如今的統(tǒng)計(jì)學(xué)家不僅需要研究探討計(jì)算機(jī)對數(shù)據(jù)的實(shí)時決策,更是要將其與統(tǒng)計(jì)學(xué)理論及其方法相互結(jié)合,同時,計(jì)算機(jī)專家也要不斷學(xué)習(xí)統(tǒng)計(jì)學(xué)的一些知識,統(tǒng)計(jì)學(xué)與大數(shù)據(jù)相互結(jié)合才能順應(yīng)時代的發(fā)展。獲取大數(shù)據(jù)之后,研究探討大數(shù)據(jù)時,針對數(shù)據(jù)分析的高難問題,利用統(tǒng)計(jì)學(xué)原理對其進(jìn)行數(shù)據(jù)分析、提煉、分解時,需創(chuàng)新出新的更便捷更高效的統(tǒng)計(jì)處理方法,在壓縮提煉過程中,解決數(shù)據(jù)混雜的問題,在分解數(shù)據(jù)中,解決精準(zhǔn)問題,使得大數(shù)據(jù)與統(tǒng)計(jì)理論更好的溝通合作,構(gòu)造全局統(tǒng)計(jì)結(jié)果。統(tǒng)計(jì)學(xué)主要是對海量的數(shù)據(jù)進(jìn)行整理分類,結(jié)合計(jì)算機(jī)進(jìn)行科學(xué)分析,探究出數(shù)據(jù)的數(shù)量規(guī)律性,從而得出結(jié)論,由于目前統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)學(xué)理論和統(tǒng)計(jì)方法與時代稍有差距,如今更是大數(shù)據(jù)時代,而大數(shù)據(jù)隨機(jī)或非隨機(jī)的誤差比較大,所以傳統(tǒng)的統(tǒng)計(jì)學(xué)理論及方法無法滿足如今變革,也無法更好的獲取大數(shù)據(jù)背景下所帶來的各種機(jī)遇。現(xiàn)在的統(tǒng)計(jì)學(xué)家應(yīng)該更加努力專研統(tǒng)計(jì)學(xué)理論以及對數(shù)據(jù)壓縮、分解的方法,舍棄無法適應(yīng)當(dāng)前時代的陳舊理論及方法,必須去學(xué)習(xí)如何迎合新的事物的到來進(jìn)行改革改變,只有這樣才能順勢而行。
作者:宋瑞雪 周晏羽 黃揚(yáng)藝 單位:沈陽理工大學(xué)
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn)及建議
摘要:傳統(tǒng)的統(tǒng)計(jì)學(xué)是因數(shù)據(jù)而生的,也是以研究數(shù)據(jù)為根本目的,傳統(tǒng)統(tǒng)計(jì)學(xué)有其獨(dú)特的數(shù)據(jù)收集、整理與分析的方法體系,也確實(shí)為我們研究數(shù)據(jù)帶來了便利,但是不得不思考的是在數(shù)據(jù)爆炸的信息時代,尤其是“大數(shù)據(jù)”概念產(chǎn)生以后,傳統(tǒng)的統(tǒng)計(jì)學(xué)如果不改變,又將如何應(yīng)對大數(shù)據(jù)分析帶來的挑戰(zhàn),該文將從零售行業(yè)的角度分析大數(shù)據(jù)為傳統(tǒng)統(tǒng)計(jì)學(xué)帶來的諸多挑戰(zhàn)。
關(guān)鍵詞:總體數(shù)據(jù);相關(guān)性;個性化營銷;定制服務(wù)
隨著科技的發(fā)展,大數(shù)據(jù)已經(jīng)成為信息時代的一場技術(shù)革命。大數(shù)據(jù)是指傳統(tǒng)數(shù)據(jù)庫管理工具難以處理的大量的、多樣化的數(shù)據(jù)。當(dāng)前普遍認(rèn)為大數(shù)據(jù)有3個特點(diǎn):及時,數(shù)據(jù)量非常大;第二,數(shù)據(jù)增長速度非常快;第三,數(shù)據(jù)類型越來越多樣化[1]。零售業(yè)作為傳統(tǒng)的線下實(shí)體經(jīng)營行業(yè),積累了大量的消費(fèi)者以及管理層的數(shù)據(jù),如果依靠傳統(tǒng)的統(tǒng)計(jì)學(xué)模型對這些數(shù)據(jù)進(jìn)行分析,很難得出可以用于企業(yè)經(jīng)營管理的有效信息,加上年輕一代消費(fèi)者越來越追求個性化,所以傳統(tǒng)統(tǒng)計(jì)學(xué)所采用的根據(jù)部分樣本推斷總體的分析方法已經(jīng)無法滿足市場的個性化需求,因此,傳統(tǒng)統(tǒng)計(jì)學(xué)要想跟上時展的步伐,就必須做出與之相適應(yīng)的改變。
1零售行業(yè)里大數(shù)據(jù)與傳統(tǒng)統(tǒng)計(jì)學(xué)的區(qū)別
維克多?邁克爾在《大數(shù)據(jù)時代》一書中提出了大數(shù)據(jù)思維的3個最顯著的變化:一是樣本等于總體。這與過去基于樣本進(jìn)行統(tǒng)計(jì)分析的思維截然不同;二是不再追求性。在大數(shù)據(jù)中往往存在“噪音”和罕見事件,這樣的數(shù)據(jù)影響了結(jié)果的性;三是相關(guān)分析比因果分析更重要,在大數(shù)據(jù)時代我們將注意力更多地放在“是什么”而不是“為什么”[2]。大數(shù)據(jù)的以上特性在零售行業(yè)同樣適用,零售行業(yè)的大數(shù)據(jù)與傳統(tǒng)統(tǒng)計(jì)學(xué)的區(qū)別有以下3點(diǎn)。及時,大數(shù)據(jù)收集總體數(shù)據(jù),而傳統(tǒng)統(tǒng)計(jì)學(xué)多采用抽樣的方式收集部分?jǐn)?shù)據(jù)。傳統(tǒng)統(tǒng)計(jì)學(xué)在做統(tǒng)計(jì)分析時首先針對某一個問題提出假設(shè),然后確定需要調(diào)查對象的總體,由于數(shù)據(jù)采集存在一定的難度,所以統(tǒng)計(jì)分析采取從總體中隨機(jī)抽樣選取一部分?jǐn)?shù)據(jù)作為分析的對象,如此的話對隨機(jī)抽樣的方法與數(shù)據(jù)采集的性要求是非常高的。而大數(shù)據(jù)收集的是數(shù)據(jù)“總體”,在進(jìn)行分析的時候不會人為進(jìn)行假設(shè),排除了人的干擾因素,僅僅從數(shù)據(jù)本身出發(fā)進(jìn)行數(shù)據(jù)分析。在零售行業(yè)如果能運(yùn)用大數(shù)據(jù)思維分析數(shù)據(jù),從產(chǎn)生數(shù)據(jù)的顧客行為本身出發(fā),針對不同顧客做出個性化營銷,而不是人為假設(shè)的話,管理層就可以根據(jù)數(shù)據(jù)進(jìn)行預(yù)測,避免了主觀的經(jīng)驗(yàn)與直覺的判斷。沃爾瑪作為零售行業(yè)的巨頭,運(yùn)用大數(shù)據(jù)分析得出的著名的啤酒與尿布理論可以證明這一點(diǎn)。第二,大數(shù)據(jù)注重個體行為的研究,統(tǒng)計(jì)學(xué)用樣本數(shù)據(jù)推斷總體行為。傳統(tǒng)的統(tǒng)計(jì)學(xué)采用抽樣調(diào)查的方式對樣本數(shù)據(jù)進(jìn)行分析,用樣本推斷總體,那些在圖表上反映出來的異常數(shù)據(jù)被排除在外。大數(shù)據(jù)包容一切數(shù)據(jù),其中包括各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化甚至是異構(gòu)數(shù)據(jù)。對于零售行業(yè)而言,顧客的總體行為表現(xiàn)是沒有意義的,因?yàn)槊總€顧客的需求不同,在不同的時間和地點(diǎn)需要的商品都不同,只有根據(jù)每位顧客的不同行為進(jìn)行個性化服務(wù)才能讓線下的零售行業(yè)有優(yōu)勢可言。美國品質(zhì)連鎖百貨Nordstorm最近開始采用線下實(shí)體店客流分析服務(wù)供應(yīng)商EuclidAnalytics公司的客流監(jiān)測解決方案EuclidZero,基于用戶連接Wifi行為來獲取店內(nèi)顧客手機(jī)的Mac物理地址并進(jìn)行線下追蹤,由此可以通過單個顧客在百貨店里的行動路線和滯留時間,從而用于改善商品羅列與室內(nèi)動線以及顧客個性化偏好與推薦服務(wù)[3]。第三,大數(shù)據(jù)注重?cái)?shù)據(jù)之間的相關(guān)性,而傳統(tǒng)統(tǒng)計(jì)學(xué)更加關(guān)注數(shù)據(jù)分析的結(jié)果。從社會發(fā)展的角度來看,大數(shù)據(jù)對數(shù)據(jù)的關(guān)聯(lián)性分析更有助于零售行業(yè)管理層做出決策。對于傳統(tǒng)零售行業(yè)而言,線下的用戶體驗(yàn)是非常重要的,如果能根據(jù)用戶行為數(shù)據(jù)分析出哪些商品放在一起能促進(jìn)購買力,那么零售行業(yè)將會有更大的利潤空間,相比之下,統(tǒng)計(jì)學(xué)進(jìn)行的結(jié)果分析顯得沒有那么重要。
2大數(shù)據(jù)在零售行業(yè)的優(yōu)勢
邁克爾?舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析數(shù)據(jù)的渴望。及時,大數(shù)據(jù)收集的數(shù)據(jù)是多樣化的、非標(biāo)準(zhǔn)化的,而統(tǒng)計(jì)學(xué)收集的數(shù)據(jù)都是標(biāo)準(zhǔn)化、結(jié)構(gòu)化的,統(tǒng)計(jì)學(xué)無法對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析與測量。但是在零售行業(yè)僅僅對標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行分析做出的判斷已無法滿足行業(yè)的需求,通過對用戶在商品前滯留的時間以及與貨架上商品的互動行為產(chǎn)生的數(shù)據(jù)進(jìn)行分析,從而調(diào)整貨架的位置才是主流。第二,大數(shù)據(jù)可以實(shí)時、快速監(jiān)測與收集數(shù)據(jù),而統(tǒng)計(jì)學(xué)收集數(shù)據(jù)時間長、難度高。大數(shù)據(jù)收集與處理數(shù)據(jù)的能力對于零售行業(yè)的供應(yīng)鏈管理十分有效。零售市場可以利用大數(shù)據(jù)對庫存和員工行為進(jìn)行監(jiān)測,從而為管理層做決策提供依據(jù)。沃爾瑪為了提高大數(shù)據(jù)成果在不同部門之間的高效利用,并增加存貨管理和供應(yīng)鏈管理的投入回報率,其開發(fā)了RetialLink工具。供應(yīng)商使用該工具可以預(yù)先知道不同店鋪商品銷售和庫存情況,從而能夠在沃爾瑪發(fā)出指令前自行補(bǔ)貨,極大地減少商品斷貨,提高供應(yīng)鏈的庫存水平[4]。
3傳統(tǒng)統(tǒng)計(jì)學(xué)面對大數(shù)據(jù)挑戰(zhàn)要做出改變
大數(shù)據(jù)的出現(xiàn)給我們的生活帶來了巨大的改變,甚至不同國家的政府都將大數(shù)據(jù)作為國家的戰(zhàn)略資源。相比之下,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨著大數(shù)據(jù)的巨大挑戰(zhàn),如果能根據(jù)自身優(yōu)勢做出改變,傳統(tǒng)統(tǒng)計(jì)學(xué)仍然具有存在的價值。及時,改變數(shù)據(jù)的收集方式。統(tǒng)計(jì)學(xué)收集數(shù)據(jù)時前期要做大量的準(zhǔn)備工作,需要耗費(fèi)大量的人力物力成本,所以想要更加高效收集數(shù)據(jù),就必須做出改變。由于大數(shù)據(jù)是基于互聯(lián)網(wǎng)收集數(shù)據(jù)的,所以對于不使用互聯(lián)網(wǎng)的地區(qū)和群體來說,大數(shù)據(jù)就顯得很無力,而傳統(tǒng)統(tǒng)計(jì)學(xué)可以在此基礎(chǔ)上發(fā)揮自身優(yōu)勢,在以往的數(shù)據(jù)收集方式上進(jìn)行創(chuàng)新。第二,傳統(tǒng)統(tǒng)計(jì)學(xué)在數(shù)據(jù)的分析思維上也要進(jìn)行改變。傳統(tǒng)統(tǒng)計(jì)學(xué)不光要打破只能分析標(biāo)準(zhǔn)化數(shù)據(jù)的魔咒,更要著重分析問題的本質(zhì),而不是一味注重結(jié)果分析,雖然“是什么”很重要,但是一直以來探尋事物內(nèi)在本質(zhì)才是不斷推動人類社會進(jìn)步的動力所在,所以統(tǒng)計(jì)學(xué)也要學(xué)會知道“為什么”。
4結(jié)語
信息技術(shù)的發(fā)展是無法想象的,我們無法通過今天來預(yù)測未來10年信息行業(yè)的發(fā)展。只有追上時代的腳步,做出順應(yīng)時代潮流的改變,才能免遭淘汰,對于傳統(tǒng)統(tǒng)計(jì)學(xué)也是一樣,停留在原地不動是不明智的,改變才是世界的本質(zhì)。而所有技術(shù)的變革都將反饋給人類的生活,讓人們和社會從中受益。
作者:吳興蔚 單位:河北省張家口市蔚縣及時中學(xué)
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)面臨機(jī)遇與挑戰(zhàn)
摘要:作為與數(shù)據(jù)緊密相關(guān)的統(tǒng)計(jì)學(xué)學(xué)科,在大數(shù)據(jù)的時代背景下,當(dāng)今數(shù)據(jù)的獲取和規(guī)模發(fā)生了根本的變化,統(tǒng)計(jì)學(xué)面臨著新的機(jī)遇和挑戰(zhàn),需要在方法論上有所突破,研究統(tǒng)計(jì)學(xué)在大數(shù)據(jù)時代的發(fā)展趨勢有著十分重要的時代意義。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);樣本;機(jī)遇;挑戰(zhàn)
21世紀(jì)爆發(fā)的信息技術(shù)革命,改變了社會發(fā)展過程中的方方面面。在云技術(shù)、物聯(lián)網(wǎng)技術(shù)等高科技信息技術(shù)的大規(guī)模革新背景下,網(wǎng)絡(luò)數(shù)據(jù)增長速率十分驚人,海量龐大的數(shù)據(jù)標(biāo)志著大數(shù)據(jù)時代的來臨。作為與數(shù)據(jù)緊密相關(guān)的統(tǒng)計(jì)學(xué)學(xué)科,在大數(shù)據(jù)的時代背景下,將會面臨一系列的機(jī)遇和挑戰(zhàn),研究統(tǒng)計(jì)學(xué)在大數(shù)據(jù)時代的發(fā)展趨勢有著十分重要的時代意義。
1.大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn)
統(tǒng)計(jì)學(xué)是一門傳統(tǒng)的學(xué)科,發(fā)展至今已經(jīng)有幾千年歷史,無論是學(xué)科理論領(lǐng)域內(nèi)還是生產(chǎn)實(shí)踐過程中,統(tǒng)計(jì)學(xué)的發(fā)展已經(jīng)十分成熟,存在著許多成熟的研究成果。統(tǒng)計(jì)學(xué)的不斷發(fā)展為人類的社會生產(chǎn)帶來了極大的影響,隨著大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)海量、分散式的分布狀態(tài),其對統(tǒng)計(jì)學(xué)的影響也是較為明顯的。一方面,大數(shù)據(jù)時代數(shù)據(jù)之“大”已經(jīng)超出人們的想象,數(shù)據(jù)之“全”讓人們對于事情的認(rèn)知更加,大數(shù)據(jù)的多樣性、大體量改變了數(shù)據(jù)樣本與總體之間的關(guān)系,另一方面,大數(shù)據(jù)的數(shù)據(jù)多樣性的特點(diǎn)改變了傳統(tǒng)統(tǒng)計(jì)對數(shù)據(jù)統(tǒng)計(jì)分析的主觀訴求,過去人們通過統(tǒng)計(jì)分析更偏向于追求“為什么”,而現(xiàn)在的統(tǒng)計(jì)分析更趨同與追求“是什么”。這一系列的影響對于統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)展提出了新的發(fā)展挑戰(zhàn):
1.1樣本選取以及標(biāo)準(zhǔn)的確定難度加大
樣本統(tǒng)計(jì)屬于統(tǒng)計(jì)學(xué)的核心內(nèi)容,統(tǒng)計(jì)學(xué)通過樣本統(tǒng)計(jì)對客觀事物數(shù)量特點(diǎn)、數(shù)量關(guān)系等展開研究。在大數(shù)據(jù)背景下,樣本與總體之間的局部與整體之間的關(guān)聯(lián)性將會進(jìn)一步地降低,造成樣本即是總體的變化趨勢,因而會造成大樣本的標(biāo)準(zhǔn)化的變更。數(shù)據(jù)來源的多樣化進(jìn)一步的提升了樣本數(shù)量,繼而提升了統(tǒng)計(jì)度,促進(jìn)了統(tǒng)計(jì)學(xué)學(xué)科的高精尖的發(fā)展。但隨著樣本數(shù)量越來越多,而從網(wǎng)絡(luò)環(huán)境中采集到的數(shù)據(jù)多半屬于非結(jié)構(gòu)化的數(shù)據(jù),但傳統(tǒng)統(tǒng)計(jì)學(xué)要求結(jié)構(gòu)化數(shù)據(jù),利用傳統(tǒng)的關(guān)系數(shù)據(jù)庫難以對非結(jié)構(gòu)數(shù)據(jù)進(jìn)行有效的轉(zhuǎn)換,難以挖掘大數(shù)據(jù)大樣本數(shù)據(jù)中的潛在信息。大數(shù)據(jù)時代統(tǒng)計(jì)樣本的選取工作難度不斷提升,傳統(tǒng)統(tǒng)計(jì)學(xué)缺乏非結(jié)構(gòu)數(shù)據(jù)的建設(shè),難以發(fā)揮出大數(shù)據(jù)時代,大數(shù)據(jù)庫有效轉(zhuǎn)換非結(jié)構(gòu)與結(jié)構(gòu)數(shù)據(jù)的優(yōu)勢,也為統(tǒng)計(jì)學(xué)的進(jìn)一步發(fā)展提出了新的挑戰(zhàn)。
1.2統(tǒng)計(jì)軟件以及統(tǒng)計(jì)方法的欠缺
隨著信息計(jì)算機(jī)技術(shù)的快速發(fā)展,基于計(jì)算機(jī)運(yùn)算環(huán)境的統(tǒng)計(jì)學(xué)軟件應(yīng)運(yùn)而生,統(tǒng)計(jì)學(xué)軟件的使用有效提升了統(tǒng)計(jì)學(xué)中對數(shù)據(jù)分析和處理的效率和精準(zhǔn)率,統(tǒng)計(jì)模型也進(jìn)一步的簡化了統(tǒng)計(jì)的實(shí)際操作,更有利于一般性的統(tǒng)計(jì)工作的實(shí)踐操作。大數(shù)據(jù)背景下,現(xiàn)階段發(fā)展較為成熟的統(tǒng)計(jì)學(xué)軟件如SPSS、DPS等,尚不能夠?qū)崿F(xiàn)大數(shù)據(jù)高速傳輸、存儲功能,軟件功能還需要一定的開發(fā)和升級。與此同時,數(shù)據(jù)在大數(shù)據(jù)時代下屬于一項(xiàng)資本,其被開發(fā)的水平還略顯不足,絕大多數(shù)被互聯(lián)網(wǎng)、搜索引擎以及電子商務(wù)等相關(guān)IT公司、統(tǒng)計(jì)機(jī)構(gòu)所掌握。
2.大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)面臨的機(jī)遇
2.1統(tǒng)計(jì)效率的提升
在大數(shù)據(jù)時代,統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)效率得到了更好的體現(xiàn)。一方面,大數(shù)據(jù)的多樣化、及時性特征能夠有效彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)中數(shù)據(jù)的滯后性問題,有效的提升了統(tǒng)計(jì)的時效性,另一方面,大數(shù)據(jù)的高速傳輸為統(tǒng)計(jì)的動態(tài)數(shù)據(jù)的收集提供了保障。與此同時,大數(shù)據(jù)可被頻繁反復(fù)應(yīng)用,采集的統(tǒng)計(jì)數(shù)據(jù)不再單單局限于一種相關(guān)用途,其能夠服務(wù)于各式各樣的需求。對采集數(shù)據(jù)應(yīng)用的次數(shù)逐步增多,數(shù)據(jù)所具備的潛在價值被更的挖掘,而采集數(shù)據(jù)所產(chǎn)生的成本并不會受數(shù)據(jù)應(yīng)用的次數(shù)所影響,故各式各樣用途的平均統(tǒng)計(jì)成本將得到顯著地降低。
2.2統(tǒng)計(jì)學(xué)科體系的新延伸
大數(shù)據(jù)引入到統(tǒng)計(jì)學(xué)科之中,龐大的數(shù)據(jù)使得樣本的選取、標(biāo)準(zhǔn)劃分都產(chǎn)生了新的變化,傳統(tǒng)統(tǒng)計(jì)中的樣本統(tǒng)計(jì)將會進(jìn)一步的朝向總體統(tǒng)計(jì)的方向發(fā)展,一并囊括總體統(tǒng)計(jì)、樣本統(tǒng)計(jì)的統(tǒng)計(jì)學(xué)科體系,能夠有效消除總體統(tǒng)計(jì)的數(shù)據(jù)采集難度,彌補(bǔ)樣本統(tǒng)計(jì)的數(shù)據(jù)采集不足,達(dá)到有效延伸統(tǒng)計(jì)學(xué)科體系的目的。
2.3統(tǒng)計(jì)學(xué)科的應(yīng)用范圍擴(kuò)大
傳統(tǒng)的統(tǒng)計(jì)學(xué)實(shí)踐是為了去了解一個結(jié)果或者一個原因,但基于大數(shù)據(jù)的統(tǒng)計(jì)學(xué)科將向人們展示的是一個具體的過程。從前,人們習(xí)慣于根據(jù)“研究問題”來驅(qū)動“收集數(shù)據(jù)”。今后,大數(shù)據(jù)到處可得,人們將會用“數(shù)據(jù)”驅(qū)動“研究問題”而這種功能性的還變,促進(jìn)了統(tǒng)計(jì)學(xué)應(yīng)用范圍的進(jìn)一步擴(kuò)大,例如傳統(tǒng)的統(tǒng)計(jì)學(xué)往往被用來作為一個數(shù)學(xué)形式的參考信息,例如衛(wèi)生統(tǒng)計(jì)、生產(chǎn)統(tǒng)計(jì)等等,但在大數(shù)據(jù)背景下,數(shù)據(jù)本身所含有的信息更加豐富化和多元化,基于海量用戶下的網(wǎng)絡(luò)數(shù)據(jù)所包含的信息極為廣闊,而這些信息涉及到他們生活中的方方面面,這些信息一旦被深入挖掘出來,將會促進(jìn)許多產(chǎn)業(yè)的快速發(fā)展。在大數(shù)據(jù)背景下,傳統(tǒng)統(tǒng)計(jì)學(xué)的結(jié)構(gòu)化數(shù)據(jù)局限會逐步接觸,在非結(jié)構(gòu)或者半結(jié)構(gòu)的數(shù)據(jù)統(tǒng)計(jì)下,統(tǒng)計(jì)學(xué)將會應(yīng)用到許多傳統(tǒng)意義上無法數(shù)據(jù)化的行業(yè)領(lǐng)域中。
3結(jié)束語
數(shù)據(jù)是統(tǒng)計(jì)學(xué)科的核心,也是統(tǒng)計(jì)學(xué)科的主要價值體現(xiàn)。大數(shù)據(jù)時代改變了傳統(tǒng)的數(shù)據(jù)的意義,數(shù)據(jù)所包含的信息、傳播速度、分布速度也遠(yuǎn)遠(yuǎn)超出了我們的想象,數(shù)據(jù)核心意義的轉(zhuǎn)變,迫使得以此為基礎(chǔ)的統(tǒng)計(jì)學(xué)科必然會隨之做出改變。機(jī)遇與挑戰(zhàn)并存,在新的時期,統(tǒng)計(jì)學(xué)要想快速完成其學(xué)科的有效轉(zhuǎn)換,就必須要進(jìn)一步的深入研究大數(shù)據(jù)的時代特征,并有效地與傳統(tǒng)統(tǒng)計(jì)學(xué)結(jié)合起來,以達(dá)成統(tǒng)計(jì)學(xué)科的進(jìn)一步發(fā)展。
作者:鄭雅倩 單位:海南師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的比較分析
摘要:數(shù)據(jù)挖掘來源于統(tǒng)計(jì)分析,而又不同于統(tǒng)計(jì)分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計(jì)分析方法的擴(kuò)展和延伸。
關(guān)鍵詞:數(shù)據(jù)挖掘;統(tǒng)計(jì)學(xué);比較
隨著科學(xué)技術(shù)的發(fā)展,利用數(shù)據(jù)庫技術(shù)來存儲管理數(shù)據(jù),利用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識。這種思想的結(jié)合形成了現(xiàn)在深受人們關(guān)注的非常熱門的研究領(lǐng)域:數(shù)據(jù)庫中的知識發(fā)現(xiàn)――KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是KDD中的一個最為關(guān)鍵的環(huán)節(jié)。
一、數(shù)據(jù)挖掘簡介
(一)數(shù)據(jù)挖掘的含義和功能
數(shù)據(jù)挖掘―DM(Data Mining)就是從大量的、不的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學(xué)科,它匯聚了數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、可視化、并行計(jì)算等不同學(xué)科和領(lǐng)域,近年來受到各界的廣泛關(guān)注。
一般說來,數(shù)據(jù)挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和預(yù)測。它強(qiáng)調(diào)對大量觀測到的數(shù)據(jù)庫的處理。它是涉及數(shù)據(jù)庫管理、人工智能、機(jī)器學(xué)習(xí)、模式識別、及數(shù)據(jù)可視化等學(xué)科的邊緣學(xué)科。
作為一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。,數(shù)據(jù)挖掘所采用的技術(shù)涉及到:數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、可視化、并行計(jì)算等不同學(xué)科和領(lǐng)域。
二、統(tǒng)計(jì)學(xué)的含義
統(tǒng)計(jì)學(xué)最初是作為一門實(shí)質(zhì)性科學(xué)建立起來的,它從數(shù)量上研究某類具體的現(xiàn)象(如社會經(jīng)濟(jì)發(fā)展)的規(guī)律,但是,隨著統(tǒng)計(jì)學(xué)研究范圍的不斷擴(kuò)大以及統(tǒng)計(jì)方法在社會領(lǐng)域和自然領(lǐng)域內(nèi)的有效應(yīng)用,加之統(tǒng)計(jì)方法體系本身的不斷發(fā)展和完善,使得統(tǒng)計(jì)學(xué)的研究對象也發(fā)生了變化。統(tǒng)計(jì)學(xué)已從實(shí)質(zhì)性科學(xué)中分離出來,轉(zhuǎn)而研究統(tǒng)計(jì)方法,成為一門方法論的科學(xué)。即統(tǒng)計(jì)學(xué)是研究如何搜集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)的一門方法論科學(xué)。
從本質(zhì)上看,統(tǒng)計(jì)工作的核心就是數(shù)據(jù)(或者信息)的采集、分析和處理,正如的不列顛百科全書將統(tǒng)計(jì)定義為“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“統(tǒng)計(jì):收集、分析、表述和解釋數(shù)據(jù)”
三、數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的比較
數(shù)據(jù)挖掘來源于統(tǒng)計(jì)分析,而又不同于統(tǒng)計(jì)分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計(jì)分析方法的擴(kuò)展和延伸。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,其預(yù)測的程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計(jì)算機(jī)能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計(jì)算算法的產(chǎn)生如神經(jīng)網(wǎng)絡(luò)、決策樹使人們不需了解到其內(nèi)部復(fù)雜的原理也可以通過這些方法獲得良好的分析和預(yù)測效果。
由于數(shù)據(jù)挖掘和統(tǒng)計(jì)分析根深蒂固的聯(lián)系,通常的數(shù)據(jù)挖掘工具都能夠通過可選件或自身提供統(tǒng)計(jì)分析功能。這些功能對于數(shù)據(jù)挖掘的前期數(shù)據(jù)探索和數(shù)據(jù)挖掘之后對數(shù)據(jù)進(jìn)行總結(jié)和分析都是十分必要的。統(tǒng)計(jì)分析所提供的諸如方差分析、假設(shè)檢驗(yàn)、相關(guān)性分析、線性預(yù)測、時間序列分析等功能都有助于數(shù)據(jù)挖掘前期對數(shù)據(jù)進(jìn)行探索,發(fā)現(xiàn)數(shù)據(jù)挖掘的題目、找出數(shù)據(jù)挖掘的目標(biāo)、確定數(shù)據(jù)挖掘所需涉及的變量、對數(shù)據(jù)源進(jìn)行抽樣等等。所有這些前期工作對數(shù)據(jù)挖掘的效果產(chǎn)生重大影響。而數(shù)據(jù)挖掘的結(jié)果也需要統(tǒng)計(jì)分析的描述功能(較大值、最小值、平均值、方差、四分位、個數(shù)、概率分配)進(jìn)行具體描述,使數(shù)據(jù)挖掘的結(jié)果能夠被用戶了解。因此,統(tǒng)計(jì)分析和數(shù)據(jù)挖掘是相輔相成的過程,兩者的合理配合是數(shù)據(jù)挖掘成功的重要條件。
四、小結(jié)
數(shù)據(jù)挖掘理論與技術(shù)的產(chǎn)生,促進(jìn)了統(tǒng)計(jì)學(xué)發(fā)展的同時,也提出了更多的挑戰(zhàn)。如何更好地使用數(shù)據(jù)挖掘和統(tǒng)計(jì)為解決社會實(shí)際問題做出貢獻(xiàn),是統(tǒng)計(jì)學(xué)家和數(shù)據(jù)挖掘研究者共同關(guān)心的話題。數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)應(yīng)該相互學(xué)習(xí)和滲透,各自分工,協(xié)同工作,共同為挖掘隱藏在復(fù)雜現(xiàn)象背后的有價值的知識貢獻(xiàn)力量。
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)研究中的熱點(diǎn)問題剖析
摘要:新興科學(xué)技術(shù)的發(fā)展帶領(lǐng)我們進(jìn)入數(shù)據(jù)大時代的環(huán)境中,大數(shù)據(jù)如“一口新興石油”,一定會引領(lǐng)科技和經(jīng)濟(jì)的大發(fā)展。我們了解大數(shù)據(jù)需要一定的時間,大數(shù)據(jù)的研究對于我們有非常重要的意義,可能會激發(fā)出一個新興的產(chǎn)業(yè),我們應(yīng)該將大數(shù)據(jù)的研究上升為國家的呼聲和意志,以舉國之力來研究它,發(fā)展它。本文就從大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)的價值和意義出發(fā),談一談在大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)研究中的幾個熱點(diǎn)問題。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);重構(gòu)研究
引言
進(jìn)入21世紀(jì)以來,科學(xué)技術(shù)尤其是互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的迅猛發(fā)展,促使大數(shù)據(jù)時代快速到來,大數(shù)據(jù)是堪比黃金石油的致富新思路,會給社會方方面面帶來很深遠(yuǎn)的影響和變化,在生活中,農(nóng)業(yè)工業(yè)等很多領(lǐng)域都會運(yùn)用到統(tǒng)計(jì)學(xué),統(tǒng)計(jì)學(xué)之于現(xiàn)代社會有著較為重要的意義,因此,在這種情況下,對大數(shù)據(jù)時代背景下統(tǒng)計(jì)學(xué)重構(gòu)進(jìn)行研究是非常必要也是非常重要的。
一、大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)的價值與意義
1.是前沿科研領(lǐng)域
伴隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)時代科研的進(jìn)步會帶來很多領(lǐng)域的發(fā)展和超多超復(fù)雜的數(shù)據(jù),面對這樣的挑戰(zhàn),我們應(yīng)該不斷增強(qiáng)自身獲取信息的能力,就統(tǒng)計(jì)學(xué)而言,這門學(xué)科應(yīng)該具有分析這些龐大數(shù)據(jù)的能力,并且通過分析能夠研發(fā)出合理的分析工具以及相應(yīng)的分析研究理論,來通過科學(xué)的理論解決一些更為前沿、復(fù)雜的現(xiàn)實(shí)問題[1]。顯而易見,當(dāng)前很多造詣深厚的學(xué)者都將研究領(lǐng)域轉(zhuǎn)向了數(shù)據(jù)分析上來。
2.是交叉科研領(lǐng)域
統(tǒng)計(jì)學(xué)是一個與眾多學(xué)科都有交叉的一個學(xué)科,比如與數(shù)學(xué)有交叉關(guān)系,與經(jīng)驗(yàn)科學(xué)如天文學(xué)中假設(shè)估計(jì)參數(shù)有關(guān)系。在現(xiàn)代社會,統(tǒng)計(jì)學(xué)的使用已經(jīng)不止局限在政府或者國家事務(wù)中使用,而將應(yīng)用領(lǐng)域延伸到了商業(yè)、社會科學(xué)以及自然科學(xué)中來,由于統(tǒng)計(jì)學(xué)具有廣泛的應(yīng)用性和深厚的歷史,因此,它不只是與數(shù)學(xué)有親密的關(guān)系,更是與數(shù)學(xué)本身的哲學(xué)有著親密的聯(lián)系。伴隨著領(lǐng)域的增多和數(shù)據(jù)的復(fù)雜程度的加重,統(tǒng)計(jì)學(xué)家一直進(jìn)行著跨領(lǐng)域、跨學(xué)科的研究,隨著研究數(shù)據(jù)的不斷增多,所研究的領(lǐng)域也在不斷拓寬,統(tǒng)計(jì)學(xué)家面臨著越來越多的機(jī)遇,統(tǒng)計(jì)學(xué)的發(fā)展也面臨著越來越多的機(jī)遇,同時,統(tǒng)計(jì)學(xué)的發(fā)展也推動著很多前沿科學(xué)的發(fā)展。
3.具有非常重大的意義
我們可以在進(jìn)行統(tǒng)計(jì)學(xué)研究時形成一套完整的統(tǒng)計(jì)學(xué)研究理論和方法,推動大數(shù)據(jù)時代多元復(fù)雜數(shù)據(jù)分析朝著國際化方向發(fā)展;可以將數(shù)據(jù)化研究理論成果運(yùn)用到經(jīng)濟(jì)和社會發(fā)展中去,比如可以運(yùn)用在金融風(fēng)險管理與控制上;還有很多金融領(lǐng)域的人運(yùn)用大數(shù)據(jù)分析可以挖掘出市場信息,據(jù)此判斷市場走勢,會獲得高收益,這些都是大數(shù)據(jù)時代中統(tǒng)計(jì)學(xué)在發(fā)揮作用[2]。
4.搶占制高點(diǎn)
國外很多研究表明,大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)工程需要從各個領(lǐng)域挖掘有用的信息,并將這些信息融合,提取出有用的因素,發(fā)展相應(yīng)的研究理論。目前,已經(jīng)有很多研究結(jié)果表明,現(xiàn)如今的大數(shù)據(jù)研究方法和理論已經(jīng)相對成熟,我們應(yīng)該牢牢把握住這次機(jī)會,不畏挑戰(zhàn),迎難而上,盡快研究出具有獨(dú)立知識產(chǎn)權(quán)、具有創(chuàng)新性的數(shù)據(jù)分析理論和軟件,為我國的數(shù)據(jù)分析發(fā)展提供動力。
二、大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)重構(gòu)的熱點(diǎn)問題研究
1.大數(shù)據(jù)統(tǒng)計(jì)學(xué)的理論和方法
過去的統(tǒng)計(jì)主要將重心放在概率分布的指數(shù)族方面,在上世紀(jì)70年代以來,指數(shù)族分布研究及其在高維貝葉斯和像圖模型的應(yīng)用中的研究居多,我們知道,由于指數(shù)族包括了所有已知概率的分布,因此,指數(shù)組的應(yīng)用十分廣泛,它是統(tǒng)計(jì)學(xué)的核心,并且在概率論方面的作用也在不斷加強(qiáng)。這一研究方向旨在運(yùn)用指數(shù)族來對龐大的數(shù)據(jù)進(jìn)行初步的簡化,利用Bootstrap方法對大多數(shù)統(tǒng)計(jì)和概率方面的貝葉斯數(shù)據(jù)進(jìn)行應(yīng)用[3]。
2.大數(shù)據(jù)數(shù)據(jù)建模
隨著大數(shù)據(jù)的不斷變化和發(fā)展,線上算法被研究出來,大數(shù)據(jù)的形式多種多樣,因?yàn)槎鄻踊膽?yīng)用、龐大的數(shù)據(jù)和針對大數(shù)據(jù)所開發(fā)的技術(shù),這項(xiàng)研究會產(chǎn)生深遠(yuǎn)廣泛的影響。該研究的方向是將數(shù)據(jù)建模相應(yīng)的領(lǐng)域進(jìn)行推廣,將這些數(shù)據(jù)能夠統(tǒng)一運(yùn)用在大數(shù)據(jù)中,運(yùn)用理論和公式對實(shí)際應(yīng)用進(jìn)行輔助。
3.并行迭代蒙特卡羅方法
日常生活和科學(xué)研究與計(jì)算機(jī)技術(shù)的結(jié)合讓大數(shù)據(jù)的收集不再是幻想,要想分析這些數(shù)據(jù),要運(yùn)用并行和分布結(jié)構(gòu)。并行和分布結(jié)構(gòu)是擁有存儲和處理大數(shù)據(jù)功能的,但是目前的技術(shù)還不能將現(xiàn)代的統(tǒng)計(jì)算法應(yīng)用到大數(shù)據(jù)中去,并且在日益增多的數(shù)據(jù)中,我需要更加復(fù)雜的結(jié)構(gòu)和模型來進(jìn)行解釋。盡管迭代蒙特卡羅方法已經(jīng)被相關(guān)研究證明是非常強(qiáng)大的,但是它仍然不能夠用于大數(shù)據(jù)的分析,該研究旨在將迭代蒙特卡羅方法融入到一個通用理論中去發(fā)展,另其適應(yīng)大數(shù)據(jù)的發(fā)展環(huán)境,并且讓其也能夠適用并行和分布結(jié)構(gòu),即從并列的樣本中算出蒙特卡羅值,一這個數(shù)值來近似最初需要的數(shù)據(jù)量,這個理論能夠有效避免在算法迭代中的重復(fù)掃描數(shù)據(jù)問題,與此同時,這一算法的應(yīng)用也可以另數(shù)據(jù)研究中的問題得出具有統(tǒng)計(jì)學(xué)意義的解[4]。
三、結(jié)語
大數(shù)據(jù)時代下統(tǒng)計(jì)質(zhì)量得到提高,統(tǒng)計(jì)成本降低,統(tǒng)計(jì)學(xué)發(fā)揮作用的領(lǐng)域增多,并且讓統(tǒng)計(jì)學(xué)能夠發(fā)展延伸,提高了統(tǒng)計(jì)學(xué)的地位,面對統(tǒng)計(jì)學(xué)發(fā)展過程中可能遇見的問題,要通過大數(shù)據(jù)的時代背景,順應(yīng)當(dāng)今的發(fā)展潮流,不斷進(jìn)行思維和技術(shù)上的進(jìn)步與提升。
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)科建設(shè)與教學(xué)改革的幾點(diǎn)思考
[摘 要]大數(shù)據(jù)時代的來臨給統(tǒng)計(jì)學(xué)科建設(shè)與教學(xué)帶來了不小的挑戰(zhàn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)科在認(rèn)知水平、技術(shù)手段、內(nèi)容框架等方面均需要進(jìn)行革新。在回顧統(tǒng)計(jì)學(xué)科發(fā)展歷史沿革以及大數(shù)據(jù)時代數(shù)據(jù)特征的基礎(chǔ)上,對新時代下統(tǒng)計(jì)學(xué)科面臨的傳統(tǒng)統(tǒng)計(jì)手段的不適應(yīng)性、傳統(tǒng)統(tǒng)計(jì)學(xué)科框架不能滿足時代要求、統(tǒng)計(jì)學(xué)專業(yè)設(shè)置與社會需求脫節(jié)和統(tǒng)計(jì)學(xué)師資隊(duì)伍建設(shè)不夠完善等問題進(jìn)行闡述,可以得出相應(yīng)的對策。
[關(guān)鍵詞]統(tǒng)計(jì)學(xué);大數(shù)據(jù)時代;學(xué)科建設(shè);教學(xué)改革
21世紀(jì)是一個信息化的時代,尤其在2012年之后,大數(shù)據(jù)逐漸進(jìn)入尋常百姓的生活,并深刻影響著這個時代的變革。大數(shù)據(jù)時代下海量數(shù)據(jù)所隱藏著的巨大價值不可小覷。因此,如何應(yīng)用、分析、挖掘數(shù)據(jù)背后的隱含知識、潛在規(guī)律成為各個領(lǐng)域所關(guān)注的熱點(diǎn)話題,統(tǒng)計(jì)學(xué)科的重要性不斷彰顯。早在2011年2月,國務(wù)院學(xué)位委員會就將統(tǒng)計(jì)學(xué)科設(shè)為一級學(xué)科[1],改變了統(tǒng)計(jì)學(xué)科被分別安放在經(jīng)濟(jì)學(xué)門類和理學(xué)門類下的歷史局面,從此終結(jié)了統(tǒng)計(jì)學(xué)究竟是應(yīng)用經(jīng)濟(jì)學(xué)范疇還是概率論與數(shù)理統(tǒng)計(jì)學(xué)范疇的各種爭論。如今的統(tǒng)計(jì)學(xué),就是關(guān)于數(shù)據(jù)科學(xué)的學(xué)科,在理學(xué)門類之下理學(xué)學(xué)位和經(jīng)濟(jì)學(xué)學(xué)位均可授予。站在大數(shù)據(jù)時代的風(fēng)口浪尖,在統(tǒng)計(jì)學(xué)科成為一級學(xué)科的歷史背景下,統(tǒng)計(jì)學(xué)在全國各個院校的發(fā)展如火如荼。但如何讓統(tǒng)計(jì)學(xué)科適應(yīng)大數(shù)據(jù)的時代要求,如何培養(yǎng)勝任各種數(shù)據(jù)挖掘能力的人才,是奮斗在統(tǒng)計(jì)學(xué)教育一線同仁們所必須面對的問題。
一、傳統(tǒng)統(tǒng)計(jì)學(xué)的發(fā)展歷史
統(tǒng)計(jì)學(xué)源于實(shí)踐與應(yīng)用,當(dāng)人類開始從事生產(chǎn)勞動以來,統(tǒng)計(jì)學(xué)就慢慢建立和發(fā)展起來。在西方,一般認(rèn)為統(tǒng)計(jì)學(xué)始于古希臘時期的亞里士多德時代,并在此后開枝散葉。而中國也是世界上最早進(jìn)行統(tǒng)計(jì)活動的國家,具有國際公認(rèn)的最早的統(tǒng)計(jì)史料,但先秦之后發(fā)展緩慢,未成氣候。1930年,中國統(tǒng)計(jì)學(xué)會成立,這是中國最早的統(tǒng)計(jì)學(xué)研究群體。
此后統(tǒng)計(jì)學(xué)的發(fā)展大致分為以下幾個階段:1.蘇聯(lián)模式模仿期。新中國成立后,我國在經(jīng)濟(jì)模式上采用了計(jì)劃經(jīng)濟(jì)體制,同時也引入了蘇聯(lián)的馬克思統(tǒng)計(jì)理論與模式。在這種模式之下,統(tǒng)計(jì)學(xué)僅僅是計(jì)劃經(jīng)濟(jì)制度的專屬工具,其抑制了數(shù)理統(tǒng)計(jì)學(xué)派的發(fā)展。因此,這個階段下的中國統(tǒng)計(jì)學(xué)發(fā)展逐漸喪失活力,未能與西方統(tǒng)計(jì)學(xué)的主流研究方向接軌。2.改革開放時期的再認(rèn)識。隨著我國改革開放的不斷深入,不斷涌現(xiàn)的新事物導(dǎo)致傳統(tǒng)模式下的蘇聯(lián)統(tǒng)計(jì)理論與我國實(shí)踐工作形成不可避免的矛盾,依附于計(jì)劃經(jīng)濟(jì)的統(tǒng)計(jì)學(xué)逐漸喪失生命力,這一現(xiàn)象引起了我國學(xué)者的反思。在這種背景下,歐美體系下的統(tǒng)計(jì)學(xué)逐步進(jìn)入中國市場,并引發(fā)了一場關(guān)于統(tǒng)計(jì)學(xué)科建設(shè)的學(xué)術(shù)爭鳴。3.20世紀(jì)90年代的“大統(tǒng)計(jì)”思想。隨著我國改革開放的不斷深化,統(tǒng)計(jì)學(xué)在社會經(jīng)濟(jì)統(tǒng)計(jì)學(xué)和數(shù)理統(tǒng)計(jì)學(xué)兩個方面蓬勃發(fā)展起來。于是“大統(tǒng)計(jì)”的提法日漸增多,20世紀(jì)90年代尤其是20世o90年代中后期有關(guān)統(tǒng)計(jì)學(xué)發(fā)展的文獻(xiàn),都在討論統(tǒng)計(jì)學(xué)的融合與構(gòu)建問題。“大統(tǒng)計(jì)”思想是對傳統(tǒng)認(rèn)識局限的一次突破,它為中國統(tǒng)計(jì)學(xué)在下一個世紀(jì)的發(fā)展提供了理論前提。4.大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)的新機(jī)遇。從上述3個階段可以看出,統(tǒng)計(jì)學(xué)的發(fā)展與其時代背景息息相關(guān)。進(jìn)入21世紀(jì)以來,在大數(shù)據(jù)的時代背景下,統(tǒng)計(jì)學(xué)在學(xué)科建設(shè)與教學(xué)改革方面該有怎樣的側(cè)重和突破,這正是身處這個時代的統(tǒng)計(jì)學(xué)人應(yīng)該思考的問題。要對這個問題進(jìn)行剖析,必須了解這個時代的數(shù)據(jù)特點(diǎn)。
二、大數(shù)據(jù)時代的數(shù)據(jù)特征
在20世紀(jì)90年代,信息化開疆拓土給數(shù)據(jù)的產(chǎn)生帶來了指數(shù)級的增長模式,這一現(xiàn)象就曾引起美國社會的廣泛討論和研究。進(jìn)入21世紀(jì)以來,社會高速發(fā)展、信息飛速流通、科技不斷進(jìn)步,這使得“大數(shù)據(jù)時代”呼之欲出。2012年,由維克托?邁爾-舍恩伯格 (Viktor Mayer?鄄Sch?inberger)和肯尼思?庫克耶 (Kenneth Cukier)聯(lián)合編著的《大數(shù)據(jù)時代:生活、工作與思維的大變革》給社會帶來了不小的反響,學(xué)術(shù)界也逐漸摩拳擦掌地迎接大數(shù)據(jù)時代的來臨。[2]
著名的4V理論有效揭示了大數(shù)據(jù)的主要特征。[3]1.Volume:海量的數(shù)據(jù)規(guī)模。在當(dāng)下社會,每一分每一秒都伴隨著大量數(shù)據(jù)的產(chǎn)生,由于數(shù)據(jù)的驅(qū)動性,現(xiàn)在的數(shù)據(jù)量已經(jīng)不再是傳統(tǒng)的TB、PB級別,其早已經(jīng)擴(kuò)展到EB、ZB乃至更高的級別。2.Velocity:快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系。在一個瞬息萬變的社會中,數(shù)據(jù)是一種流動的狀態(tài),大量數(shù)據(jù)可以隨時隨地產(chǎn)生并改變,這種動態(tài)性給統(tǒng)計(jì)分析帶來了巨大的挑戰(zhàn)。3.Vari?鄄ety:多樣的數(shù)據(jù)類型。大數(shù)據(jù)不但具有動態(tài)性,還具有多樣性。數(shù)據(jù)形式包括:文本數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、行為數(shù)據(jù)、圖片數(shù)據(jù)、聲音數(shù)據(jù)、多媒體數(shù)據(jù)等各種各樣的數(shù)據(jù)形態(tài)。4.Value:巨大的數(shù)據(jù)價值。曾經(jīng)有人把Data mining稱為數(shù)據(jù)采礦,倘若在傳統(tǒng)的數(shù)據(jù)模式下數(shù)據(jù)都蘊(yùn)含著豐富的“礦藏”,那么大數(shù)據(jù)時代下的數(shù)據(jù)價值則是我們難以想象的。正因?yàn)閿?shù)據(jù)擁有巨大的價值,這才使我們有了進(jìn)一步分析處理的動力。
大數(shù)據(jù)時代下的數(shù)據(jù)特征給傳統(tǒng)統(tǒng)計(jì)學(xué)帶來了不小的沖擊。作為一門處理、分析數(shù)據(jù)的學(xué)科,在新時代下必須認(rèn)清統(tǒng)計(jì)學(xué)科所面臨的問題,這樣才能有的放矢地進(jìn)行革新,采用新的技術(shù)手段駕馭新時代的數(shù)據(jù),為社會進(jìn)步做出應(yīng)有的貢獻(xiàn)。
三、新時代下統(tǒng)計(jì)學(xué)科面臨的問題
(一)傳統(tǒng)統(tǒng)計(jì)手段的不適應(yīng)性
傳統(tǒng)的統(tǒng)計(jì)思維模式基本是以問題為導(dǎo)向,確立要研究的問題之后,再著手獲取數(shù)據(jù)。國家統(tǒng)計(jì)局所開展的數(shù)據(jù)普查和抽樣調(diào)查都是基于這種模式。對于數(shù)據(jù)索取能力較弱的科研院所或個人而言,其沒有能力進(jìn)行大規(guī)模抽樣調(diào)查的能力,一般是通過各種官方數(shù)據(jù)庫獲取數(shù)據(jù)用以科學(xué)研究。但用傳統(tǒng)抽樣調(diào)查手段所獲取的數(shù)據(jù),是用樣本估計(jì)總體的思路進(jìn)行,倘若調(diào)查方案設(shè)計(jì)合理、操作得當(dāng),誤差可以控制在允許范圍之內(nèi),這不失為一種良好的統(tǒng)計(jì)手段。但在大數(shù)據(jù)時代下,不僅難以有效地抽取數(shù)據(jù),而且沒有簡潔有效的技術(shù)手段對數(shù)據(jù)進(jìn)行分析,這給抽樣調(diào)查帶來了不小的麻煩,其省時省力的優(yōu)勢也不復(fù)存在。類似的問題在傳統(tǒng)統(tǒng)計(jì)方法的發(fā)展中依然存在。因此,需要緊貼時代背景,建立一套適用于當(dāng)下的統(tǒng)計(jì)分析模式,以便更加科學(xué)高效地開展統(tǒng)計(jì)分析工作。
(二)傳統(tǒng)統(tǒng)計(jì)學(xué)科框架不能滿足時代要求
統(tǒng)計(jì)學(xué)是從大量實(shí)踐經(jīng)驗(yàn)中所逐漸發(fā)展形成的一門對數(shù)據(jù)進(jìn)行搜集、處理、分析的學(xué)科。統(tǒng)計(jì)學(xué)的產(chǎn)生與數(shù)據(jù)有著不解之緣,因此,有關(guān)大數(shù)據(jù)的處理必然離不開統(tǒng)計(jì)理論和技術(shù)的支撐。但是,傳統(tǒng)的統(tǒng)計(jì)思想、分析手段以及分析設(shè)備等都無法滿足大數(shù)據(jù)時代的發(fā)展要求。在人類邁入新紀(jì)元以來,互聯(lián)網(wǎng)技術(shù)日臻成熟,社會信息化程度出現(xiàn)質(zhì)的飛躍,大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源源不斷地產(chǎn)生,人們對各種類型數(shù)據(jù)資源的潛在規(guī)律以及數(shù)據(jù)回報價值都有迫切的需求。[4]這要求統(tǒng)計(jì)學(xué)有一套完整的學(xué)科框架體系去駕馭大數(shù)據(jù),具備對海量非結(jié)構(gòu)化、半結(jié)構(gòu)化、實(shí)時性數(shù)據(jù)等的有效分析能力。而大數(shù)據(jù)時代下的數(shù)據(jù)分析工作,已經(jīng)從根本上打破了傳統(tǒng)統(tǒng)計(jì)學(xué)科的框架。
(三)統(tǒng)計(jì)學(xué)專業(yè)設(shè)置與社會需求脫節(jié)
當(dāng)前統(tǒng)計(jì)學(xué)學(xué)生的培養(yǎng)方式雖然逐漸向應(yīng)用層面傾斜,但形式與內(nèi)容相對老套。在這種模式下,理論模型的建立、參數(shù)估計(jì)的方法、一些統(tǒng)計(jì)量的檢驗(yàn)等都得到了足夠的重視,但學(xué)生對這些問題的認(rèn)識很可能還停留在表面。雖然部分課程安排有上機(jī)實(shí)踐操作,但由于數(shù)據(jù)局限性等原因,其所帶來的案例相對老舊、與時代脫節(jié)的情況時有發(fā)生。這導(dǎo)致學(xué)生不能很好地學(xué)以致用。另外,大數(shù)據(jù)時代下的統(tǒng)計(jì)分析工作,由于數(shù)據(jù)的海量性、動態(tài)性等特點(diǎn),工作量相對較大,需要團(tuán)隊(duì)的分工協(xié)作才能很好地完成。而在我們?nèi)粘5慕虒W(xué)中,由于面向傳統(tǒng)的統(tǒng)計(jì)手段較多,學(xué)生基本都是個人完成案例,這種教學(xué)方式難以培養(yǎng)學(xué)生在數(shù)量搜集、處理、分析中的團(tuán)隊(duì)協(xié)作精神,而這種精神在學(xué)生今后的工作崗位中是應(yīng)該必備的。
(四)統(tǒng)計(jì)學(xué)師資隊(duì)伍建設(shè)不夠完善
由于統(tǒng)計(jì)學(xué)的蓬勃發(fā)展以及社會對統(tǒng)計(jì)學(xué)人才的迫切需求,各個院校紛紛成立(或籌備成立)統(tǒng)計(jì)學(xué)院,導(dǎo)致統(tǒng)計(jì)學(xué)教師相對緊缺。在教資力量相對不夠充足的情況下,統(tǒng)計(jì)學(xué)科依然面臨一個嚴(yán)峻的問題。這個問題就是在現(xiàn)有的教師隊(duì)伍中,大部分教師接受的均是傳統(tǒng)統(tǒng)計(jì)理論方法的訓(xùn)練,專業(yè)和研究成果也都偏向于經(jīng)濟(jì)統(tǒng)計(jì)、數(shù)理統(tǒng)計(jì)的傳統(tǒng)模型、實(shí)證分析等方面。在傳統(tǒng)領(lǐng)域,大部分教師具備教學(xué)與科研的經(jīng)驗(yàn),具有相當(dāng)深厚的功底及心得。但是在大數(shù)據(jù)領(lǐng)域、有關(guān)大數(shù)據(jù)的清洗、降維、處理、可視化;云計(jì)算、云平臺、分布式計(jì)算、并行計(jì)算的hadoop、Spark、MapReduce等有關(guān)大數(shù)據(jù)的挖掘理論和技能方面,則出現(xiàn)斷層。對于絕大多數(shù)教師而言,這也是一個相對陌生的領(lǐng)域。因此,這引發(fā)了統(tǒng)計(jì)學(xué)師資隊(duì)伍知識結(jié)構(gòu)不完善的問題。
四、解決新時代下統(tǒng)計(jì)學(xué)面臨問題的對策
(一)針對新問題,尋找新的統(tǒng)計(jì)技術(shù)手段
大數(shù)據(jù)時代下,數(shù)據(jù)量巨大、數(shù)據(jù)信息瞬息萬變、數(shù)據(jù)類型多種多樣,數(shù)據(jù)結(jié)構(gòu)也由原來單一的結(jié)構(gòu)化數(shù)據(jù)變?yōu)榉墙Y(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)模式。面對新的問題,對于海量數(shù)據(jù)的存儲、清洗、數(shù)據(jù)挖掘、知識呈現(xiàn)、數(shù)據(jù)傳輸、管理等各個方面都需要有新的技術(shù)手段加入。[5]因此,我們需要從各個細(xì)小的環(huán)節(jié)入手,從而形成一個完備統(tǒng)一的處理大數(shù)據(jù)問題的新模式和新框架。這個過程需要其他領(lǐng)域?qū)I(yè)人員的支持和協(xié)作,其中包括計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、信息學(xué)、管理學(xué)等。1.數(shù)據(jù)獲取階段。數(shù)據(jù)獲取的途徑有很多,不應(yīng)再拘泥于過去翻閱式的查找和抽樣調(diào)查。由于大部分?jǐn)?shù)據(jù)均產(chǎn)生于互聯(lián)網(wǎng),因此我們不得不通過爬蟲技術(shù)對所需數(shù)據(jù)進(jìn)行爬取,從而獲得海量的一手?jǐn)?shù)據(jù)。2.數(shù)據(jù)清洗、降噪、降維等預(yù)處理階段。這一階段是大數(shù)據(jù)分析的開始,任何一種分析都不能離開有效的數(shù)據(jù)而進(jìn)行,對原始數(shù)據(jù)的整理、清洗等工作直接影響到后續(xù)統(tǒng)計(jì)分析的有效性和科學(xué)性。3.數(shù)據(jù)挖掘、知識發(fā)現(xiàn)。這是整個數(shù)據(jù)分析中最為關(guān)鍵的環(huán)節(jié),是整個分析的核心所在。在此需要強(qiáng)調(diào)的是,并非在大數(shù)據(jù)時代所有的傳統(tǒng)統(tǒng)計(jì)方法都不可使用。當(dāng)經(jīng)過數(shù)據(jù)預(yù)處理、把數(shù)據(jù)轉(zhuǎn)出化成傳統(tǒng)數(shù)據(jù)模式之后,傳統(tǒng)統(tǒng)計(jì)分析方法依然有其用武之地,且傳統(tǒng)統(tǒng)計(jì)分析方法當(dāng)中寶貴的統(tǒng)計(jì)思維模式和統(tǒng)計(jì)視野也是我們解決大數(shù)據(jù)問題的智庫。因此,對于傳統(tǒng)統(tǒng)計(jì)分析方法要給予足夠的重視,其在大數(shù)據(jù)時代也有廣闊的舞臺。我們要在繼承的基礎(chǔ)上,進(jìn)行改進(jìn)、創(chuàng)新和發(fā)揚(yáng)。
(二)系統(tǒng)性調(diào)整統(tǒng)計(jì)學(xué)科框架,以適應(yīng)時展
在大數(shù)據(jù)時代下,統(tǒng)計(jì)學(xué)同樣需要加入信息化的過程。雖然大數(shù)據(jù)與統(tǒng)計(jì)學(xué)有著千絲萬縷的聯(lián)系,但是由于面對的數(shù)據(jù)類型、對象等的不同,傳統(tǒng)統(tǒng)計(jì)學(xué)的研究范式已經(jīng)不能適應(yīng)新時代的要求。這主要表現(xiàn)在以下幾方面:1.統(tǒng)計(jì)對象的改變。新時代下的統(tǒng)計(jì)數(shù)據(jù)從數(shù)量、結(jié)構(gòu)和類型上早已打破傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)概念。2.統(tǒng)計(jì)技術(shù)的改變。新時代下關(guān)于數(shù)據(jù)的搜集、整理、知識發(fā)現(xiàn)等數(shù)據(jù)處理手段相較于傳統(tǒng)的統(tǒng)計(jì)學(xué)科,已經(jīng)發(fā)生了巨大的變化。3.數(shù)據(jù)倉庫的建設(shè)和使用。關(guān)于海量數(shù)據(jù)的存儲、調(diào)取、傳輸、管理是在傳統(tǒng)統(tǒng)計(jì)學(xué)當(dāng)中較容易被忽視的環(huán)節(jié)。傳統(tǒng)統(tǒng)計(jì)學(xué)下的數(shù)據(jù)量較小,對其的存儲、傳輸和管理并不存在問題,但海量數(shù)據(jù)出現(xiàn)之后,這個話題則成為統(tǒng)計(jì)學(xué)需要重點(diǎn)研究的問題之一。因此,我們需要從更高的視野重新構(gòu)建統(tǒng)計(jì)學(xué)的學(xué)科框架,使其達(dá)到能駕馭大數(shù)據(jù)時代的目的,從而為人們的生產(chǎn)、生活提供科W有效地指導(dǎo)和幫助。首先,要從思想上打破對傳統(tǒng)統(tǒng)計(jì)學(xué)的認(rèn)識,將視野投放到更加廣闊的數(shù)據(jù)天地。客觀對待傳統(tǒng)統(tǒng)計(jì)學(xué)在社會發(fā)展中所出現(xiàn)的滯后性問題。其次,應(yīng)尋求多學(xué)科協(xié)作,信息資源共享。沒有任何一種單一的技術(shù)分析手段可以貫穿大數(shù)據(jù)分析的始終,它需要多種學(xué)科的交叉與融合。因此,統(tǒng)計(jì)學(xué)的學(xué)科框架不能故步自封,一定要兼容并蓄,這樣才有新活力。,統(tǒng)計(jì)學(xué)科框架的建設(shè)要體現(xiàn)出大數(shù)據(jù)時代的信息化。對信息的收集與爬取、清洗與降維、分析與挖掘、結(jié)果與展示等各個方面,都需要在傳承經(jīng)典的基礎(chǔ)上,進(jìn)行大膽地突破性改革。從而建設(shè)一個能夠在新歷史背景下解決新數(shù)據(jù)問題的學(xué)科,從而培養(yǎng)出適應(yīng)這個時展的統(tǒng)計(jì)分析人才。
(三)改良統(tǒng)計(jì)學(xué)科內(nèi)容設(shè)置,滿足新時代下的社會需求
關(guān)于統(tǒng)計(jì)學(xué)科的專業(yè)培養(yǎng)方案。目前,基于傳統(tǒng)統(tǒng)計(jì)學(xué)的模式,可以采取兩種統(tǒng)計(jì)方式進(jìn)行培養(yǎng)。這就是我們熟知的數(shù)理類和經(jīng)濟(jì)類,這兩類具有不同的側(cè)重點(diǎn)和學(xué)科背景。“大統(tǒng)計(jì)”思想的提出以及統(tǒng)計(jì)學(xué)一級學(xué)科的成立,終于可以讓統(tǒng)計(jì)學(xué)匯到統(tǒng)計(jì)學(xué)院或者統(tǒng)計(jì)系的框架下統(tǒng)一培養(yǎng)。由于西方主流統(tǒng)計(jì)學(xué)甚至經(jīng)濟(jì)學(xué),均注重?cái)?shù)理思維和能力,任何一個統(tǒng)計(jì)分析手段和經(jīng)濟(jì)模型都離不開數(shù)學(xué)推導(dǎo)、演算,因此,打好數(shù)理基礎(chǔ)成為我國統(tǒng)計(jì)學(xué)科建設(shè)的普遍共識。在本科生的培養(yǎng)方案中,就包含數(shù)學(xué)分析、高等代數(shù)等一系列數(shù)學(xué)思維培養(yǎng)的課程。但無論是本科生還是碩士生的教學(xué),都缺乏對大數(shù)據(jù)分析技能的培養(yǎng),未能迅速地緊跟時代,與社會需求相脫節(jié)。這一現(xiàn)象不利于學(xué)生就業(yè)。因此,亟須在教學(xué)內(nèi)容、方法和技術(shù)方面進(jìn)行改進(jìn)。1.在教學(xué)內(nèi)容方面,傳統(tǒng)的統(tǒng)計(jì)學(xué)科從概率論與數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)分析到統(tǒng)計(jì)學(xué)原理等都是基于結(jié)構(gòu)化的小量數(shù)據(jù)展開,關(guān)于非結(jié)構(gòu)化大數(shù)據(jù)的教學(xué)內(nèi)容缺失。因此,要注重培養(yǎng)學(xué)生對非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的處理分析能力;教師應(yīng)對原有課程進(jìn)行調(diào)整,減少重復(fù)內(nèi)容與重復(fù)教學(xué),加入與大數(shù)據(jù)相關(guān)的數(shù)學(xué)理論與軟件學(xué)習(xí)方面的新內(nèi)容。2.在教學(xué)方法方面,應(yīng)注重培養(yǎng)學(xué)生的動手能力和團(tuán)隊(duì)協(xié)作精神。傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)處理分析工作量相對較輕,個人可以獨(dú)立完成工作,但是在大數(shù)據(jù)模式下,分工與協(xié)作是必不可少的環(huán)節(jié)。因此,在培養(yǎng)學(xué)生實(shí)戰(zhàn)能力的同時,不能忽視團(tuán)隊(duì)協(xié)作能力的培養(yǎng)。3.在教學(xué)技術(shù)方面,要善于通過經(jīng)典案例寓教于樂,通過對實(shí)際問題的思考,培養(yǎng)學(xué)生對數(shù)據(jù)處理的熱情及其思維能力和實(shí)戰(zhàn)能力。有必要打破傳統(tǒng)的相對固化的授課模式,采用具有時代感的新鮮問題來激發(fā)學(xué)生的創(chuàng)新性思維,讓學(xué)生在解決實(shí)際問題的過程中對理論有更加深刻的認(rèn)識。
(四)加強(qiáng)統(tǒng)計(jì)學(xué)師資隊(duì)伍建,填補(bǔ)知識結(jié)構(gòu)的不均衡性
在y計(jì)學(xué)成為一級學(xué)科之前,我國高校的普遍做法是將數(shù)理統(tǒng)計(jì)專業(yè)放在數(shù)學(xué)學(xué)院,授予理學(xué)學(xué)士學(xué)位,把經(jīng)濟(jì)統(tǒng)計(jì)放在經(jīng)濟(jì)學(xué)院,授予經(jīng)濟(jì)學(xué)學(xué)位。這種模式對我國統(tǒng)計(jì)學(xué)教師隊(duì)伍的知識結(jié)構(gòu)產(chǎn)生了重要影響。統(tǒng)計(jì)學(xué)專業(yè)教師基本也都來源于這兩個領(lǐng)域:一個分支來自擅長數(shù)學(xué)模型、推導(dǎo)等數(shù)量關(guān)系的數(shù)理統(tǒng)計(jì)方面;另一個分支則是擅長經(jīng)濟(jì)理論、實(shí)證的經(jīng)濟(jì)統(tǒng)計(jì)方面。但互聯(lián)網(wǎng)技術(shù)之下應(yīng)運(yùn)而生的各種新信息和新問題,需要用新技術(shù)去解決,遺憾的是這方面的人才相對缺乏,這導(dǎo)致在大數(shù)據(jù)時代下教師隊(duì)伍知識結(jié)構(gòu)不完整。要解決這個問題,可以從兩個方面入手。首先,針對一些數(shù)學(xué)功底見長,對大數(shù)據(jù)分析感興趣的教師進(jìn)行內(nèi)部培訓(xùn)。鼓勵他們在全國乃至全球范圍內(nèi)參加有關(guān)大數(shù)據(jù)學(xué)科的培訓(xùn)、研討等學(xué)術(shù)交流活動,力求在短期內(nèi)培養(yǎng)一批在大數(shù)據(jù)方面有所專長的教師團(tuán)隊(duì),以彌補(bǔ)整個教師隊(duì)伍知識結(jié)構(gòu)的失衡問題。同時加強(qiáng)教師隊(duì)伍的自主學(xué)習(xí)和創(chuàng)新能力,保持他們對新事物、新方法的敏銳嗅覺。其次,在全國范圍內(nèi)著重關(guān)注相關(guān)培養(yǎng)單位的博士、博士后等潛在的教師力量。力爭將從事有關(guān)數(shù)據(jù)挖掘方向、大數(shù)據(jù)分析方向等具有一定大數(shù)據(jù)分析能力及實(shí)戰(zhàn)經(jīng)驗(yàn)的博士、博士后納入教師隊(duì)伍。此外,還要充分認(rèn)識到大數(shù)據(jù)分析工作的交叉性和協(xié)作性,它對計(jì)算機(jī)技術(shù)、數(shù)學(xué)理論方法等都有較高的要求;要著重引進(jìn)具有上述學(xué)科經(jīng)歷的復(fù)合背景人才,力爭將這些新鮮血液融入傳統(tǒng)的師資隊(duì)伍當(dāng)中,以改善教師知識結(jié)構(gòu)的不平衡問題,力爭建設(shè)一支專業(yè)結(jié)構(gòu)合理、學(xué)術(shù)素養(yǎng)良好、適應(yīng)能力強(qiáng)大的統(tǒng)計(jì)學(xué)教師隊(duì)伍。
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:淺析大數(shù)據(jù)時代對統(tǒng)計(jì)學(xué)的挑戰(zhàn)
【摘要】隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的不斷發(fā)展,讓我們迎來了大數(shù)據(jù)時代,為統(tǒng)計(jì)學(xué)帶來了發(fā)展機(jī)遇,但是也是統(tǒng)計(jì)學(xué)面臨著嚴(yán)峻的挑戰(zhàn)。本文主要針對大數(shù)據(jù)時代對于統(tǒng)計(jì)學(xué)的挑戰(zhàn)進(jìn)行論述,并且提出具體的改革策略,對于相關(guān)的研究提供理論基礎(chǔ)。
【關(guān)鍵詞】大數(shù)據(jù)時代 統(tǒng)計(jì)學(xué) 挑戰(zhàn)
二十一世紀(jì)屬于信息爆炸的年代,我們的生活當(dāng)中隨處都涉及到大數(shù)據(jù),例如圖書館、高校學(xué)生檔案管理、企業(yè)的財(cái)務(wù)數(shù)據(jù)等各個場所都擁有龐大的信息量。大數(shù)據(jù)不斷發(fā)展,給統(tǒng)計(jì)學(xué)帶來了挑戰(zhàn)和機(jī)遇,利用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,對于大數(shù)據(jù)的處理無法有效的利用,有關(guān)于大數(shù)據(jù)的各種處理需求無法得到滿足,處理大數(shù)據(jù)的基礎(chǔ)就是統(tǒng)計(jì)學(xué)。因此需要分析大數(shù)據(jù)影響下統(tǒng)計(jì)學(xué)面臨的各種挑戰(zhàn)進(jìn)行論述。
一、大數(shù)據(jù)時代給統(tǒng)計(jì)學(xué)帶來的挑戰(zhàn)
(一)對于教學(xué)內(nèi)容帶來的挑戰(zhàn)
針對統(tǒng)計(jì)學(xué)的專業(yè)教學(xué),主要包括概率論、數(shù)理統(tǒng)計(jì)、抽樣抽查等,其面臨的處理對象就是結(jié)構(gòu)化的數(shù)據(jù),但是卻不夠重視非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),也很少進(jìn)行利用。在大數(shù)據(jù)時代當(dāng)中,高端人士的對于數(shù)據(jù)處理提出了更高的要求,當(dāng)前的統(tǒng)計(jì)學(xué)內(nèi)容無法滿足含量數(shù)據(jù)研究和商業(yè)運(yùn)用的需求。實(shí)施統(tǒng)計(jì)學(xué)教學(xué)需要結(jié)合時展情況,核心內(nèi)容就是統(tǒng)計(jì)專業(yè)人士的各種現(xiàn)實(shí)需要,從而將其科目內(nèi)容進(jìn)行提升,適當(dāng)?shù)拈_設(shè)新的課程,這樣才可以滿足大數(shù)據(jù)時代的發(fā)展需求。
(二)對于教育方法提出的挑戰(zhàn)
我國長期利用的統(tǒng)計(jì)學(xué)教育模式的中心就是課堂教育,主要以教師的講解為主要內(nèi)容,理論知識的講解比較注重,但是實(shí)際應(yīng)用卻沒有重視,教師只是在講解理論知識,卻沒有培養(yǎng)學(xué)生的技能。利用的方式比較單一,而教學(xué)方法也比較單調(diào)。利用這樣的統(tǒng)計(jì)學(xué)教育方法對于大數(shù)據(jù)時代的要求無法得到滿足,無法培養(yǎng)人才的素養(yǎng),因此需要改革其教學(xué)方法。
(三)對于人才培養(yǎng)提出的挑戰(zhàn)
統(tǒng)計(jì)學(xué)教育方式面臨著重大的統(tǒng)計(jì)任務(wù),其主要內(nèi)容就是實(shí)現(xiàn)統(tǒng)計(jì)教育和研究人員,很多教師的綜合素養(yǎng)比較低,沒有研究專業(yè)之外的知識,更新實(shí)驗(yàn)室相關(guān)設(shè)施的速度比較慢,培養(yǎng)學(xué)生比較注重理論知識,形成的知識構(gòu)架的主要內(nèi)容就是數(shù)理認(rèn)知,對于其他領(lǐng)域的知識缺乏認(rèn)知,無法將實(shí)際困難進(jìn)行解決。在大數(shù)據(jù)時代,對于統(tǒng)計(jì)學(xué)人才提出了更高的要求,需要在海量的數(shù)據(jù)當(dāng)中將市場機(jī)遇進(jìn)行掌控,從而將其中的商業(yè)價值挖掘出來,從而可以將行業(yè)的內(nèi)在潛力進(jìn)行制造,具備探究精神。
二、大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)的改革策略
(一)提高統(tǒng)計(jì)人員的綜合素質(zhì)
在當(dāng)前大數(shù)據(jù)背景的影響下,統(tǒng)計(jì)學(xué)對于統(tǒng)計(jì)人員提出了更高的要求,統(tǒng)計(jì)人員需要具備良好的道德素質(zhì)和職業(yè)素質(zhì),這樣才可以更好的應(yīng)對大數(shù)據(jù)時代帶來的挑戰(zhàn)。企業(yè)需要定期開展崗位培訓(xùn)和思想道德教育,使統(tǒng)計(jì)人員的專業(yè)技能得到增強(qiáng),使統(tǒng)計(jì)人員的思想認(rèn)識進(jìn)行提高,使統(tǒng)計(jì)人員不斷學(xué)習(xí)新的統(tǒng)計(jì)知識,可以學(xué)會更多的統(tǒng)計(jì)方法,對于各種新型的統(tǒng)計(jì)工具的實(shí)際操作流程進(jìn)行熟練的掌握,企業(yè)應(yīng)該為統(tǒng)計(jì)人員提供良好的工作氛圍,從而的提升統(tǒng)計(jì)人員的素質(zhì)。針對學(xué)校的教育需要采取措施提升學(xué)生的素質(zhì),統(tǒng)計(jì)學(xué)專業(yè)課在實(shí)踐過程中,需要營造良好的學(xué)習(xí)氛圍,加強(qiáng)引導(dǎo)和教育學(xué)生,不斷學(xué)習(xí)統(tǒng)計(jì)學(xué)的專業(yè)課程,不斷掌握統(tǒng)計(jì)學(xué)的展業(yè)理論知識,使學(xué)生深入的認(rèn)識和理解統(tǒng)計(jì)學(xué),從而可以更好的和時代接軌,以社會的實(shí)際需求為基礎(chǔ),讓學(xué)生形成自主的意識,將自身素質(zhì)不斷提升。
(二)加強(qiáng)統(tǒng)計(jì)人員掌握新技術(shù)
在當(dāng)前的時代影響下,總是會出現(xiàn)各種新的數(shù)據(jù)處理技術(shù)和分析工具等等,利用這些新的處理工具和技術(shù),對于當(dāng)今的統(tǒng)計(jì)學(xué)來說這是一種挑戰(zhàn),因?yàn)榻y(tǒng)計(jì)人員不夠了解這些新的技術(shù)和工具,這些新的技術(shù)也不夠熟悉,但是可以有效利用這些新計(jì)劃,可以使統(tǒng)計(jì)學(xué)更好的適應(yīng)大數(shù)據(jù)時代的發(fā)展。這就需要統(tǒng)計(jì)人員了解這些新技術(shù)。在大數(shù)據(jù)的影響下,需要改革統(tǒng)計(jì)學(xué),重視培訓(xùn)統(tǒng)計(jì)人員的新技術(shù),加強(qiáng)統(tǒng)計(jì)人員掌握新技術(shù)。企業(yè)需要將各種新的數(shù)據(jù)處理技術(shù)和設(shè)備進(jìn)行引進(jìn),通過專題講座和實(shí)訓(xùn)的方式,為統(tǒng)計(jì)人員提供學(xué)習(xí)的平臺,使他們可以學(xué)習(xí)更多的數(shù)據(jù)處理技術(shù),從而可以對于大數(shù)據(jù)時代提供更好的服務(wù)。
(三)加強(qiáng)統(tǒng)計(jì)學(xué)課程教學(xué)改革
高職教育機(jī)構(gòu)需要做的哦啊與時俱進(jìn),大數(shù)時代不斷發(fā)展,統(tǒng)計(jì)學(xué)課程需要實(shí)現(xiàn)改革,將落后的教學(xué)理念和教學(xué)方式進(jìn)行拋棄,將統(tǒng)計(jì)學(xué)的相關(guān)設(shè)備設(shè)施進(jìn)行完善,使統(tǒng)計(jì)學(xué)的教學(xué)環(huán)境和教學(xué)條件進(jìn)行改善,將各種先進(jìn)的統(tǒng)計(jì)學(xué)教學(xué)方法進(jìn)行有效的引進(jìn),在實(shí)際改革的過程中,充分融合統(tǒng)計(jì)學(xué)教學(xué)內(nèi)容和大數(shù)據(jù)信息,協(xié)調(diào)統(tǒng)計(jì)學(xué)教學(xué)內(nèi)容和教學(xué)方法。改革統(tǒng)計(jì)學(xué)課程,不僅需要實(shí)現(xiàn)課程改革,還要實(shí)現(xiàn)教學(xué)改革,需要在課程和教學(xué)兩個方面進(jìn)行,從而使統(tǒng)計(jì)學(xué)更好的適應(yīng)大數(shù)據(jù)時代,將大數(shù)據(jù)時代帶來的各種挑戰(zhàn)進(jìn)行有效的應(yīng)對,更好的掌握大數(shù)據(jù)時代帶來的各種機(jī)遇。
改革統(tǒng)計(jì)學(xué)教學(xué),需要有效的整改課程教學(xué)模式和課程目標(biāo)以及課程結(jié)構(gòu)安排等,從而將課程結(jié)構(gòu)的合理性得到有效的提升,使課程目標(biāo)具備科學(xué)性,使課程內(nèi)容實(shí)現(xiàn)完整性,將統(tǒng)計(jì)學(xué)課程的重點(diǎn)內(nèi)容進(jìn)行突出。改革統(tǒng)計(jì)學(xué)內(nèi)容,需要提高教師自身的教學(xué)水平,將傳統(tǒng)的教學(xué)理念進(jìn)行轉(zhuǎn)變,從而利用新的教學(xué)方法和科學(xué)的教學(xué)模式,重視實(shí)訓(xùn)教學(xué),使學(xué)生的實(shí)踐操作能力得到有效的提高。
三、結(jié)束語
大數(shù)據(jù)和統(tǒng)計(jì)學(xué)在探究目標(biāo)。數(shù)據(jù)處理對象等各個方面具有一定的聯(lián)系,但是也具有一定的差異。大數(shù)據(jù)時展的速度不斷提高,沖擊了統(tǒng)計(jì)學(xué)的固定探究方式和價值觀念,統(tǒng)計(jì)學(xué)教育的教學(xué)結(jié)構(gòu)和教育方式等各個方面都帶來了各種挑戰(zhàn),要想對于大數(shù)據(jù)時代的發(fā)展潮流更好的適應(yīng),培育胡高素質(zhì)、適應(yīng)能力很強(qiáng)的統(tǒng)計(jì)專業(yè)人才,統(tǒng)計(jì)學(xué)教師和統(tǒng)計(jì)教育需要做到與時俱進(jìn),從而實(shí)現(xiàn)有效的調(diào)整和改革、
統(tǒng)計(jì)學(xué)數(shù)據(jù)論文:大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)教學(xué)改革的探討
摘 要:在當(dāng)今大數(shù)據(jù)背景下,統(tǒng)計(jì)學(xué)教學(xué)存在著諸多問題。本文首先梳理了傳統(tǒng)的統(tǒng)計(jì)教學(xué)過程中存在的問題,然后針對大數(shù)據(jù)時代需求的統(tǒng)計(jì)學(xué)人才的特點(diǎn),從教學(xué)體系、教學(xué)內(nèi)容等等方面來探討統(tǒng)計(jì)學(xué)教學(xué)改革,為各高校更好的培養(yǎng)適應(yīng)當(dāng)今社會發(fā)展的統(tǒng)計(jì)學(xué)人才提供思路。
關(guān)鍵詞:大數(shù)據(jù) 統(tǒng)計(jì)學(xué)教學(xué)改革 教學(xué)方法
當(dāng)今社會是信息爆炸的時代,隨著數(shù)據(jù)可獲得性的提高,數(shù)以海量級的數(shù)據(jù)有待于我們處理。作為一門處理分析數(shù)據(jù)的學(xué)科――統(tǒng)計(jì)學(xué),其教學(xué)面臨著諸多挑戰(zhàn),為了適應(yīng)當(dāng)今時代的需求,統(tǒng)計(jì)學(xué)課程的教學(xué)迫切需要進(jìn)行多方面的改革。那么如何改進(jìn)傳統(tǒng)的教學(xué)模式,培養(yǎng)出能夠適應(yīng)“大數(shù)據(jù)時代”需求的專業(yè)人才?是值得我們深思的問題,對該問題進(jìn)行探討具有深遠(yuǎn)的意義。本文從當(dāng)今社會人才需求方面,探討如何進(jìn)行改革,來尋求的教學(xué)模式和方法,來為社會輸送品質(zhì)的統(tǒng)計(jì)專業(yè)的畢業(yè)生。
1 傳統(tǒng)的統(tǒng)計(jì)教學(xué)中主要存在的問題
1.1 就教學(xué)內(nèi)容而言,偏重于理論
在大多數(shù)高校中,目前對于統(tǒng)計(jì)學(xué)課程的教學(xué)仍然是偏重于統(tǒng)計(jì)理論的講解,學(xué)生大多數(shù)是采用死記硬背或者習(xí)題訓(xùn)練的方式來掌握統(tǒng)計(jì)理論。雖然他們能夠記住統(tǒng)計(jì)理論或一些統(tǒng)計(jì)模型,但是卻無法將所學(xué)的知識應(yīng)用到實(shí)際中,來解決實(shí)際問題。學(xué)生不知道為什么要學(xué)習(xí)統(tǒng)計(jì)學(xué),學(xué)習(xí)該課程有何用途?因而很難提起學(xué)生們的學(xué)習(xí)興趣。學(xué)生往往在了解所學(xué)的內(nèi)容可以解決什么問題后,才會積極主動的去學(xué)習(xí),這便要求老師在課堂教學(xué)中,摒棄偏重于理論教學(xué)的枯燥教學(xué)模式,更多的拋出生動的實(shí)際問題,來調(diào)動學(xué)生的積極性。
1.2 統(tǒng)計(jì)教學(xué)過程中上C實(shí)驗(yàn)課較少
在目前的統(tǒng)計(jì)教學(xué)過程中,鑒于課程內(nèi)容較多,而教學(xué)課時量有限,這便使得上機(jī)實(shí)驗(yàn)課在課程中所占的比例較少,大多只有幾個學(xué)時的上機(jī)實(shí)驗(yàn)課。致使很多需要上機(jī)實(shí)踐的課程內(nèi)容無法實(shí)現(xiàn)。這非常的不利于學(xué)生現(xiàn)學(xué)現(xiàn)用, 而只能是讓學(xué)生簡單了解一下統(tǒng)計(jì)軟件的基本操作流程,這即利于學(xué)生掌握課堂知識,也不利于調(diào)動學(xué)生的學(xué)習(xí)積極性。
1.3相對于中國統(tǒng)計(jì)實(shí)踐的需求,統(tǒng)計(jì)教學(xué)的發(fā)展較為滯后
統(tǒng)計(jì)學(xué)是一門搜集、整理、分析數(shù)據(jù)的學(xué)科,學(xué)習(xí)統(tǒng)計(jì)學(xué)的目的是通過探索數(shù)據(jù)的內(nèi)在規(guī)律性,來客觀、科學(xué)的認(rèn)識客觀事物。統(tǒng)計(jì)數(shù)據(jù)源自于實(shí)踐,及時、、完整的統(tǒng)計(jì)數(shù)據(jù)是我們進(jìn)行統(tǒng)計(jì)分析的前提,否則,統(tǒng)計(jì)方法將無用武之地。隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,數(shù)據(jù)的可獲得性大大提高,我們已經(jīng)步入了大數(shù)據(jù)時代,此時,傳統(tǒng)的統(tǒng)計(jì)學(xué)理論或方法已不再使用,迫切需要在我們的教學(xué)過程中引入新的內(nèi)容來適應(yīng)時代的發(fā)展。但是,在統(tǒng)計(jì)學(xué)的教學(xué)過程中,教學(xué)內(nèi)容并沒有隨著社會的發(fā)展而有所變化,不僅如此,在統(tǒng)計(jì)學(xué)的教學(xué)案例中,大多數(shù)還是采用比較陳舊的數(shù)據(jù),并沒有及時更新數(shù)據(jù),數(shù)據(jù)質(zhì)量不高。
2 大數(shù)據(jù)時代對統(tǒng)計(jì)學(xué)教學(xué)改革的需求
在當(dāng)今大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為了一項(xiàng)非常重要的資源,它同礦產(chǎn)資源、石油資源等一樣的重要,并且數(shù)據(jù)資源有其特別之處是越用越多。大數(shù)據(jù)方面的人才在各國較為緊缺,在能夠做數(shù)據(jù)分析的人才里面,統(tǒng)計(jì)學(xué)專業(yè)有其獨(dú)特的優(yōu)勢,統(tǒng)計(jì)人才是數(shù)據(jù)分析的核心人才。這是我們統(tǒng)計(jì)的發(fā)展機(jī)遇,也是挑戰(zhàn)。因?yàn)閭鹘y(tǒng)的統(tǒng)計(jì)教學(xué)已經(jīng)不能夠適應(yīng)當(dāng)今社會對統(tǒng)計(jì)人才的需求。改革開放三十年來,我們的統(tǒng)計(jì)學(xué)教材并沒有隨著社會的變化而變化,教材已經(jīng)不能夠反映社會的需求,在我們的教材中有些部分花費(fèi)了很大的篇幅來介紹一些簡單的計(jì)算方法,但是,隨著計(jì)算機(jī)的普遍,這些方法,計(jì)算機(jī)一點(diǎn)就能夠解決。
有人說21世紀(jì)是統(tǒng)計(jì)的世紀(jì),這是一個很好的機(jī)遇,需要從事統(tǒng)計(jì)專業(yè)的老師和學(xué)生共同努力,主動的接受大數(shù)據(jù)的知識,加強(qiáng)計(jì)算機(jī)能力的培養(yǎng),拓寬視野,既能夠熟練的掌握計(jì)算機(jī),又能夠很好的運(yùn)用統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析,來適應(yīng)當(dāng)今社會的發(fā)展。
3 關(guān)于統(tǒng)計(jì)教學(xué)改革的思考
3.1 構(gòu)建集課堂、實(shí)驗(yàn)室和社會于一體的教學(xué)體系
學(xué)好統(tǒng)計(jì)學(xué)并不是一件易事,不僅需要掌握課堂上的理論知識,還需要步入社會去實(shí)地調(diào)查,獲得一手?jǐn)?shù)據(jù),得到數(shù)據(jù)后,進(jìn)一步需要我們到實(shí)驗(yàn)室去學(xué)習(xí)如何運(yùn)用統(tǒng)計(jì)軟件,進(jìn)行處理、分析數(shù)據(jù),從數(shù)據(jù)得到結(jié)論。因而,要達(dá)到較好的教學(xué)效果,便需要一個集課堂、社會和實(shí)驗(yàn)室于一體的完善教學(xué)體系。使得學(xué)生不僅掌握了基本的統(tǒng)計(jì)學(xué)理論知識,還能夠熟練運(yùn)用統(tǒng)計(jì)軟件和計(jì)算機(jī)系統(tǒng)來處理現(xiàn)實(shí)數(shù)據(jù),挖掘數(shù)據(jù)內(nèi)在的規(guī)律性,成為當(dāng)今社會需求的統(tǒng)計(jì)專業(yè)人才。
3.2 在教學(xué)過程中,加大教學(xué)案例所占的比例
在統(tǒng)計(jì)教學(xué)過程中,如果只偏重于理論教學(xué),無疑是枯燥、乏味的。如果我們可以適當(dāng)?shù)奶砑右恍┥鷦拥慕虒W(xué)案例,便會調(diào)動學(xué)生的學(xué)習(xí)積極性,使其能夠更好的理解課本上的內(nèi)容,也會提高學(xué)生的應(yīng)用能力,更清楚的明白所學(xué)內(nèi)容可以如何應(yīng)用。所以說案例在教學(xué)過程中非常的重要,好的案例不僅要能夠體現(xiàn)書本上的知識點(diǎn),還要考慮到所授學(xué)生的專業(yè)特點(diǎn),不斷的更新,有針對性的挑選一些好的案例,這有助于學(xué)生掌握如何運(yùn)用統(tǒng)計(jì)學(xué)知識來處理所學(xué)專業(yè)的問題,提高他們的學(xué)習(xí)積極性。
3.3 教學(xué)內(nèi)容上跟上大數(shù)據(jù)時代的需求
傳統(tǒng)的教學(xué)理念和方法所培養(yǎng)出來的統(tǒng)計(jì)人才,已經(jīng)不能夠很好的適應(yīng)大數(shù)據(jù)時代對人才的需求,當(dāng)今社會需要的是具有很好的動手能力、數(shù)據(jù)處理能力和學(xué)習(xí)能力的人才。
這便迫切需要我們不斷的調(diào)整教學(xué)理念和教學(xué)模式。一方面在統(tǒng)計(jì)教學(xué)過程中,在講授基礎(chǔ)知識的基礎(chǔ)之上,突出統(tǒng)計(jì)方法以及統(tǒng)計(jì)理論的應(yīng)用性,在授課過程中,幫助同學(xué)們樹立起大數(shù)據(jù)的統(tǒng)計(jì)思維。另一方面,在教學(xué)過程中,調(diào)整傳統(tǒng)的教學(xué)模式,盡可能的引入慕課、微課等新的教學(xué)方法,穿插一些有趣的案例,來不斷的激發(fā)學(xué)生的學(xué)習(xí)興趣。,統(tǒng)計(jì)學(xué)教師作為知識的傳授者,需要不斷的學(xué)習(xí),提高自身的大數(shù)據(jù)知識水平,才能夠更好的引導(dǎo)學(xué)生,帶領(lǐng)他們跟上時代的步伐。