引論:我們?yōu)槟砹?篇統(tǒng)計學數(shù)據(jù)論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)與統(tǒng)計學協(xié)同發(fā)展的思考分析
摘要:海量的數(shù)據(jù)已經(jīng)滲透了每個人的生活,以數(shù)據(jù)為研究對象的統(tǒng)計學應該以科學的態(tài)度迎接大數(shù)據(jù)浪潮,并積極思考如何把握這重要的發(fā)展機會。本文首先闡明大數(shù)據(jù)與統(tǒng)計學的密切關系,再從大數(shù)據(jù)時代下的非結構化數(shù)據(jù)與結構化數(shù)據(jù)、相關關系與因果關系,這兩個方面思考大數(shù)據(jù)與統(tǒng)計學的協(xié)同發(fā)展。
關鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學;
一、大數(shù)據(jù)與統(tǒng)計學
(一)大數(shù)據(jù)與統(tǒng)計學關系密切
簡單來說,我們可以分為兩個方面來理解大數(shù)據(jù):若“大數(shù)據(jù)”作為形容詞,則描述的是大數(shù)據(jù)時代數(shù)據(jù)的特點;若“大數(shù)據(jù)”作為名詞,則體現(xiàn)的是數(shù)據(jù)科學研究的對象。對大數(shù)據(jù)的定義有非常多,不同領域不同專業(yè)對大數(shù)據(jù)的界定都會有些許不同。通俗地說:大數(shù)據(jù)是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加。現(xiàn)代互聯(lián)網(wǎng)和信息技術的飛速發(fā)展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數(shù)據(jù),從中挖掘出有用的信息促進社會的發(fā)展。邁爾?舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析世界的渴望。而統(tǒng)計學正好是收集、整理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結論的科學。由此可見大數(shù)據(jù)與統(tǒng)計學關系密切,將大數(shù)據(jù)與統(tǒng)計學結合發(fā)展?jié)摿o窮。
(二)大數(shù)據(jù)時代下的非結構化數(shù)據(jù)與結構化數(shù)據(jù)需整合
對接統(tǒng)計研究可根據(jù)自身的目的收集總體數(shù)據(jù)或樣本數(shù)據(jù),但如果總體太過龐大,以過去的技術方法來收集總體數(shù)據(jù)成本會很高,受于限制統(tǒng)計研究更多收集得是樣本數(shù)據(jù)。如今,人類已經(jīng)開始能夠在合適的成本下獲得大數(shù)據(jù),大數(shù)據(jù)的廣博給統(tǒng)計研究帶來了新的發(fā)展方向。我們需要著重研究的一個方向就是如何將結構化數(shù)據(jù)和非結構化數(shù)據(jù)對接。大數(shù)據(jù)的核心是數(shù)據(jù),統(tǒng)計學的研究對象也是數(shù)據(jù),但是它們獲得的數(shù)據(jù)性質有所不同:大數(shù)據(jù)收集的多是半結構化和非結構化的數(shù)據(jù),通俗地理解,先獲得數(shù)據(jù),再整理結構(如聲音、圖片、視頻等信息);傳統(tǒng)統(tǒng)計學收集則主要是結構化數(shù)據(jù),先定好結構,再根據(jù)目標結構收集數(shù)據(jù)(如數(shù)字、符號等信息)。拿非結構化數(shù)據(jù)和結構化數(shù)據(jù)來說:大數(shù)據(jù)時代使得我們有更多可以分析利用的數(shù)據(jù),使得統(tǒng)計研究不僅可以在有更多的結構化數(shù)據(jù)的情形下進行;對于一些領域的研究工作還可以設法將非結構化數(shù)據(jù)和結構化的數(shù)據(jù)結合起來分析。如何實現(xiàn)非結構化數(shù)據(jù)與結構化數(shù)據(jù)的結合?首先,完善非結構化數(shù)據(jù)的整合,然后我們可以用結構化數(shù)據(jù)做數(shù)量說明,非結構化數(shù)據(jù)加強描述;或是提高數(shù)據(jù)處理技術,實現(xiàn)結構化數(shù)據(jù)與非結構化數(shù)據(jù)的互相轉化,選擇能更好說明問題的數(shù)據(jù)形式作為后續(xù)分析基礎。這都是值得再深入思考研究的新問題,而且這不僅僅是大數(shù)據(jù)和統(tǒng)計研究的事,同時需要計算機技術的一同創(chuàng)新發(fā)展。統(tǒng)計研究的范圍在大數(shù)據(jù)時代越來越大,能用數(shù)據(jù)說明的問題越來越多。
(三)大數(shù)據(jù)時代下的相關分析與因果分析發(fā)展并重
《大數(shù)據(jù)時代》一書中表示:大數(shù)據(jù)時代的一個顯著變化是:相關分析比因果分析更重要。我的看法是:大數(shù)據(jù)時代下,市場確實會對相關分析有著更強的關注度,但這并不意味著因果分析的重要性會有褪色。統(tǒng)計學中既有相關分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關關系和因果關系之間的聯(lián)系,簡單說:有相關關系不一定有因果關系,有因果關系則一定有相關關系。大數(shù)據(jù)時代,相關關系變得比以前更加為人所關注的原因:一方面,在很多領域的應用里,相關分析比因果分析更簡單可行;另一方面,因為相關關系足以體現(xiàn)事物之間的一定聯(lián)系,在商業(yè)效益上更為經(jīng)濟有效。因此在商業(yè)利潤的推動下,相關關系也會更加受到青睞。但是我們不能就此否定因果關系的重要性,因果關系是對數(shù)據(jù)更加深度地分析:相關關系讓我們知道了“是什么”,因果關系是讓我們知道了“為什么”。倘若只是在商業(yè)經(jīng)濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學研究領域,“知其然而不知其所以然”就遠遠不夠了。結合現(xiàn)實發(fā)展需要,可在分析確定相關關系后,根據(jù)情況研究因果關系,若能夠得出因果關系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力,因果分析是人類永恒的使命。
二、結語
大數(shù)據(jù)時代的到來幾乎對每個領域都有著不可忽視的影響。大數(shù)據(jù)與統(tǒng)計學關系密切,大數(shù)據(jù)的出現(xiàn)對統(tǒng)計學的意義是非凡的,我們應把握住大數(shù)據(jù)時代和統(tǒng)計學的可結合點。其一,完善非結構化數(shù)據(jù)的整合,深入研究如何實現(xiàn)非現(xiàn)結構化與結構化數(shù)據(jù)的對接,都需要我們思維上的創(chuàng)新、數(shù)據(jù)處理技術上的提高。其二,在注重相關分析的同時,不能丟掉對因果分析的研究,應合理并重,實現(xiàn)大數(shù)據(jù)的進一步利用,真正挖掘出數(shù)據(jù)的價值。對于以數(shù)據(jù)為研究對象的統(tǒng)計學科,大數(shù)據(jù)時代就是統(tǒng)計學變革創(chuàng)新的時代,統(tǒng)計研究工作人員也應把握機會思考創(chuàng)新,為統(tǒng)計學增添新的生命力。
作者:張?zhí)焓?單位:廣州工商學院
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學發(fā)展研究
統(tǒng)計學在現(xiàn)實的生活中應用十分廣泛,以至于如今很多人把統(tǒng)計學的范圍擴展為用數(shù)據(jù)表示的現(xiàn)象。在如今的經(jīng)濟發(fā)展中一些金融分析師會利用一系列的數(shù)據(jù)對客戶提供咨詢服務,證券分析師可以利用數(shù)據(jù)來分析股市的信息,然后對股市的行情進行預測。在與我們息息相關的農業(yè)領域,水稻的產(chǎn)量以及有機物的培養(yǎng)環(huán)境都可以利用數(shù)據(jù)進行探究。以上都是與我們相關的實例,這些實例都是與統(tǒng)計學分不開的,這些實例都是統(tǒng)計學中的應用實例。總之統(tǒng)計學的運用可以貫穿各行各業(yè)。統(tǒng)計學的發(fā)展與大數(shù)據(jù)之間有著很密切的關系。如今隨著信息時代的發(fā)展,很多信息都是利用數(shù)字來進行表述的,因此可以看出來數(shù)據(jù)其實就是信息的載體,也是數(shù)據(jù)學分析的對象,如今的統(tǒng)計學工作實際就是收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)、解釋數(shù)據(jù)。如果沒有數(shù)據(jù)統(tǒng)計學就像植物失去土壤一樣難以存在,同樣離開了統(tǒng)計學以后,數(shù)據(jù)就會顯得沒有意義。數(shù)據(jù)在如今的大環(huán)境下變得越來越廣泛,其增長也是漫無邊際的。隨著社會的不斷發(fā)展,以及信息時代的不斷進步,人們開始意識到了數(shù)據(jù)的重要性。目前最為實用的數(shù)據(jù)很多,不但可以提高生產(chǎn)力的發(fā)展水平,還能夠利用數(shù)據(jù)的分析來解決國家的民生問題,因此這種大數(shù)據(jù)下的統(tǒng)計學發(fā)展十分重要。
一、大數(shù)據(jù)時代的內涵及其意義
(一)大數(shù)據(jù)時代的內涵
大數(shù)據(jù)其實就是一個大樣本和高維便利的數(shù)據(jù)集合,針對一些樣本的問題,利用統(tǒng)計學原理進行抽樣、分析,來達到所需要的精度,但是對于一些維數(shù)高的問題需要運用統(tǒng)計學原理進行選擇降維、壓縮、分解。從另一種角度講大數(shù)據(jù)包含很多方面,它是多領域的數(shù)據(jù)綜合,其中包含自然科學、人文科學等一系列的混合數(shù)據(jù),各個學科之間進行融會貫通,相互穿插。一些傳統(tǒng)的統(tǒng)計學方法只適合分析單個計算機的數(shù)據(jù)存儲,然而目前的大數(shù)據(jù)環(huán)境下改變了這一現(xiàn)象。如今大數(shù)據(jù)環(huán)境下包括了數(shù)據(jù)流環(huán)境、磁盤存儲環(huán)境、分布存儲環(huán)境、多線條環(huán)境等。目前大數(shù)據(jù)環(huán)境下最主要的目的就是把數(shù)據(jù)轉變?yōu)槿藗內菀锥玫闹R,來探索數(shù)據(jù)產(chǎn)生的源頭和機制,從而制定相應的對策。由于要把信息轉變?yōu)橹R需要一個漫長的時間,因此如今有很多人搜集當今社會的大量的數(shù)據(jù)存放在相應的存儲器中,甚至有些人并不知道如何去分析所搜集的數(shù)據(jù),但是他們把這些數(shù)據(jù)當成一段發(fā)展的歷史,把如今高速發(fā)展的過程記錄下來,供以后應用。
(二)大數(shù)據(jù)時代給社會帶來的變革
如今大數(shù)據(jù)環(huán)境下給人們帶來了很大的變革,目前各行各業(yè)的勞動者們都開始利用研究問題來驅動搜集數(shù)據(jù),利用搜集來的數(shù)據(jù)進行分析來解決問題。因此以這種發(fā)展的趨勢可以看出,在以后人們會慢慢地利用搜集數(shù)據(jù)來驅動問題的解決,就像我們出門查天氣、查交通一樣,未來的勞動者們會通過大數(shù)據(jù)的分析來決策一些研究性的問題。現(xiàn)在國內外很多統(tǒng)計學專家、甚至一些大學教授都開始利用計算機中相應的軟件來搜索、分析一些研究性成果。在古希臘哲學家是百科全書式的人物,在文藝復興時期開始細化了一些單一科學的科學家。如今大數(shù)據(jù)時代勢必會再次產(chǎn)生百科全書式的人物,大數(shù)據(jù)將慢慢地減弱專家在各個領域的影響,甚至導致專家的消亡,比如,現(xiàn)在很多統(tǒng)計學家、物理學家、計算機專家等開始利用他們敏銳的數(shù)據(jù)處理和分析能力進入生命科學界,在以后假如我們有成千上萬本書和它的外文譯本,即使我們不懂外文也能夠通過一些翻譯軟件進行翻譯,把它翻譯成我們懂得的語言,大數(shù)據(jù)中包含很多數(shù)據(jù)集,為我們以后的生活提供很大的便利。
二、大數(shù)據(jù)的研究動向、信息問題
(一)研究動向
目前美國一些機構開始提出了大數(shù)據(jù)環(huán)境下的一些挑戰(zhàn)性的問題,即處理高度分布的數(shù)據(jù)資源,追蹤數(shù)據(jù)的來源以及核實數(shù)據(jù)、處理樣本等。他們開始把數(shù)據(jù)處理的方式進行改進,開發(fā)并行和分布式的算法。我國也十分重視大數(shù)據(jù)科學的發(fā)展,國家多次組織召開會議探討大數(shù)據(jù)科學發(fā)展的前景,并且設立了大數(shù)據(jù)專項研究計劃。國家自然科學基金的一些專項科學項目開始設立,在業(yè)界以及一些咨詢公司都在尋找大數(shù)據(jù)合作的機會。大數(shù)據(jù)的分析需要多個領域進行結合,已經(jīng)不是單一的一個科學領域,統(tǒng)計學家不但要認真研究計算機的實時決策還要把計算機與統(tǒng)計學的相關知識進行緊密的結合。相反計算機專家也要時刻了解統(tǒng)計學的相關知識。
(二)大數(shù)據(jù)的信息問題
隨著大數(shù)據(jù)信息時代的到來,人們也不斷地對大數(shù)據(jù)進行探究。由于大數(shù)據(jù)中不只是包含一種數(shù)據(jù),它是很多數(shù)據(jù)的一個集合體。為了能夠把搜集到了各個方面的數(shù)據(jù)融合起來,必須對數(shù)據(jù)的來源以及數(shù)據(jù)的獲取方式進行探究,利用這些探究的結果來進行數(shù)據(jù)的分析。如今數(shù)據(jù)的來源一般都是多方面、多渠道的,難免會產(chǎn)生較大的誤差,這樣也就產(chǎn)生了一些問題,比如數(shù)據(jù)搜集的準則與決策不相符,甚至有些數(shù)據(jù)根本不是原始搜集的數(shù)據(jù),而是經(jīng)過分析推斷而來的數(shù)據(jù),這種數(shù)據(jù)更會產(chǎn)生較大的誤差。由于數(shù)據(jù)的量是非常大的,然而并不是數(shù)據(jù)量越大所包含的信息就越多,如果所獲的數(shù)據(jù)中含有一些偏差較大的信息,就會破壞原始的數(shù)據(jù),因此從這一方面我們應該意識到在數(shù)據(jù)的搜集過程中應該避免得到一些破壞性的信息。在大數(shù)據(jù)時代中會產(chǎn)生一些缺失的數(shù)據(jù),數(shù)據(jù)的缺失難免會對數(shù)據(jù)的分析產(chǎn)生影響,不同的研究搜集的數(shù)據(jù)會有一些重疊的部分,比如經(jīng)濟、社會、保險、醫(yī)學等研究的問題不同,搜集的變量和集合不相同,但是他們肯定會有一些共同用處的數(shù)據(jù)。在對數(shù)據(jù)進行分析時,其中有2種數(shù)據(jù)需要進行具體的分析,一類是觀察的數(shù)據(jù),一類是試驗的數(shù)據(jù),這兩種數(shù)據(jù)包含兩種不同的信息,這樣依然會導致一些人對數(shù)據(jù)的認知錯誤。由于數(shù)據(jù)的本身是有一定的范圍的,數(shù)據(jù)搜集以后就已經(jīng)確定了它的這一屬性,因此如果想需要范圍以外的含義就必須進行推斷。
三、大數(shù)據(jù)的處理、抽樣與分析
(一)數(shù)據(jù)的預處理
大數(shù)據(jù)環(huán)境下對數(shù)據(jù)的處理包括很多方面,比如,數(shù)據(jù)清洗、數(shù)據(jù)矯正、數(shù)據(jù)填補等,其中數(shù)據(jù)矯正是一種非常有效的數(shù)據(jù)處理方式,它可以大大減少系統(tǒng)的誤差。如今互聯(lián)網(wǎng)領域中數(shù)據(jù)的獲取是非常復雜的,在大量的、復雜的數(shù)據(jù)進行分析時難免會產(chǎn)生一些差異性,為了盡可能地使得這些數(shù)據(jù)不產(chǎn)生偏倚性,就必須利用計算機來對這些數(shù)據(jù)進行矯正。矯正的方法就是把一些從互聯(lián)網(wǎng)上搜集的數(shù)據(jù)作為一些補充的資源進行更新,這種更新速度要快,而且是實時的更新。
(二)大數(shù)據(jù)的分析與整合
在對大數(shù)據(jù)分析時,針對一些高維的問題需要進行降維、分解。還要探究一些壓縮數(shù)據(jù)的方法,經(jīng)過壓縮的數(shù)據(jù)可以直接進行傳輸和操作。這一系列的過程除了可以用常規(guī)的方法以外還可以利用一些數(shù)據(jù)的實時分析以及一些先進的算法進行操作。考慮計算機內存和外存的數(shù)據(jù)傳送問題、分布數(shù)據(jù)和并行計算的方法。如何無信息損失或無統(tǒng)計信息損失地分解大數(shù)據(jù)集,獨立并行地在分布計算機環(huán)境進行推斷,各個計算機的中間計算結果能相互聯(lián)系溝通,構造全局統(tǒng)計結果。研究多個數(shù)據(jù)資源的融合算法,研究利用數(shù)據(jù)流尋找模型變化時間點的動態(tài)變化模型。
四、結束語
在一個新的事物到來以后勢必會對社會的發(fā)展帶來一定的沖擊,會慢慢地把一些傳統(tǒng)的關鍵和技術進行淹沒,比如,數(shù)碼相機的出現(xiàn)取代了傳統(tǒng)的膠片相機,使得影像業(yè)幾乎消亡。在大數(shù)據(jù)環(huán)境下將會對傳統(tǒng)的統(tǒng)計學進行嚴格的考驗,統(tǒng)計學會不會像以往的哲學那樣,只有一些歷史的光環(huán),而不再作為人們分析和利用大數(shù)據(jù)的資源。目前來看很多的學科都開始慢慢地涌入大數(shù)據(jù)時代,如果統(tǒng)計學的發(fā)展不進行改革的話也會慢慢的被邊緣化。目前統(tǒng)計學的主要的目標就是通過大范圍的獲取數(shù)據(jù),然后利用計算機對獲取的數(shù)據(jù)進行分析,來發(fā)現(xiàn)真理,統(tǒng)計的方法和理論有過高的要求,在大數(shù)據(jù)的環(huán)境下存在各種隨機和非隨機的誤差,根本無法滿足這些要求。大數(shù)據(jù)已經(jīng)給統(tǒng)計學帶來了很大的機遇,我們不但要洞察到這種機遇,還要看到現(xiàn)在的統(tǒng)計學中的一些基本的分析方法已經(jīng)不能滿足現(xiàn)在的數(shù)據(jù)分析,如今一些分布式的大數(shù)據(jù)已經(jīng)給統(tǒng)計學帶來了很大的挑戰(zhàn),由此看來一些統(tǒng)計學家要積極應對目前的這種現(xiàn)狀,不應該把傳統(tǒng)的數(shù)據(jù)環(huán)境作為目前研究的目的,必須積極地去學習新生的事物,只有這樣才能面對未來的挑戰(zhàn)有一席之地。
作者:彭先萌 單位:湖北工業(yè)職業(yè)技術學院
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計學課程教學改革思考
隨著互聯(lián)網(wǎng)時代的到來,特別是微博、微信、朋友圈等社交網(wǎng)絡的興起和手機使用功能的多元化,導致人們的生活行為產(chǎn)生大量的數(shù)據(jù)信息,而企業(yè)可以通過這些數(shù)據(jù)了解顧客的需求以及消費習慣等,并應用大數(shù)據(jù)技術進行市場細分和定位;與此同時,政府也意識到數(shù)據(jù)信息的經(jīng)濟開發(fā)價值,并在《“十二五”時期統(tǒng)計發(fā)展和改革規(guī)劃綱要》中明確提出“:建立現(xiàn)代統(tǒng)計體系就是建立以現(xiàn)代信息技術為支撐的方案設計、任務布置、過程控制和行為監(jiān)督的統(tǒng)計系統(tǒng)。”2015年3月3日在北京召開的兩會,也特別強調“數(shù)字兩會”,讓老百姓通過實實在在的數(shù)據(jù)對比感受生活的變化。可見,政府、企業(yè)乃至老百姓都已經(jīng)認識到大數(shù)據(jù)的價值,所以大數(shù)據(jù)相關人才也成為社會各界爭搶的對象。如何培養(yǎng)符合大數(shù)據(jù)時代背景下所需要的人才?這使得統(tǒng)計課程的教學不得不面臨較大的改革。
一、大數(shù)據(jù)的概念
大數(shù)據(jù)即大的數(shù)據(jù)集,它不像我們過去那些數(shù)值型數(shù)據(jù)那么簡單,但至今它也尚無確切、統(tǒng)一的定義。通過參照多方對大數(shù)據(jù)概念的理解,作者認為大數(shù)據(jù)的概念是指在對海量數(shù)據(jù)進行傳輸、采集、儲存、處理、分析和挖掘的基礎上,獲得憑直覺難以發(fā)現(xiàn)的有用信息,從而揭示數(shù)據(jù)隱藏的規(guī)律和發(fā)展趨勢,為決策者所用,它是科技,是訊號,是機會。
二、大數(shù)據(jù)時代對統(tǒng)計學的影響
大數(shù)據(jù)時代的到來,對統(tǒng)計工作者而言,為了更好的服務于經(jīng)濟社會的發(fā)展,較大的考驗和“本領”就是如何深度開發(fā)和利用海量的數(shù)據(jù)信息,這就要求統(tǒng)計學既從理論上又在方法上必須進行改革。一方面需要統(tǒng)計學解決更多、更復雜的問題,另一方面也對統(tǒng)計學提出了更高的要求。不僅要求對統(tǒng)計學的理論與方法進行創(chuàng)新,還要求對統(tǒng)計學進行教學改革,尤其是注重培養(yǎng)對象的統(tǒng)計思維的養(yǎng)成。因為統(tǒng)計學是一門方法論科學,在長期的發(fā)展過程中,形成了很多具有特色的統(tǒng)計思維,如靜態(tài)思維、變異思維、動態(tài)思維、指數(shù)思維、推斷思維、相關思維、假設思維等等。而這些統(tǒng)計思維對處理不確定現(xiàn)象、分析數(shù)據(jù)和解釋數(shù)據(jù)等都有巨大的影響,成為統(tǒng)計學的核心內容。但在大數(shù)據(jù)時代背景下,由于數(shù)據(jù)分析直接針對總體,而且具有復雜性和混雜性,因此,有些統(tǒng)計思維可能用不上,就必須摒棄掉,但也需要統(tǒng)計學隨著環(huán)境的變化不斷創(chuàng)新新的統(tǒng)計思維。
三、當前統(tǒng)計學課程教學中存在的問題
目前統(tǒng)計學課程在教學中存在以下幾個主要問題:
(一)教學內容偏重理論,學生學習興趣不高
目前的統(tǒng)計學教學中一般采用的是理論的教學模式,雖然也在提倡項目化教學,但是教師主要依托教材,對與統(tǒng)計學相關理論和方法逐一進行介紹,對涉及到的公式和定理進行推導。學生聽和記,真正理解的內容并不多,應用則更談不上。在這樣的教學模式下,學生對該課程的學習不僅興趣不高,而且容易對課程產(chǎn)生抵觸心理。
(二)忽略對統(tǒng)計相關軟件的教學
統(tǒng)計理論和方法很重要,但要真正用統(tǒng)計作為一個工具來解決實際問題,單憑會動筆計算相關的統(tǒng)計指標是遠遠不夠的,尤其是在目前大數(shù)據(jù)時代背景下。高職院校經(jīng)濟管理類專業(yè)的學生所接觸的統(tǒng)計相關軟件從表面上只有WORD和EXCEL,而這兩軟件往往是在計算機基礎課程中介紹的,在統(tǒng)計學課程中幾乎不作介紹,導致不少高職院校學生沒有意識,更不會使用甚至根本不知道大多數(shù)普通函數(shù)計算機都具備的求和、平均、方差和標準差、相關系數(shù)等統(tǒng)計功能鍵,這也限制了很多學生不會運用統(tǒng)計學思維和方法去看待和解決身邊遇到的實際問題。目前許多統(tǒng)計學課程的教學過程中,由于受到學生基礎差和實訓條件不夠等的限制,教師在講授的統(tǒng)計知識內容的時候主要圍繞描述統(tǒng)計和簡單的推斷統(tǒng)計,而對于分析社會問題的多元統(tǒng)計方法在課堂上涉及不多,另外目前高職可用的教材中也缺乏統(tǒng)計軟件相關理論知識的介紹,導致學生在學習和應用統(tǒng)計軟件進行實際問題的操作時增加難度。
(三)缺乏校企合作
在我國目前國情環(huán)境中,大多數(shù)高職院校與企業(yè)之間很難找到利益共同點,所以實訓條件、實訓項目等受到限制,使得大多數(shù)高職院校的在安排該課程教學時偏重理論教學,而實踐教學課時所占課時比重偏低,對開展社會調查的活動僅僅局限于本校學生,并沒有跨出校門,更不能與當?shù)氐恼块T、市場調研公司、市場咨詢公司以及企業(yè)建立協(xié)作和參與機制,導致學生在學習統(tǒng)計和運用統(tǒng)計之間不能較好地銜接。
四、對統(tǒng)計學課程教學改革的思考
在大數(shù)據(jù)時代背景下,企業(yè)和政府對統(tǒng)計工作者要求較高,不但要求具備一定的統(tǒng)計學理論與方法,而且更重要的是要求能夠運用現(xiàn)代化的信息處理工具對海量數(shù)據(jù)進行采集、處理、分析和挖掘,從而為企業(yè)、政府的決策使用者提供正確、快速、的數(shù)據(jù)支撐資料。為此,作者結合十多年的統(tǒng)計教學經(jīng)驗,對統(tǒng)計學課程在教學中的改革提出以下幾個方面的思考。
(一)統(tǒng)計學課程教學內容的改革
1.著重介紹統(tǒng)計方法的應用
統(tǒng)計方法有很強的實用性,加之統(tǒng)計學課程的課時限制,所以應該著重介紹統(tǒng)計方法的在實踐中應用。因此,教學中設計并引入好的統(tǒng)計項目,然后從項目中的數(shù)據(jù)來源入手,著重介紹現(xiàn)成數(shù)據(jù)如何收集,若項目中沒有現(xiàn)成的數(shù)據(jù),則如何采用不同的調查組織方式開展數(shù)據(jù)的搜集活動?怎樣組織學生設計調查方案?怎樣開展調查活動?怎么做好調研員等知識內容就被引出來,從而讓學生產(chǎn)生對統(tǒng)計課程學習的興趣;若采用抽樣調查,則會涉及到樣本單位數(shù)的如何確定?抽樣框如何取得?如何才能保障樣本具有足夠的代表性?如何減少抽樣誤差等。當然,對高職院校學生除了介紹傳統(tǒng)的統(tǒng)計方法外,還是有必要引入國外比較通行的、實踐證明有現(xiàn)實應用價值的一些統(tǒng)計方法,比如時間序列分析、相關分析、回歸分析等,以提高統(tǒng)計方法的可學性和運用性,為高職院校學生踏入社會運用統(tǒng)計方法解決本專業(yè)領域問題奠定良好的基礎。故該課程的教學內容可根據(jù)專業(yè)的特殊要求、課時的安排情況進行適當?shù)母母铮抑攸c體現(xiàn)統(tǒng)計方法的有用性和可行性。
2.在教學內容中增加Excel軟件的運用能力
目前在實際統(tǒng)計學課程教學中,教師并沒有把Excel軟件作為教學內容教給學生,而是認為計算機基礎中學生已經(jīng)學習了,然后讓學生在課外自行復習和運用,這樣效果就大打折扣。作為高職院校應結合學生的特點有針對性的將Excel應用軟件作為統(tǒng)計學課程的實訓內容,增加實訓課時,提高學生的Excel基礎應用、Excel函數(shù)、Excel圖表與圖形以及Excel數(shù)據(jù)透視表等方面的應用能力。
(二)創(chuàng)新教學模式,激發(fā)學生興趣
統(tǒng)計學是一門實用性很強的課程,我們應該結合高職院校學生的特點創(chuàng)新教學模式,激發(fā)學生學習統(tǒng)計學課程的興趣。例如在課程教學中以“練———學———思———拓”能力訓練模式進行課堂教學模式改革,讓學生在快樂中學習、快樂中成長,同時挖掘學生學習趣味性、調動學生積極性、注重團隊合作、增強溝通交流,并與就業(yè)接軌,多方位、全過程提高學生素質等,打破了僵化死板的教學方式,樹立以學生為本的教學思想,著力培養(yǎng)學生的個性化發(fā)展和自主學習能力、創(chuàng)新思維能力和綜合實踐能力、開發(fā)思維能力、競爭能力,有助于學生理解、掌握統(tǒng)計方法的應用條件和應用思路,強化了學生的統(tǒng)計思維。
(三)加強校企合作,提高學生實踐創(chuàng)新能力
社會經(jīng)濟現(xiàn)象是錯綜復雜的,其表現(xiàn)的各種數(shù)據(jù)信息在相互影響、相互作用,這就要求學生不僅學會在實踐中去尋找各種異常出現(xiàn)的原因,而且也要求學生能對事物的關聯(lián)、因果、發(fā)展等方面進行分析,培養(yǎng)學生嚴謹?shù)臄?shù)據(jù)處理態(tài)度,同時增強學生創(chuàng)新統(tǒng)計思維。為此,在開展社會與企業(yè)實踐活動時,建議并組織學生以小組為單位,然后再來選擇和確定實踐課題,當然,研究課題可以是學生日常生活中所關心的問題,如大學生校園戀愛觀的調查,也可以是社會經(jīng)濟中的熱點問題,如生態(tài)功能區(qū)環(huán)境保護統(tǒng)計監(jiān)測研究。因此,在學院“會-站-室”的整體框架下,在學院公共服務平臺的支撐下,在系專業(yè)共建委員會的有力支持下,通過加強與當?shù)氐慕y(tǒng)計局、市場咨詢公司、市場調查公司、企業(yè)等單位之間的合作,讓學生真正參與社會統(tǒng)計實踐活動,從而使得學生在實踐中體會統(tǒng)計理論與方法的美感,感受統(tǒng)計的在生活中的樂趣。
(四)優(yōu)化課程考核評價方法
在“兩全多方”人才培養(yǎng)質量保障體系下,為實現(xiàn)高職院校和行業(yè)企業(yè)共訂標準、共管過程、共評效果。統(tǒng)計學課程的考核應多樣化,既考核學生對統(tǒng)計理論的理解程度,也考核學生對統(tǒng)計知識的綜合運用能力,同時也考核學生在參與統(tǒng)計實踐中的組織能力、團隊協(xié)作精神、溝通能力、表達能力等;對學生的評價不僅僅是任課老師,還需要學生之間的互評、家長對學生的綜合評價以及第三方對學生的評價等。總之,統(tǒng)計學一門關于一切學問的學問,在大數(shù)據(jù)時代,應加強統(tǒng)計學基礎性原理與真實的教學,凸出統(tǒng)計學理論與方法的應用性,讓學生建立起大數(shù)據(jù)統(tǒng)計思維,并在統(tǒng)計思維的引導下,選擇合適或最有效的統(tǒng)計方法,或通過創(chuàng)新統(tǒng)計方法,有效地解決實際問題。
作者:陳秀芬 單位:四川化工職業(yè)技術學院
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學改革探索
從狹義上來講,大數(shù)據(jù)的構成包括兩方面,一方面是大樣本,在統(tǒng)計學上要達到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量,對于這一問題則需要采取壓縮、分解以及降維等方法。
一、大數(shù)據(jù)及其意義
大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機存儲的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。1.流數(shù)據(jù):數(shù)據(jù)快速地不斷涌來,現(xiàn)有存儲設備和計算能力難以應付這種數(shù)據(jù)流(比如歐洲高能粒子對撞機所產(chǎn)生的數(shù)據(jù),每秒鐘可以達到500TB)。2.磁盤存儲限制:數(shù)據(jù)已不能存儲在內存中,需要硬盤存儲。3.分布存儲狀態(tài):數(shù)據(jù)分布存儲在多個計算機中。4.多線條狀態(tài):數(shù)據(jù)存儲在一個計算機中,多個處理器共享內存。大數(shù)據(jù)的發(fā)展就是對數(shù)據(jù)產(chǎn)生的機制進行探索,將所產(chǎn)生的數(shù)據(jù)轉變?yōu)槿藗兯枰闹R,進而對相關政策的制定產(chǎn)生影響。這個過程是一個漫長的過程。一個小孩子隨著年齡的增長可能會掌握更多的單詞,但是根據(jù)一個孩子的年齡確定他掌握的單詞多少則并不科學。進一步來說,大數(shù)據(jù)有記錄保存自然與社會現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù),盡管他們還不清楚如何分析大量的數(shù)據(jù),但是他們相信需要保存現(xiàn)今社會經(jīng)濟高速發(fā)展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標本等存放在冰箱里,他們認為當今的技術還不足以測試和分析這些資源,期待今后更先進的測試技術能夠做到。大數(shù)據(jù)就如同自然和社會的血液那樣記錄著社會的現(xiàn)狀和發(fā)展過程。17世紀望遠鏡以及顯微鏡的發(fā)明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴大了人類對自然的基本認識。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數(shù)據(jù)來觀察和分析自然、經(jīng)濟、社會的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù),可以及時了解疾病的疫情、科學的動態(tài)、社會的動態(tài)。谷歌借助頻繁檢索的詞條能及時判斷流感從哪傳播,哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會的歷史長河,不但能用于探索當代的科學問題,將來也可以用于研究人們食用轉基因食品對子孫后代的影響等追蹤研究問題,為未來留下當前的歷史資料。
二、大數(shù)據(jù)帶來的變革
時代的進步有賴于大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展給時代變革增加了更多的不確定性。就當前研究來看,數(shù)據(jù)的搜集很大程度上依靠所研究問題的出現(xiàn)來推動其向前發(fā)展。不過在不久的將來,隨著大數(shù)據(jù)時代的到來,人們對于問題的研究將會由“數(shù)據(jù)”來驅動。例如,如果我們想去某地旅行或出差,會首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據(jù)所查詢的數(shù)據(jù)信息來決定所要去的目的地。在古希臘時代,當時的哲學家無所不知,號稱百科全書,到了文藝復興時代,隨著學科的不斷細化,不同學科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時代的到來,大百科全書式的人物將有可能再次出現(xiàn),而不同領域的專家的性將被逐步消弱,隨著大數(shù)據(jù)的不斷發(fā)展,很有可能會逐漸將學科專家消亡掉。例如,隨著計算機專家和統(tǒng)計學家對數(shù)據(jù)的搜集越來越多并且處理能力不斷增強,他們將逐步成為生命科學方面的專家。再比如,如果我們掌握了足夠數(shù)量的相關專業(yè)書籍和日文譯本,就算我們對日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因為我們有很多非常的翻譯軟件,如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個領域和學科得到了應用,例如醫(yī)療領域,大數(shù)據(jù)可以指導人們健康飲食,適時進行身體檢查,并且確定檢查項目,幫助醫(yī)生對患者進行疾病診斷等。
三、大數(shù)據(jù)時代統(tǒng)計學專業(yè)教學現(xiàn)狀
隨著科技的不斷發(fā)展和進步,人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化,電子商務的發(fā)展和各種多媒體信息技術的飛速發(fā)展和應用,給傳統(tǒng)的統(tǒng)計學應用和教學帶來了機遇的同時也帶來了非常大的挑戰(zhàn)。一方面,由于各種信息和數(shù)據(jù)的不斷涌入,人們在被動搜集著各種數(shù)據(jù)。統(tǒng)計學的教學也需要不斷探索新的模式。另一方面,人們在被動接受數(shù)據(jù)的同時也在主動搜集數(shù)據(jù)信息,不同學科有不同的數(shù)據(jù)需要。例如經(jīng)濟學領域的專家每天都在搜集各自的調查數(shù)據(jù)和觀察數(shù)據(jù),而自然科學領域的專家學者則不僅搜集宏觀天文數(shù)據(jù),還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同,有的在實驗室通過試驗進行數(shù)據(jù)搜集,有的人則通過網(wǎng)絡進行數(shù)據(jù)搜集和研究。對于當前大數(shù)據(jù)給統(tǒng)計學帶來的挑戰(zhàn),美國科學院“大數(shù)據(jù)分析委員會”給出了分析,他們認為這些挑戰(zhàn)在于對不同格式和結構的數(shù)據(jù)的處理方面、對于數(shù)據(jù)來源的追蹤方面、對于共享數(shù)據(jù)的安全性問題和完整性問題方面、對于樣本異質性和偏倚性處理方面、在對問題進行處理時的決策和分析方面以及對分布式和并行式在開發(fā)時的算法方面的問題等。國內相關部門也對這一問題進行了研討,最早一次是2012年5月在香山召開的“大數(shù)據(jù)科學與工程”會議,第二次是在2013年5月召開的對于大數(shù)據(jù)原理以及發(fā)展前景的探討會,并同時制定了相關的科研計劃。但關于大數(shù)據(jù)背景下統(tǒng)計學專業(yè)教學的探索還非常稀缺。
四、統(tǒng)計學專業(yè)課程改革
針對以上所述大數(shù)據(jù)時代的特點和變革意義以及目前統(tǒng)計學專業(yè)教學的現(xiàn)狀,本文進行了相應的初步探索。
(一)改革的總體思路
將現(xiàn)有的統(tǒng)計學頂級雜志或著名文獻中的成熟的大數(shù)據(jù)分析方法逐步凝練,形成教學內容;將使用R軟件中的函數(shù)包實現(xiàn)這些大數(shù)據(jù)分析方法。
(二)改革的具體內容
1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語言的代碼實現(xiàn)。2.在《非參數(shù)統(tǒng)計》課程中引入多元非參數(shù)統(tǒng)計方法(諸如多元符號、多元秩、多元符號秩等)、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語言的代碼實現(xiàn)。3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動態(tài)LASSO回歸等)及其R語言的代碼實現(xiàn)。4.在《多元統(tǒng)計分析》課程中引入高維統(tǒng)計分析方法及其R語言的代碼實現(xiàn)。5.在工科《概率論與數(shù)理統(tǒng)計》課程中引入R語言的代碼實現(xiàn)。
(三)改革的主要創(chuàng)新點
在傳統(tǒng)的統(tǒng)計學專業(yè)課程教學中引入近期的大數(shù)據(jù)分析方法及其R語言實現(xiàn)。其中R語言是區(qū)別SAS、SPSS等傻瓜軟件的結構化程序設計語言,可以靈活實現(xiàn)傻瓜軟件所不能實現(xiàn)的各種高級數(shù)據(jù)分析功能。其非常適應于大數(shù)據(jù)統(tǒng)計分析方法的教學。所以大部分國內外著名大學已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計軟件進行統(tǒng)計分析方法的教學。R語言已經(jīng)逐步成為統(tǒng)計學系的標準的教學軟件。
作者:周茂袁 單位:中國民航大學理學院
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學專業(yè)建設分析
[摘要]大數(shù)據(jù)時代對統(tǒng)計學人才培養(yǎng)而言,既是機遇又是挑戰(zhàn)。高校的統(tǒng)計學專業(yè)要從統(tǒng)計學專業(yè)的培養(yǎng)目標出發(fā),通過改革教學模式,調整教學內容,對課程設置、師資培養(yǎng)、課堂教學、實踐環(huán)節(jié)各個方面進行改革,承擔起大學人才培養(yǎng)的責任。
[關鍵詞]大數(shù)據(jù)時代;統(tǒng)計學;專業(yè)建設;實踐教學
全球知名的麥肯錫咨詢公司最早提出了“大數(shù)據(jù)”的概念,宣告了大數(shù)據(jù)時代的來臨;IBM公司指出了大數(shù)據(jù)的4個特點:數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、數(shù)據(jù)產(chǎn)出速度快、數(shù)據(jù)價值密度低。[1]大數(shù)據(jù)對高等學校人才培養(yǎng)的影響表現(xiàn)在以下方面:1.思維方式與認知模式的改變;2.海量的學習對象與輔助教學資源;3.開源課程(慕課,微課、翻轉課堂)的教育方式對傳統(tǒng)教學模式產(chǎn)生沖擊;4.新媒體模式的社會化互助學習打破教學界限;5.網(wǎng)絡思維拓展了個體思維。[2]在這個意義上,大數(shù)據(jù)時代對高校人才培養(yǎng)提出了新的要求。對于統(tǒng)計學專業(yè)建設而言,大數(shù)據(jù)的背景既是一個機遇也是一個挑戰(zhàn)。高等學校統(tǒng)計學專業(yè)需要通過整合現(xiàn)有人才培養(yǎng)資源、建立創(chuàng)新人才培養(yǎng)平臺,承擔起大學人才培養(yǎng)的責任,緊隨大數(shù)據(jù)的發(fā)展趨勢,占領大數(shù)據(jù)發(fā)展人才培養(yǎng)的制高點,體現(xiàn)高等學校滿足社會需求、提供智力支撐的載體作用,確保大數(shù)據(jù)產(chǎn)業(yè)科學、健康、持續(xù)、高速地發(fā)展。本文擬從統(tǒng)計學專業(yè)的培養(yǎng)目標出發(fā),研討在大數(shù)據(jù)時代統(tǒng)計學專業(yè)學生培養(yǎng)各個環(huán)節(jié)的問題。
一、關于培養(yǎng)目標
統(tǒng)計學專業(yè)的培養(yǎng)目標是:培養(yǎng)德、智、體、美發(fā)展,掌握堅實的數(shù)學、統(tǒng)計學基本理論,具備扎實的經(jīng)濟學基礎和數(shù)據(jù)分析技能,能夠熟練地運用統(tǒng)計方法和數(shù)據(jù)分析軟件進行數(shù)據(jù)分析和數(shù)據(jù)處理,能在企事業(yè)單位和經(jīng)濟管理部門從事統(tǒng)計調查、數(shù)據(jù)分析、風險決策、質量管理等工作,或者在科研單位、高等學校從事統(tǒng)計學研究和教學工作的高級專門人才。本專業(yè)學制四年,通過四年的學習,統(tǒng)計學專業(yè)的畢業(yè)生應具備以下能力:
1.掌握堅實的數(shù)學、統(tǒng)計學基本理論。掌握數(shù)學、統(tǒng)計學的基本理論、基本知識、基本方法和計算機操作基本技能;具備數(shù)據(jù)采集、調查問卷設計和數(shù)據(jù)處理的基本能力;了解與經(jīng)濟統(tǒng)計、生物統(tǒng)計、醫(yī)學統(tǒng)計或社會統(tǒng)計等有關的自然科學、社會科學某一領域的基本知識,具備利用統(tǒng)計學專業(yè)知識,發(fā)現(xiàn)、分析、解決某一領域實際問題的基本能力;了解統(tǒng)計學學科的發(fā)展前沿及其應用前景。
2.具備扎實的經(jīng)濟學基礎和數(shù)據(jù)分析技能。具備扎實的經(jīng)濟學基礎,了解國家經(jīng)濟運行的基本方針、政策、法律、法規(guī);掌握R語言,精通Python、Spark、SAS、SPSS等流行大數(shù)據(jù)處理軟件中的一種,有較強的統(tǒng)計計算能力;掌握資料查詢、文獻檢索及數(shù)據(jù)獲取的基本方法;具有一定的從事科學研究和實際工作的能力;英語達到四級水平,計算機達到二級水平。
二、關于課程設置
1.專業(yè)主干課程包括:數(shù)學基礎部分(數(shù)學分析,高等代數(shù)與解析幾何)、C語言、數(shù)據(jù)庫、概率論與數(shù)理統(tǒng)計、統(tǒng)計學、微觀經(jīng)濟學、計量經(jīng)濟學、時間序列分析、多元統(tǒng)計分析、市場調查方法與抽樣技術、實驗設計、統(tǒng)計預測與決策、數(shù)據(jù)挖掘、隨機過程、統(tǒng)計分析軟件。
2.充分調研市場需求,在保障基礎課程的前提下,靈活設置選修課程,機動調整培養(yǎng)計劃及課程設置。
3.對高年級實行模塊式分流,包括數(shù)據(jù)處理、數(shù)理金融等防線,并與數(shù)據(jù)分析師、市場調查師等一些職業(yè)資格考試接軌,開設相關選修課。
三、關于師資培養(yǎng)
師資方面,要培養(yǎng)、引進并舉,以培養(yǎng)為主。主要立足于現(xiàn)有師資隊伍,同時積極引進國內外統(tǒng)計學專業(yè)人才,充實、提高教學研究水平。1.努力為教師的成長創(chuàng)造條件,支持和鼓勵教師攻讀統(tǒng)計學博士學位;積極引進國內外統(tǒng)計學博士。2.加強在職培訓提高,深入有效地開展統(tǒng)計學教研活動,教師相互學習,在教學過程中不斷學習,促進教師教學科研水平同步提高。3.結合課程教育,以單位進修方式對教師進行短期培訓。鼓勵教師外出學習,要求每人掌握\精通一門課程或一門外語;通過培訓學習近期統(tǒng)計學,數(shù)據(jù)分析教育理念、方法、技術,提高教師的教學水平,以滿足不斷變化的教學需要;積極開展科研立項及學術交流活動,積極組織教師申報部級、省級教學改革項目,并積極開展學術交流活動。4.對于實戰(zhàn)中比較流行的軟件、算法、設備,聘請具備豐富經(jīng)驗的數(shù)據(jù)分析公司工程師來校為學生授課。
四、關于課堂教學
實踐性、動手能力培養(yǎng)貫穿教學始終,除基礎課程外,其他課程都在實驗室進行教學,學用結合。數(shù)據(jù)分析語言\軟件教學貫穿課程教學,如:1.基于R語言的時間序列分析;2.基于SPSS的多元統(tǒng)計分析;3.高等統(tǒng)計與SAS語言,等等。每門課程完成一個案例報告。
五、關于實踐環(huán)節(jié)
(一)3+1模式
學生前三學年在學校,第四學年在實習單位學習。在實習單位的前四個月,學習數(shù)據(jù)分析實踐技能,以案例教學為主;后8個月在公司、企業(yè)接觸具體工作。冶金工業(yè)過程湖北省系統(tǒng)科學重點實驗室、統(tǒng)計學專業(yè)實驗室、湖北省統(tǒng)計局、武漢市統(tǒng)計局、廣發(fā)證券等實習實訓基地是學生開展實踐活動的硬件保障及重要保障。
(二)校內實習
以數(shù)據(jù)挖掘技術為依托,每年為校內教務處、研究生處、招生就業(yè)處、校醫(yī)院、招投標辦公室、后勤等部門出具一份完整、的數(shù)據(jù)分析報告,確實對學校各個部門的決策起到積極作用。以項目形式申報,每年以此類項目作為統(tǒng)計學專業(yè)的固定訓練題,或專業(yè)實踐題目。
(三)參加數(shù)據(jù)分析、數(shù)據(jù)挖掘
競賽學科競賽為創(chuàng)新統(tǒng)計學科人才培養(yǎng)模式,進一步提升大學生調研能力、數(shù)據(jù)分析能力和處理實際問題能力,促進學校應用型人才的培養(yǎng),同時為社會實際工作部門和高校人才培養(yǎng)的銜接提供一個良性平臺。[5]我們要求統(tǒng)計學專業(yè)的學生在讀期間都必須參加至少一次數(shù)據(jù)分析、數(shù)據(jù)挖掘類競賽,通過競賽提高學生分析、解決實際問題的能力,并以此作為創(chuàng)新學分的得分依據(jù)。目前學生參加的相關專業(yè)競賽有:
1.全國大學生數(shù)據(jù)挖掘挑戰(zhàn)賽。競賽由全國大學生數(shù)學建模競賽組織委員會主辦,廣州泰迪智能科技有限公司承辦,廣東省工業(yè)與應用數(shù)學學會、華南師范大學數(shù)學科學學院協(xié)辦。從2015年開始,我們組隊參加這一比賽,成績逐步提高。2015年雖然沒有獲得很好的成績,但卻鍛煉了學生,激勵了教師。參加了競賽的學生,數(shù)據(jù)分析能力有了明顯的長進,論文撰寫水平也提高不少。這些學生的本科學位畢業(yè)論文內容充實,條理清晰,答辯時胸有成竹,語言流暢。一些學生因為參加過這一賽事,在找工作時增分不少,順利簽下了數(shù)據(jù)分析師的就業(yè)合同。我們教師也從這一賽事中了解了目前數(shù)據(jù)分析領域的前沿知識,感受到了和兄弟院校的差距,這促使教師積極參加國內數(shù)據(jù)分析的各種培訓,鉆研數(shù)據(jù)分析的近期方法與技術,提高數(shù)據(jù)分析教學能力。2016年,我校再次組隊參加該項賽事,獲得國家三等獎兩項。
2.中國高校SAS數(shù)據(jù)分析大賽。這是由SAS中國公司發(fā)起的專門針對中國高校數(shù)據(jù)分析相關專業(yè)的一次非營利性的公益大賽。2016年,我校首次組織統(tǒng)計專業(yè)本科生、研究生混合組隊參加了這一比賽,總共3隊參加華中區(qū)初賽,1隊參加復賽,在比賽中表現(xiàn)良好,最終獲得“匯豐杯”2016中國高校SAS數(shù)據(jù)分析大賽決賽百強,并被授予“大賽組織獎”。
六、就業(yè)前景
武漢科技大學從2012年就開始培養(yǎng)統(tǒng)計學研究生,2015年本科也開始招生。實際上,我們從2001年就在信息與計算科學本科專業(yè)開設了經(jīng)濟統(tǒng)計模塊,2002年就開始招收數(shù)理統(tǒng)計方向的研究生,已經(jīng)有了10屆畢業(yè)生,這些學生的就業(yè)單位有政府統(tǒng)計局、金融行業(yè)的證券交易所、保險公司、銀行、軟件公司、企業(yè)里的信息中心、高校等。還有部分學生繼續(xù)攻讀了數(shù)理統(tǒng)計、經(jīng)濟統(tǒng)計、隨機分析等方向的博士研究生,畢業(yè)后在政府部門、高校從事研究工作。我們通過對這些畢業(yè)生的社會調查與用人單位的信息反饋,對本專業(yè)學生的社會適應能力以及社會需求有了深入的了解。這也為我們做好教學改革工作指明了方向。在大數(shù)據(jù)時代,培養(yǎng)符合社會需求的統(tǒng)計學人才,這是高等學校的責任和義務。
作者:馮育強;李德宜;余東 單位:武漢科技大學理學院
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學重構分析
摘要:基于大數(shù)據(jù)特征,統(tǒng)計學的抽樣理論和總體理論的存在價值、統(tǒng)計方法的重構及統(tǒng)計結果評價標準的重建等成為統(tǒng)計學理論面臨解決的首要問題.為適應大數(shù)據(jù)時代的發(fā)展,分析了大數(shù)據(jù)時代傳統(tǒng)統(tǒng)計學所面臨的機遇與挑戰(zhàn),對傳統(tǒng)統(tǒng)計學的繼承、發(fā)展和完善,重構大數(shù)據(jù)時代新的統(tǒng)計理論有其重要意義.
關鍵詞:大數(shù)據(jù);統(tǒng)計學;數(shù)據(jù)分析;抽樣理論;理論
重構隨著信息科學技術的高速度發(fā)展,當代獲取和儲存數(shù)據(jù)信息的能力不斷增強而成本不斷下降,這為大數(shù)據(jù)的應用提供了必要的技術環(huán)境和可能.應用大數(shù)據(jù)技術的優(yōu)勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數(shù)據(jù)信息.近年來,專家學者有關大數(shù)據(jù)技術問題進行了大量的研究工作[1],很多領域也都受到了大數(shù)據(jù)分析的影響.這個時代將大數(shù)據(jù)稱為未來的石油,它必將對這個時代和未來的社會經(jīng)濟以及科學技術的發(fā)展產(chǎn)生深遠的意義和影響.目前對于大數(shù)據(jù)概念,主要是從數(shù)據(jù)來源和數(shù)據(jù)的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的定義.麥肯錫全球數(shù)據(jù)分析研究所指出大數(shù)據(jù)是數(shù)據(jù)集的大小超越了典型數(shù)據(jù)庫工具集合、存儲、管理和分析能力的數(shù)據(jù)集,大數(shù)據(jù)被Gartner定義為極端信息管理和處理一個或多個維度的傳統(tǒng)信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規(guī)模”是GB級數(shù)據(jù),“海量”是TB級數(shù)據(jù),而“大數(shù)據(jù)”是PB及其以上級別數(shù)據(jù)[2].
一些研究學者把大數(shù)據(jù)特征進行概括,稱其具有數(shù)據(jù)規(guī)模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數(shù)據(jù)區(qū)別于其他概念的最重要特征是快速動態(tài)變化的數(shù)據(jù)和形成流式數(shù)據(jù).大數(shù)據(jù)技術發(fā)展所面臨的問題是數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)分析、數(shù)據(jù)顯示和數(shù)據(jù)安全等.大數(shù)據(jù)的數(shù)據(jù)量大、多樣性、復雜性及實時性等特點,使得數(shù)據(jù)存儲環(huán)境有了很大變化[45],而大部分傳統(tǒng)的統(tǒng)計方法只適合分析單個計算機存儲的數(shù)據(jù),這些問題無疑增加了數(shù)據(jù)處理和整合的困難.數(shù)據(jù)分析是大數(shù)據(jù)處理的核心過程,同時它也給傳統(tǒng)統(tǒng)計學帶來了巨大的挑戰(zhàn)[6].產(chǎn)生大數(shù)據(jù)的數(shù)據(jù)源通常情況下具有高速度性和實時性,所以要求數(shù)據(jù)處理和分析系統(tǒng)也要有快速度和實時性特點,而傳統(tǒng)統(tǒng)計分析方法通常不具備快速和實時等特點.基于大數(shù)據(jù)的特點,傳統(tǒng)的數(shù)據(jù)統(tǒng)計理論已經(jīng)不能適應大數(shù)據(jù)分析與研究的范疇,傳統(tǒng)統(tǒng)計學面臨著巨大的機遇與挑戰(zhàn),然而為了適應大數(shù)據(jù)這一新的研究對象,傳統(tǒng)統(tǒng)計學必須進行改進,以繼續(xù)和更好的服務于人類.目前國內外將大數(shù)據(jù)和統(tǒng)計學相結合的研究文獻并不多.本文對大數(shù)據(jù)時代這一特定環(huán)境背景,統(tǒng)計學的抽樣理論和總體理論的存在價值、統(tǒng)計方法的重構及統(tǒng)計結果的評價標準的重建等問題進行分析與研究.
1傳統(tǒng)意義下的統(tǒng)計學
廣泛的統(tǒng)計學包括三個類型的統(tǒng)計方法:①處理大量隨機現(xiàn)象的統(tǒng)計方法,比如概率論與數(shù)理統(tǒng)計方法.②處理非隨機非概率的描述統(tǒng)計方法,如指數(shù)編制、社會調查等方法.③處理和特定學科相關聯(lián)的特殊方法,如經(jīng)濟統(tǒng)計方法、環(huán)境科學統(tǒng)計方法等[7].受收集、處理數(shù)據(jù)的工具和能力的限制,人們幾乎不可能收集到全部的數(shù)據(jù)信息,因此傳統(tǒng)的統(tǒng)計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數(shù)據(jù),但從實際角度出發(fā),因所需成本過大,也會放棄搜集全部數(shù)據(jù).然而,選擇的抽樣方法和統(tǒng)計分析方法,也只能較大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數(shù)據(jù)特征也只是總體大量特征中的一小部分,更多的其他特征尚待發(fā)掘.總之,傳統(tǒng)統(tǒng)計學是建立在抽樣理論基礎上,以點帶面的統(tǒng)計分析方法,強調因果關系的統(tǒng)計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數(shù)據(jù)從而探索數(shù)據(jù)內部存在規(guī)律的一門科學.
2統(tǒng)計學是大數(shù)據(jù)分析的核心
數(shù)的產(chǎn)生基于三個要素,分別是數(shù)、量和計量單位.在用數(shù)來表示事物的特征并采用了科學的計量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù),即有根據(jù)的數(shù).科學數(shù)據(jù)是基于科學設計,通過使用觀察和測量獲得的數(shù)據(jù),認知自然現(xiàn)象和社會現(xiàn)象的變化規(guī)律,或者用來檢驗已經(jīng)存在的理論假設,由此得到了具有實際意義和理論意義的數(shù)據(jù).從數(shù)據(jù)中獲得科學數(shù)據(jù)的理論,即統(tǒng)計學理論.科學數(shù)據(jù)是通過統(tǒng)計學理論獲得的,而統(tǒng)計學理論是為獲得科學數(shù)據(jù)而產(chǎn)生的一門科學.若說數(shù)據(jù)是傳達事物特征的語言,進行科學研究的必備條件,認知世界的重要工具,那么大數(shù)據(jù)分析就是讓數(shù)據(jù)較大限度地發(fā)揮功能,充分表達并有效滿足不同需求的基本要求.基于統(tǒng)計學的發(fā)展史及在數(shù)據(jù)分析中的作用,完成將數(shù)據(jù)轉化為知識、挖掘數(shù)據(jù)內在規(guī)律、通過數(shù)據(jù)發(fā)現(xiàn)并解決實際問題、預測可能發(fā)生的結果等是研究大數(shù)據(jù)的任務,而這必然離不開統(tǒng)計學.以大數(shù)據(jù)為研究對象,通過數(shù)據(jù)挖掘、提取、分析等手段探索現(xiàn)象內在本質的數(shù)據(jù)科學必須在繼承或改進統(tǒng)計學理論的基礎上產(chǎn)生.
統(tǒng)計數(shù)據(jù)的發(fā)展變化經(jīng)歷了一系列過程,從只能收集到少量的數(shù)據(jù)到盡量多地收集數(shù)據(jù),到科學利用樣本數(shù)據(jù),再到綜合利用各類數(shù)據(jù),以至于發(fā)展到今天的選擇使用大數(shù)據(jù)的過程.而統(tǒng)計分析為了適應數(shù)據(jù)可觀察集的不斷增大,也經(jīng)歷了相應的各個不同階段,產(chǎn)生了統(tǒng)計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數(shù)據(jù)量以指數(shù)速度的不斷增長,統(tǒng)計學圍繞如何搜集、整理和分析數(shù)據(jù)而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現(xiàn)在進入了大數(shù)據(jù)時代,統(tǒng)計學依舊是數(shù)據(jù)分析的靈魂,大數(shù)據(jù)分析是數(shù)據(jù)科學賦予統(tǒng)計學的新任務.對于統(tǒng)計學而言,來自新時代的數(shù)據(jù)科學挑戰(zhàn)有可能促使新思想、新方法和新技術產(chǎn)生,這一挑戰(zhàn)也意味著對于統(tǒng)計學理論將面臨巨大的機遇.
3統(tǒng)計學在大數(shù)據(jù)時代下必須改革
傳統(tǒng)統(tǒng)計學是通過對總體進行抽樣來搜索數(shù)據(jù),對樣本數(shù)據(jù)進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統(tǒng)計結果的評判標準都是離不開樣本的抽取,不能適應大數(shù)據(jù)的4V特點,所以統(tǒng)計學為適應大數(shù)據(jù)技術的發(fā)展,必須進行改革.從學科發(fā)展角度出發(fā),大數(shù)據(jù)對海量數(shù)據(jù)進行存儲、整合、處理和分析,可以看成是一種新的數(shù)據(jù)分析方法.數(shù)據(jù)關系的內在本質決定了大數(shù)據(jù)和統(tǒng)計學之間必然存在聯(lián)系,大數(shù)據(jù)對統(tǒng)計學的發(fā)展提出了挑戰(zhàn),體現(xiàn)在大樣本標準的調整、樣本選取標準和形式的重新確定、統(tǒng)計軟件有待升級和開發(fā)及實質性統(tǒng)計方法的大數(shù)據(jù)化.但是也提供了一個機遇,體現(xiàn)在統(tǒng)計質量的提高、統(tǒng)計成本的下降、統(tǒng)計學作用領域的擴大、統(tǒng)計學科體系的延伸以及統(tǒng)計學家地位的提升[7].
3.1大數(shù)據(jù)時代抽樣和總體理論存在價值
傳統(tǒng)統(tǒng)計學中的樣本數(shù)據(jù)來自總體,而總體是客觀存在的全體,可以通過觀測到的或經(jīng)過抽樣而得到的數(shù)據(jù)來認知總體.但是在大數(shù)據(jù)時代,不再是隨機樣本,而是全部的數(shù)據(jù),還需要假定一個看不見摸不著的總體嗎?如果將大數(shù)據(jù)看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統(tǒng)統(tǒng)計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數(shù)據(jù)的復雜程度.但實際上很難做得到,大數(shù)據(jù)涵蓋多學科領域、多源、混合的數(shù)據(jù),各學科之間的數(shù)據(jù)融合,學科邊界模糊,各范疇的數(shù)據(jù)集互相重疊,合成一體,而且大數(shù)據(jù)涉及到各種數(shù)據(jù)類型.因此想要通過抽樣而使數(shù)據(jù)量達到傳統(tǒng)統(tǒng)計學的統(tǒng)計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數(shù)據(jù)和非結構數(shù)據(jù)交織在一起,系統(tǒng)首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數(shù)據(jù)信息來自于同一個地址的數(shù)據(jù)源,等等,傳統(tǒng)的統(tǒng)計學是無法做到的.在大數(shù)據(jù)時代下,是否需要打破傳統(tǒng)意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數(shù)據(jù)時代下,傳統(tǒng)統(tǒng)計學面臨改進的首要問題.
3.2統(tǒng)計方法在大數(shù)據(jù)時代下的重構問題
在大數(shù)據(jù)時代下,傳統(tǒng)的高維度表達、結構描述和群體行為分析方法已經(jīng)不能表達大數(shù)據(jù)在異構性、交互性、時效性、突發(fā)性等方面的特點,傳統(tǒng)的“假設-模型-檢驗”的統(tǒng)計方法受到了質疑,而且從“數(shù)據(jù)”到“數(shù)據(jù)”的統(tǒng)計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數(shù)據(jù)噪聲、篩選有價值的數(shù)據(jù)、整合不同類型的數(shù)據(jù)、快速對數(shù)據(jù)做出分析并得出分析結果等一系列問題都有待于研究.大數(shù)據(jù)分析涉及到三個維度,即時間維度、空間維度和數(shù)據(jù)本身的維度,怎樣才能、深入地分析大數(shù)據(jù)的復雜性與特性,掌握大數(shù)據(jù)的不確定性,構建高效的大數(shù)據(jù)計算模型,變成了大數(shù)據(jù)分析的突破口.科學數(shù)據(jù)的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數(shù)據(jù)的統(tǒng)計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發(fā)展過程,而絕不是否定一種理論、由另一種理論形式所代替.大數(shù)據(jù)時代的到來統(tǒng)計學理論必須要進行不斷的完善和發(fā)展,以適應呈指數(shù)增長的數(shù)據(jù)量的大數(shù)據(jù)分析的需要.
3.3如何構建大數(shù)據(jù)時代下統(tǒng)計結果的評價標準框架
大數(shù)據(jù)時代下,統(tǒng)計分析評價的標準又該如何變化?傳統(tǒng)統(tǒng)計分析的評價標準有兩個方面,一是性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.性評價有時表現(xiàn)為置信水平,有時表現(xiàn)為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統(tǒng)計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數(shù)據(jù)在一定程度上是全體數(shù)據(jù),因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、性問題怎么確定?依據(jù)是什么?有效性評價指的是真實性,即為誤差的大小,它與性、性有關.通常性是指觀察值與真實值的吻合程度,一般是無法衡量的,而性用抽樣分布的標準差來衡量.顯然,性是針對樣本數(shù)據(jù)而言的,也就是說樣本數(shù)據(jù)有性問題,同時也有性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數(shù)據(jù)中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數(shù)情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數(shù)據(jù)的全體數(shù)據(jù)而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數(shù)據(jù)的真實性只表現(xiàn)為性.但是由于大數(shù)據(jù)特有的種種特性,使得大數(shù)據(jù)的非抽樣誤差很難進行防范、控制,也很難對其進行性評價.總之,對于大數(shù)據(jù)分析來說,有些統(tǒng)計分析理論是否還有意義,確切說有哪些統(tǒng)計學中的理論可以適用于大數(shù)據(jù)分析,而哪些統(tǒng)計學中的理論需要改進,哪些統(tǒng)計學中的理論已不再適用于大數(shù)據(jù)統(tǒng)計研究,等等,都有待于研究.所以大數(shù)據(jù)時代的統(tǒng)計學必是在繼承中求改進,改進中求發(fā)展,重構適應大數(shù)據(jù)時代的新統(tǒng)計學理論.
4結論
來自于社會各種數(shù)據(jù)源的數(shù)據(jù)量呈指數(shù)增長,大數(shù)據(jù)對社會發(fā)展的推動力呈指數(shù)效應,大數(shù)據(jù)已是生命活動的主要承載者.一個新事物的出現(xiàn),必然導致傳統(tǒng)觀念和傳統(tǒng)技術的變革.對傳統(tǒng)統(tǒng)計學來說,大數(shù)據(jù)時代的到來無疑是一個挑戰(zhàn),雖然傳統(tǒng)統(tǒng)計學必須做出改變,但是占據(jù)主導地位的依然會是統(tǒng)計學,它會引領人類合理分析利用大數(shù)據(jù)資源.大數(shù)據(jù)給統(tǒng)計學帶來了機遇和挑戰(zhàn),統(tǒng)計學家們應該積極學習新事物,適應新環(huán)境,努力為大數(shù)據(jù)時代創(chuàng)造出新的統(tǒng)計方法,擴大統(tǒng)計學的應用范圍.
作者:岳曉寧;丁宇 單位:沈陽大學
統(tǒng)計學數(shù)據(jù)論文:數(shù)據(jù)科學的統(tǒng)計學內涵探討
一、統(tǒng)計學視角下的數(shù)據(jù)科學
統(tǒng)計學研究的對象是數(shù)據(jù),數(shù)據(jù)科學顧名思義也是以數(shù)據(jù)為研究對象,這產(chǎn)生一種直觀的錯覺,似乎數(shù)據(jù)科學與統(tǒng)計學之間存在某種與生俱來的淵源關系。Wu(1998)直言不諱,數(shù)據(jù)科學就是統(tǒng)計學的重命名,相應地,數(shù)據(jù)科學家替代了統(tǒng)計學家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因為數(shù)據(jù)量大本身并不足以促成“統(tǒng)計學”向“數(shù)據(jù)科學”的轉變,數(shù)據(jù)挖掘、機器學習這些概念似乎就已經(jīng)足夠了。問題的關鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計學研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結構化數(shù)據(jù);數(shù)據(jù)科學所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結構型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡日志等非結構型和半結構型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結構型數(shù)據(jù)為主)使基于關系型數(shù)據(jù)庫的傳統(tǒng)分析工具很難發(fā)揮作用,或者說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計分析方法很難在可容忍的時間范圍內完成存儲、管理和分析等一系列數(shù)據(jù)處理過程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學。真正意義上的現(xiàn)代統(tǒng)計學是從處理小數(shù)據(jù)、不的實驗等這類現(xiàn)實問題發(fā)展起來的,而數(shù)據(jù)科學是因為處理大數(shù)據(jù)這類現(xiàn)實問題而興起的。因此數(shù)據(jù)科學的研究對象是大數(shù)據(jù),而統(tǒng)計學以結構型數(shù)據(jù)為研究對象。退一步,單從數(shù)量級來講,也已發(fā)生了質變。對于結構化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟的(有效性),實踐中還需要借助數(shù)據(jù)挖掘、機器學習、并行處理技術等現(xiàn)代計算技術才能實現(xiàn)。
二、數(shù)據(jù)科學的統(tǒng)計學內涵
(一)理論基礎
數(shù)據(jù)科學中的數(shù)據(jù)處理和分析方法是在不同學科領域中分別發(fā)展起來的,譬如,統(tǒng)計學、統(tǒng)計學習或稱統(tǒng)計機器學習、數(shù)據(jù)挖掘、應用數(shù)學、數(shù)據(jù)密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計量經(jīng)濟學、文獻計量學、網(wǎng)絡計量學、生物統(tǒng)計學等。因此,有學者將數(shù)據(jù)科學定義為計算機科學技術、數(shù)學與統(tǒng)計學知識、專業(yè)應用知識三者的交集,這意味著數(shù)據(jù)科學是一門新興的交叉學科。但是這種沒有側重的疊加似乎只是羅列了數(shù)據(jù)科學所涉及到的學科知識,并沒有進行實質性的分析,就好似任何現(xiàn)實活動都可以拆解為不同的細分學科,這是必然的。根據(jù)Naur(1960,1974)的觀點,數(shù)據(jù)科學或稱數(shù)據(jù)學是計算機科學的一個替代性稱謂。但是這種字面上的轉換,并沒有作為一個獨立的學科而形成。Cleveland(2001)首次將數(shù)據(jù)科學作為一個獨立的學科提出時,將數(shù)據(jù)科學表述為統(tǒng)計學加上它在計算技術方面的擴展。這種觀點表明,數(shù)據(jù)科學的理論基礎是統(tǒng)計學,數(shù)據(jù)科學可以看作是統(tǒng)計學在研究范圍(對象)和分析方法上不斷擴展的結果。一如統(tǒng)計學最初只是作為征兵、征稅等行政管理的附屬活動,而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴展來看,是從最初的結構型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結構型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結構型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴展到現(xiàn)在的非(半)結構型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴展來看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計算機實現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢越來越突出。注意到,數(shù)據(jù)分析有驗證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設,就是觀測數(shù)據(jù)是由背后的一個(隨機)模型生成,因此數(shù)據(jù)分析的基本問題就是找出這個(隨機)模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關系,兩者皆必不可少,強調EDA是因為它被低估了。數(shù)據(jù)導向是計算機時代統(tǒng)計學發(fā)展的方向,這一觀點已被越來越多的統(tǒng)計學家所認同。但是數(shù)據(jù)導向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機制;而算法模型則認為復雜的現(xiàn)實世界無法用數(shù)學公式來刻畫,即,不設置具體的數(shù)學模型,同時對數(shù)據(jù)也不做相應的限制性假定。算法模型自20世紀80年代中期以來隨著計算機技術的迅猛發(fā)展而得到快速成長,然而很大程度上是在統(tǒng)計學這個領域之外“悄然”進行的,比如人工神經(jīng)網(wǎng)絡、支持向量機、決策樹、隨機森林等機器學習和數(shù)據(jù)挖掘方法。若響應變量記為y,預測變量記為x,擾動項和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關系并對y做出預測,其中,f是一個有顯式表達的函數(shù)形式(若f先驗假定,則對應CDA;若f是探索得到的,則對應EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統(tǒng)建模的基本觀點是,不僅要得到正確的模型———可解釋性強,而且要得到的模型———外推預測能力強。而對于現(xiàn)實中復雜的、高維的、非線性的數(shù)據(jù)集,更切合實際的做法是直接去尋找一個恰當?shù)念A測規(guī)則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴展性更強。基于算法的基本形式類似于非參數(shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低yx,因為非參數(shù)方法很多時候要求f或其一階導數(shù)是平滑的,而這里直接跳過了函數(shù)機制的探討,尋找的只是一個預測規(guī)則(后續(xù)的檢驗也是基于預測構造的)。在很多應用場合,算法模型得到的是針對具體問題的解(譬如某些參數(shù)是被當作一個確定的值通過優(yōu)化算法得到的),并不是統(tǒng)計意義上的推斷解。
(二)技術維度
數(shù)據(jù)科學是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質既不是數(shù)學,也不是軟件程序,而是對數(shù)據(jù)的“閱讀”和“理解”。技術只是輔助數(shù)據(jù)理解的工具,一個毫無統(tǒng)計學知識的人應用統(tǒng)計軟件也可以得到統(tǒng)計結果,但無論其過程還是結果都是可疑的,對統(tǒng)計結果的解釋也無法令人信服。“從計算機科學自身來看,這些應用領域提供的主要研究對象就是數(shù)據(jù)。雖然計算機科學一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進一步的加強”。不可否認,統(tǒng)計分析逐漸向計算機科學技術靠近的趨勢是明顯的。這一方面是因為,數(shù)據(jù)量快速膨脹,數(shù)據(jù)來源、類型和結構越來越復雜,迫切需要開發(fā)更高效率的存儲和分析工具,可以很好地適應數(shù)據(jù)量的快速膨脹;另一方面,計算機科學技術的迅猛發(fā)展為新方法的實現(xiàn)提供了重要的支撐。對于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計算機科學這個屬性的一個重要原因還不單純是因為需要統(tǒng)計軟件來協(xié)助基本的統(tǒng)計分析和計算,而是大數(shù)據(jù)并不能像早先在關系型數(shù)據(jù)庫中的數(shù)據(jù)那樣可以直接用于統(tǒng)計分析。事實上,面對越來越龐雜的數(shù)據(jù),核心的統(tǒng)計方法并沒有實質性的改變,改變的只是實現(xiàn)它的算法。因此,從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學的方法論,而是計算機科學技術和算法的適應性。譬如大數(shù)據(jù)的存儲、管理以及分析架構,這些都是技術上的應對,是如何實現(xiàn)統(tǒng)計分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒有實質性的改變。因此,就目前而言,大數(shù)據(jù)分析的關鍵是計算機技術如何更新升級來適應這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)應用維度
在商業(yè)應用領域,數(shù)據(jù)科學被定義為,將數(shù)據(jù)轉化為有價值的商業(yè)信息①的完整過程。數(shù)據(jù)科學家要同時具備數(shù)據(jù)分析技術和商業(yè)敏感性等綜合技能。換句話說,數(shù)據(jù)科學家不僅要了解數(shù)據(jù)的來源、類型和存儲調用方式,而且還要知曉如何選擇相應的分析方法,同時對分析結果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標是數(shù)據(jù)科學家從一開始就應該熟悉整個數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫、統(tǒng)計學、機器學習、經(jīng)濟學、商業(yè)分析等片段化碎片化的知識。②短期目標實際上是一個“二級定義”,即,鼓勵已經(jīng)在專業(yè)領域內有所成就的統(tǒng)計學家、程序員、商業(yè)分析師相互學習。在提及數(shù)據(jù)科學的相關文獻中,對應用領域有更多的傾向;數(shù)據(jù)科學與統(tǒng)計學、數(shù)學等其他學科的區(qū)別恰在于其更傾向于實際應用。甚至有觀點認為,數(shù)據(jù)科學是為應對大數(shù)據(jù)現(xiàn)象而專門設定的一個“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學家區(qū)別于一般統(tǒng)計人員的基本素質。對數(shù)據(jù)的簡單收集和報告不是數(shù)據(jù)科學的要義,數(shù)據(jù)科學強調對數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發(fā)問)。同時數(shù)據(jù)科學家要有良好的表達能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實清楚地表達給相關部門以便實現(xiàn)有效協(xié)作。從商業(yè)應用和服務社會的角度來看,強調應用這個維度無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學數(shù)據(jù)導向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進商業(yè)理解,而且包括數(shù)據(jù)科學家、首席信息官這些提法也都肇始于實務部門。不過,早在20世紀90年代中期,已故圖靈獎得主格雷(JimGray)就已經(jīng)意識到,數(shù)據(jù)庫技術的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學領域而非商業(yè)領域(科學研究領域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學、生物醫(yī)藥、互聯(lián)網(wǎng)技術等領域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學》攜其子刊《科學-信號傳導》、《科學-轉譯醫(yī)學》、《科學-職業(yè)》專門就日益增長的科學研究數(shù)據(jù)進行了廣泛的討論。格雷還進一步提出科學研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上是將數(shù)據(jù)從計算科學中單獨區(qū)別開來了。
三、數(shù)據(jù)科學范式對統(tǒng)計分析過程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個機構內的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關聯(lián)關系,也可以說大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個層面來說,將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當。事實上,孤立的大數(shù)據(jù),其價值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結合、線上和線下數(shù)據(jù)的結合,當放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價值。譬如消費行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結合,移動通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設計,微博和社交網(wǎng)絡數(shù)據(jù)用于購物推薦,搜索數(shù)據(jù)用于流感預測、利用社交媒體數(shù)據(jù)監(jiān)測食品價等等。特別是數(shù)據(jù)集之間建立的均衡關系,一方面無形中增強了對數(shù)據(jù)質量的監(jiān)督和約束;另一方面,為過去難以統(tǒng)計的指標和變量提供了另辟蹊徑的思路。從統(tǒng)計學的角度來看,數(shù)據(jù)科學(大數(shù)據(jù))對統(tǒng)計分析過程的各個環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評價、等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計學被作為一個獨立的學科分離出來之前(1900年前),統(tǒng)計學家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計方法(統(tǒng)計推斷)以及現(xiàn)代意義上的統(tǒng)計調查(抽樣調查)正是在這個時期產(chǎn)生。隨后的45年里,統(tǒng)計方法因廣泛的應用而得到快速發(fā)展。變革再次來自于統(tǒng)計分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉變:傳統(tǒng)的統(tǒng)計調查方法通常是經(jīng)過設計的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實錄的、有機的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時都在增加(數(shù)據(jù)集是動態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來源和類型更加豐富,數(shù)據(jù)庫間的關聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡),問題也變得更加復雜。隨著移動電話和網(wǎng)絡的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統(tǒng)計調查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護日益趨緊,涉及個人信息的數(shù)據(jù)從常規(guī)調查中越來越難以取得(從各國的經(jīng)驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統(tǒng)計的數(shù)據(jù)來源已經(jīng)無法局限于傳統(tǒng)的統(tǒng)計調查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計分析方法的核心是抽樣推斷(參數(shù)估計和假設檢驗),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構建的推薦算法,誠然改進算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計學的關鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來產(chǎn)生質量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網(wǎng)絡數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導向的、基于算法的數(shù)據(jù)分析方法成為計算機時代統(tǒng)計學發(fā)展無法回避的一個重要趨勢。算法模型不僅對數(shù)據(jù)分布結構有更少的限制性假定,而且在計算效率上有很大的優(yōu)勢。特別是一些積極的開源軟件的支撐,以及天生與計算機的相容性,使算法模型越來越受到學界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲、傳輸?shù)却髷?shù)據(jù)管理方面的問題。僅從數(shù)量上來看,信息爆炸、數(shù)據(jù)過剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳墓、豐富的數(shù)據(jù)貧乏的知識……這些詞組表達的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數(shù)據(jù)中有利用價值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對開采工具的渴求,當時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數(shù)據(jù)。然而,大數(shù)據(jù)時代的思路改變了,開始變本加厲巨細靡遺地記錄一切可以記錄的數(shù)據(jù)。因為:數(shù)據(jù)再怎么拋棄還是會越來越多。我們不能通過刪減數(shù)據(jù)來適應自己的無能,為自己不愿做出改變找借口,而是應該面對現(xiàn)實,提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當前無用的數(shù)據(jù)將來也無用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲的成本。大數(shù)據(jù)存儲目前廣泛應用的是GFS、HDFS等基于計算機群組的文件系統(tǒng),它可以通過簡單增加計算機來無限地擴充存儲能力。值得注意的是,分布式文件系統(tǒng)存儲的數(shù)據(jù)僅僅是整個架構中最基礎的描述,是為其他部件服務的(比如MapReduce),并不能直接用于統(tǒng)計分析。而NoSQL這類分布式存儲系統(tǒng)可以實現(xiàn)高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫編程,二者的差異將變得越來越模糊。大數(shù)據(jù)分析的可行性問題指的是,數(shù)據(jù)量可能大到已經(jīng)超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內存和處理器要求很高,那么數(shù)據(jù)相對也就“大”了。換句話說,可行性問題主要是,數(shù)據(jù)量太大了,或者算法的復雜度太高。大數(shù)據(jù)分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網(wǎng)格計算也是并行處理,但是對于大數(shù)據(jù)而言,由于很多節(jié)點需要訪問大量數(shù)據(jù),因此很多計算節(jié)點會因為網(wǎng)絡帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節(jié)點上存儲數(shù)據(jù),以實現(xiàn)數(shù)據(jù)的本地快速訪問。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結論
(一)數(shù)據(jù)科學不能簡單地理解為統(tǒng)計學的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結構型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡日志等非結構型和半結構型數(shù)據(jù);同時,數(shù)量級也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學的理論基礎是統(tǒng)計學,數(shù)據(jù)科學可以看作是統(tǒng)計學在研究范圍(對象)和分析方法上不斷擴展的結果,特別是數(shù)據(jù)導向的、基于算法的數(shù)據(jù)分析方法越來越受到學界的廣泛重視。
(二)從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學的方法論,而是計算機科學技術和算法的適應性。譬如大數(shù)據(jù)的存儲、管理以及分析架構,這些都是技術上的應對,核心的數(shù)據(jù)分析邏輯并沒有實質性的改變。因此,大數(shù)據(jù)分析的關鍵是計算機技術如何更新升級以適應這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)大數(shù)據(jù)問題很大程度上來自于商業(yè)領域,受商業(yè)利益驅動,因此數(shù)據(jù)科學還被普遍定義為,將數(shù)據(jù)轉化為有價值的商業(yè)信息的完整過程。這種強調應用維度的觀點無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學數(shù)據(jù)導向的理念。不過,早在20世紀90年代中期,已故圖靈獎得主格雷就已經(jīng)意識到,數(shù)據(jù)庫技術的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學領域而非商業(yè)領域(科學研究領域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學研究的“第四范式”是數(shù)據(jù),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上將數(shù)據(jù)從計算科學中單獨區(qū)別開了。
(四)數(shù)據(jù)科學范式對統(tǒng)計分析過程的各個環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過設計的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內容,這種改變的直接影響是淡化了樣本的意義,同時增進了數(shù)據(jù)的客觀性。事實上,在某些場合(比如社會網(wǎng)絡數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲和分析也不再一味地依賴于高性能計算機,而是轉向由中低端設備構成的大規(guī)模群組并行處理,采用橫向擴展的方式。
(五)目前關于大數(shù)據(jù)和數(shù)據(jù)科學的討論多集中于軟硬件架構(IT視角)和商業(yè)領域(應用視角),統(tǒng)計學的視角似乎被邊緣化了,比如覆蓋面、代表性等問題。統(tǒng)計學以數(shù)據(jù)為研究對象,它對大數(shù)據(jù)分析的影響也是顯而易見的,特別是天然的或潛在的平衡或相關關系不僅約束了數(shù)據(jù)質量,而且為統(tǒng)計推斷和預測開辟了新的視野。
作者:魏瑾瑞蔣萍
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)環(huán)境下統(tǒng)計學改革探討
摘要:進年來,隨著科學技術的不斷創(chuàng)新,信息技術的不斷發(fā)展,人類文明已經(jīng)迎來了大數(shù)據(jù)時代,隨之而來的必將是經(jīng)濟的不斷攀升,企業(yè)運行模式的不斷轉型,人們生活方式的不斷改變,社會整體經(jīng)濟以及人們生活方式也將朝著多元化、便捷化、科技化、舒適化方向發(fā)展,所以,這將是一個具有潛力的新型產(chǎn)業(yè),而與之對應的統(tǒng)計學也將順勢而行,迎來新的改革,基于在大數(shù)據(jù)環(huán)境下統(tǒng)計學理論及方法改革探究,筆者進行簡單闡述與研究。
關鍵詞:大數(shù)據(jù):統(tǒng)計學理論:創(chuàng)新應用
顧名思義,統(tǒng)計學幾乎是對所有領域的數(shù)據(jù)進行統(tǒng)計與研究、分析篩選,因而統(tǒng)計學在如今的大數(shù)據(jù)時代幾乎涉及到各行各業(yè),其表現(xiàn)方式為,統(tǒng)計出來的數(shù)據(jù)進行科學的研究與分析,可以有效的幫著企業(yè)獲取有效信息,探索其中數(shù)量規(guī)律行,進而企業(yè)可以更高效、更精準的進行工作。而如今隨著現(xiàn)代信息技術以及數(shù)字科學技術的不斷發(fā)展,統(tǒng)計學也得到了更多的應用,也被人們更加重視,應用最多的為企業(yè)管理系統(tǒng)中,統(tǒng)計學中的理論及其分析方式幫助企業(yè)進行對數(shù)據(jù)數(shù)量規(guī)律性的探以及定性分析,為企業(yè)尋找自身的管理經(jīng)營的基礎進行有效地夯實,奠定企業(yè)向更加穩(wěn)定方向進行發(fā)展。而如今計算機軟件的不斷發(fā)展與更新,大數(shù)據(jù)時代的到來,統(tǒng)計學的應用也會得到更為廣泛的發(fā)展,其中有政府和企業(yè)利用計算機對相關數(shù)據(jù)的采集、整理、統(tǒng)計進行綜合的分析。統(tǒng)計學相關的軟件開發(fā)商也將軟件設計的更為簡易化、便捷化,使得非統(tǒng)計學專業(yè)的人員也可以使用。當今社會經(jīng)濟高速發(fā)展,統(tǒng)計學的應用及其發(fā)展趨勢將會迎合時代的到來進行改革改變,促進社會經(jīng)濟的快速提高。
一、大數(shù)據(jù)時代的內涵及其意義
(一)大數(shù)據(jù)時代的內涵
大數(shù)據(jù)是指在一定時間內對信息的捕捉、管理、處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力、流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。針對這些信息資產(chǎn),利用統(tǒng)計學原理對其進行數(shù)據(jù)分析、提煉、分解。也可以從另一個方面理解大數(shù)據(jù),它涉及各行各業(yè),是多個領域數(shù)據(jù)的集中區(qū)域,涉及到的有自然科學、人文科學、社會經(jīng)濟學等等相關的混合數(shù)據(jù),它們之間相互參雜,互相融合,形成非常龐大的數(shù)據(jù)系統(tǒng)。目前傳統(tǒng)統(tǒng)計學中的統(tǒng)計方法是分析單個計算機系統(tǒng)的數(shù)據(jù)儲備,無法分析多臺計算機的數(shù)據(jù),在數(shù)據(jù)統(tǒng)計中產(chǎn)生了局限性、單一性、不穩(wěn)定性和客觀性等,但是目前大數(shù)據(jù)時代的到來,改變了如今這一現(xiàn)象,改變了大數(shù)據(jù)環(huán)境下數(shù)據(jù)流、磁盤存儲、分布存儲、多線條等環(huán)境。大數(shù)據(jù)環(huán)境主要起到的作用為,將龐大而復雜的數(shù)據(jù)進行轉換,轉換成為簡單易懂、顯而易見的內容,進而使工作人員對數(shù)據(jù)進行源頭和機制的追述,從而研究出適合自身并有效的應對策略。因將數(shù)據(jù)轉換成需要的知識需要相對緩慢的時間,所以工作人員將當前龐大復雜的數(shù)據(jù)分別存放在不同的儲備空間里,有些工作人員將目前無法分析的或是不需要的數(shù)據(jù)進行整體精準的記錄儲存,記錄成一整套的數(shù)據(jù)發(fā)展史,已供日后應用,以備不時之需,為今后科研做出充分準備。
(二)大數(shù)據(jù)時代給社會帶來的改革
大數(shù)據(jù)在一夜之間成為各大互聯(lián)網(wǎng)上的討論話題,成為一個包含性非常強的概念,大數(shù)據(jù)時代也成為人們關注的話題,它的到來已然成為不爭的事實,從本質上來看,它是當今中新型的產(chǎn)業(yè),通過對海量的數(shù)據(jù)進行統(tǒng)計分析追蹤發(fā)現(xiàn)龐大的市場,通過對人們行為喜好進行科學分析,獲取營銷手段。大數(shù)據(jù)使得廣告投放精準化、醫(yī)療衛(wèi)生體系精密化、社會安全管理有序化等多方面優(yōu)勢,同時大數(shù)據(jù)時代的到來隨著帶來了新的新業(yè)市場,大數(shù)據(jù)將為全球帶來440萬個IT崗位和上千萬個非IT崗位,提供了更多的就業(yè)崗位。大數(shù)據(jù)時代到來的變革之大,影響著人們傳統(tǒng)的工作方式,各行各業(yè)的人利用研究問題來驅動收據(jù)數(shù)據(jù),然后再利用收集來的數(shù)據(jù)進行分析,從而解決問題,從這一行為來講,人們會慢慢適應通過大數(shù)據(jù)進行統(tǒng)計學的研究分析來解決問題,利用通過統(tǒng)計學理論開發(fā)的軟件搜索、分析一些研究性成果。目前統(tǒng)計學家通過數(shù)據(jù)的收集、數(shù)據(jù)的處理以及個人分析能力進行科學探索,如今大數(shù)據(jù)的到來將會威脅的他們的領域,大數(shù)據(jù)將我們難以理解的內容翻譯成我們一看便知的統(tǒng)計成果,優(yōu)化了人們工作的便捷性、舒適性等。
二、大數(shù)據(jù)時代統(tǒng)計學的發(fā)展研究
大數(shù)據(jù)發(fā)展如今,滲透社會的各個角落,分析大數(shù)據(jù)需要多個領域的結合,它并非單一的科學領域,自成一體,現(xiàn)如今的統(tǒng)計學家不僅需要研究探討計算機對數(shù)據(jù)的實時決策,更是要將其與統(tǒng)計學理論及其方法相互結合,同時,計算機專家也要不斷學習統(tǒng)計學的一些知識,統(tǒng)計學與大數(shù)據(jù)相互結合才能順應時代的發(fā)展。獲取大數(shù)據(jù)之后,研究探討大數(shù)據(jù)時,針對數(shù)據(jù)分析的高難問題,利用統(tǒng)計學原理對其進行數(shù)據(jù)分析、提煉、分解時,需創(chuàng)新出新的更便捷更高效的統(tǒng)計處理方法,在壓縮提煉過程中,解決數(shù)據(jù)混雜的問題,在分解數(shù)據(jù)中,解決精準問題,使得大數(shù)據(jù)與統(tǒng)計理論更好的溝通合作,構造全局統(tǒng)計結果。統(tǒng)計學主要是對海量的數(shù)據(jù)進行整理分類,結合計算機進行科學分析,探究出數(shù)據(jù)的數(shù)量規(guī)律性,從而得出結論,由于目前統(tǒng)計學中的統(tǒng)計學理論和統(tǒng)計方法與時代稍有差距,如今更是大數(shù)據(jù)時代,而大數(shù)據(jù)隨機或非隨機的誤差比較大,所以傳統(tǒng)的統(tǒng)計學理論及方法無法滿足如今變革,也無法更好的獲取大數(shù)據(jù)背景下所帶來的各種機遇。現(xiàn)在的統(tǒng)計學家應該更加努力專研統(tǒng)計學理論以及對數(shù)據(jù)壓縮、分解的方法,舍棄無法適應當前時代的陳舊理論及方法,必須去學習如何迎合新的事物的到來進行改革改變,只有這樣才能順勢而行。
作者:宋瑞雪 周晏羽 黃揚藝 單位:沈陽理工大學
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計學面臨的挑戰(zhàn)及建議
摘要:傳統(tǒng)的統(tǒng)計學是因數(shù)據(jù)而生的,也是以研究數(shù)據(jù)為根本目的,傳統(tǒng)統(tǒng)計學有其獨特的數(shù)據(jù)收集、整理與分析的方法體系,也確實為我們研究數(shù)據(jù)帶來了便利,但是不得不思考的是在數(shù)據(jù)爆炸的信息時代,尤其是“大數(shù)據(jù)”概念產(chǎn)生以后,傳統(tǒng)的統(tǒng)計學如果不改變,又將如何應對大數(shù)據(jù)分析帶來的挑戰(zhàn),該文將從零售行業(yè)的角度分析大數(shù)據(jù)為傳統(tǒng)統(tǒng)計學帶來的諸多挑戰(zhàn)。
關鍵詞:總體數(shù)據(jù);相關性;個性化營銷;定制服務
隨著科技的發(fā)展,大數(shù)據(jù)已經(jīng)成為信息時代的一場技術革命。大數(shù)據(jù)是指傳統(tǒng)數(shù)據(jù)庫管理工具難以處理的大量的、多樣化的數(shù)據(jù)。當前普遍認為大數(shù)據(jù)有3個特點:及時,數(shù)據(jù)量非常大;第二,數(shù)據(jù)增長速度非常快;第三,數(shù)據(jù)類型越來越多樣化[1]。零售業(yè)作為傳統(tǒng)的線下實體經(jīng)營行業(yè),積累了大量的消費者以及管理層的數(shù)據(jù),如果依靠傳統(tǒng)的統(tǒng)計學模型對這些數(shù)據(jù)進行分析,很難得出可以用于企業(yè)經(jīng)營管理的有效信息,加上年輕一代消費者越來越追求個性化,所以傳統(tǒng)統(tǒng)計學所采用的根據(jù)部分樣本推斷總體的分析方法已經(jīng)無法滿足市場的個性化需求,因此,傳統(tǒng)統(tǒng)計學要想跟上時展的步伐,就必須做出與之相適應的改變。
1零售行業(yè)里大數(shù)據(jù)與傳統(tǒng)統(tǒng)計學的區(qū)別
維克多?邁克爾在《大數(shù)據(jù)時代》一書中提出了大數(shù)據(jù)思維的3個最顯著的變化:一是樣本等于總體。這與過去基于樣本進行統(tǒng)計分析的思維截然不同;二是不再追求性。在大數(shù)據(jù)中往往存在“噪音”和罕見事件,這樣的數(shù)據(jù)影響了結果的性;三是相關分析比因果分析更重要,在大數(shù)據(jù)時代我們將注意力更多地放在“是什么”而不是“為什么”[2]。大數(shù)據(jù)的以上特性在零售行業(yè)同樣適用,零售行業(yè)的大數(shù)據(jù)與傳統(tǒng)統(tǒng)計學的區(qū)別有以下3點。及時,大數(shù)據(jù)收集總體數(shù)據(jù),而傳統(tǒng)統(tǒng)計學多采用抽樣的方式收集部分數(shù)據(jù)。傳統(tǒng)統(tǒng)計學在做統(tǒng)計分析時首先針對某一個問題提出假設,然后確定需要調查對象的總體,由于數(shù)據(jù)采集存在一定的難度,所以統(tǒng)計分析采取從總體中隨機抽樣選取一部分數(shù)據(jù)作為分析的對象,如此的話對隨機抽樣的方法與數(shù)據(jù)采集的性要求是非常高的。而大數(shù)據(jù)收集的是數(shù)據(jù)“總體”,在進行分析的時候不會人為進行假設,排除了人的干擾因素,僅僅從數(shù)據(jù)本身出發(fā)進行數(shù)據(jù)分析。在零售行業(yè)如果能運用大數(shù)據(jù)思維分析數(shù)據(jù),從產(chǎn)生數(shù)據(jù)的顧客行為本身出發(fā),針對不同顧客做出個性化營銷,而不是人為假設的話,管理層就可以根據(jù)數(shù)據(jù)進行預測,避免了主觀的經(jīng)驗與直覺的判斷。沃爾瑪作為零售行業(yè)的巨頭,運用大數(shù)據(jù)分析得出的著名的啤酒與尿布理論可以證明這一點。第二,大數(shù)據(jù)注重個體行為的研究,統(tǒng)計學用樣本數(shù)據(jù)推斷總體行為。傳統(tǒng)的統(tǒng)計學采用抽樣調查的方式對樣本數(shù)據(jù)進行分析,用樣本推斷總體,那些在圖表上反映出來的異常數(shù)據(jù)被排除在外。大數(shù)據(jù)包容一切數(shù)據(jù),其中包括各種結構化、半結構化、非結構化甚至是異構數(shù)據(jù)。對于零售行業(yè)而言,顧客的總體行為表現(xiàn)是沒有意義的,因為每個顧客的需求不同,在不同的時間和地點需要的商品都不同,只有根據(jù)每位顧客的不同行為進行個性化服務才能讓線下的零售行業(yè)有優(yōu)勢可言。美國品質連鎖百貨Nordstorm最近開始采用線下實體店客流分析服務供應商EuclidAnalytics公司的客流監(jiān)測解決方案EuclidZero,基于用戶連接Wifi行為來獲取店內顧客手機的Mac物理地址并進行線下追蹤,由此可以通過單個顧客在百貨店里的行動路線和滯留時間,從而用于改善商品羅列與室內動線以及顧客個性化偏好與推薦服務[3]。第三,大數(shù)據(jù)注重數(shù)據(jù)之間的相關性,而傳統(tǒng)統(tǒng)計學更加關注數(shù)據(jù)分析的結果。從社會發(fā)展的角度來看,大數(shù)據(jù)對數(shù)據(jù)的關聯(lián)性分析更有助于零售行業(yè)管理層做出決策。對于傳統(tǒng)零售行業(yè)而言,線下的用戶體驗是非常重要的,如果能根據(jù)用戶行為數(shù)據(jù)分析出哪些商品放在一起能促進購買力,那么零售行業(yè)將會有更大的利潤空間,相比之下,統(tǒng)計學進行的結果分析顯得沒有那么重要。
2大數(shù)據(jù)在零售行業(yè)的優(yōu)勢
邁克爾?舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析數(shù)據(jù)的渴望。及時,大數(shù)據(jù)收集的數(shù)據(jù)是多樣化的、非標準化的,而統(tǒng)計學收集的數(shù)據(jù)都是標準化、結構化的,統(tǒng)計學無法對非結構化的數(shù)據(jù)進行分析與測量。但是在零售行業(yè)僅僅對標準化的數(shù)據(jù)進行分析做出的判斷已無法滿足行業(yè)的需求,通過對用戶在商品前滯留的時間以及與貨架上商品的互動行為產(chǎn)生的數(shù)據(jù)進行分析,從而調整貨架的位置才是主流。第二,大數(shù)據(jù)可以實時、快速監(jiān)測與收集數(shù)據(jù),而統(tǒng)計學收集數(shù)據(jù)時間長、難度高。大數(shù)據(jù)收集與處理數(shù)據(jù)的能力對于零售行業(yè)的供應鏈管理十分有效。零售市場可以利用大數(shù)據(jù)對庫存和員工行為進行監(jiān)測,從而為管理層做決策提供依據(jù)。沃爾瑪為了提高大數(shù)據(jù)成果在不同部門之間的高效利用,并增加存貨管理和供應鏈管理的投入回報率,其開發(fā)了RetialLink工具。供應商使用該工具可以預先知道不同店鋪商品銷售和庫存情況,從而能夠在沃爾瑪發(fā)出指令前自行補貨,極大地減少商品斷貨,提高供應鏈的庫存水平[4]。
3傳統(tǒng)統(tǒng)計學面對大數(shù)據(jù)挑戰(zhàn)要做出改變
大數(shù)據(jù)的出現(xiàn)給我們的生活帶來了巨大的改變,甚至不同國家的政府都將大數(shù)據(jù)作為國家的戰(zhàn)略資源。相比之下,傳統(tǒng)統(tǒng)計學面臨著大數(shù)據(jù)的巨大挑戰(zhàn),如果能根據(jù)自身優(yōu)勢做出改變,傳統(tǒng)統(tǒng)計學仍然具有存在的價值。及時,改變數(shù)據(jù)的收集方式。統(tǒng)計學收集數(shù)據(jù)時前期要做大量的準備工作,需要耗費大量的人力物力成本,所以想要更加高效收集數(shù)據(jù),就必須做出改變。由于大數(shù)據(jù)是基于互聯(lián)網(wǎng)收集數(shù)據(jù)的,所以對于不使用互聯(lián)網(wǎng)的地區(qū)和群體來說,大數(shù)據(jù)就顯得很無力,而傳統(tǒng)統(tǒng)計學可以在此基礎上發(fā)揮自身優(yōu)勢,在以往的數(shù)據(jù)收集方式上進行創(chuàng)新。第二,傳統(tǒng)統(tǒng)計學在數(shù)據(jù)的分析思維上也要進行改變。傳統(tǒng)統(tǒng)計學不光要打破只能分析標準化數(shù)據(jù)的魔咒,更要著重分析問題的本質,而不是一味注重結果分析,雖然“是什么”很重要,但是一直以來探尋事物內在本質才是不斷推動人類社會進步的動力所在,所以統(tǒng)計學也要學會知道“為什么”。
4結語
信息技術的發(fā)展是無法想象的,我們無法通過今天來預測未來10年信息行業(yè)的發(fā)展。只有追上時代的腳步,做出順應時代潮流的改變,才能免遭淘汰,對于傳統(tǒng)統(tǒng)計學也是一樣,停留在原地不動是不明智的,改變才是世界的本質。而所有技術的變革都將反饋給人類的生活,讓人們和社會從中受益。
作者:吳興蔚 單位:河北省張家口市蔚縣及時中學
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學面臨機遇與挑戰(zhàn)
摘要:作為與數(shù)據(jù)緊密相關的統(tǒng)計學學科,在大數(shù)據(jù)的時代背景下,當今數(shù)據(jù)的獲取和規(guī)模發(fā)生了根本的變化,統(tǒng)計學面臨著新的機遇和挑戰(zhàn),需要在方法論上有所突破,研究統(tǒng)計學在大數(shù)據(jù)時代的發(fā)展趨勢有著十分重要的時代意義。
關鍵詞:大數(shù)據(jù);統(tǒng)計學;樣本;機遇;挑戰(zhàn)
21世紀爆發(fā)的信息技術革命,改變了社會發(fā)展過程中的方方面面。在云技術、物聯(lián)網(wǎng)技術等高科技信息技術的大規(guī)模革新背景下,網(wǎng)絡數(shù)據(jù)增長速率十分驚人,海量龐大的數(shù)據(jù)標志著大數(shù)據(jù)時代的來臨。作為與數(shù)據(jù)緊密相關的統(tǒng)計學學科,在大數(shù)據(jù)的時代背景下,將會面臨一系列的機遇和挑戰(zhàn),研究統(tǒng)計學在大數(shù)據(jù)時代的發(fā)展趨勢有著十分重要的時代意義。
1.大數(shù)據(jù)時代統(tǒng)計學面臨的挑戰(zhàn)
統(tǒng)計學是一門傳統(tǒng)的學科,發(fā)展至今已經(jīng)有幾千年歷史,無論是學科理論領域內還是生產(chǎn)實踐過程中,統(tǒng)計學的發(fā)展已經(jīng)十分成熟,存在著許多成熟的研究成果。統(tǒng)計學的不斷發(fā)展為人類的社會生產(chǎn)帶來了極大的影響,隨著大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)海量、分散式的分布狀態(tài),其對統(tǒng)計學的影響也是較為明顯的。一方面,大數(shù)據(jù)時代數(shù)據(jù)之“大”已經(jīng)超出人們的想象,數(shù)據(jù)之“全”讓人們對于事情的認知更加,大數(shù)據(jù)的多樣性、大體量改變了數(shù)據(jù)樣本與總體之間的關系,另一方面,大數(shù)據(jù)的數(shù)據(jù)多樣性的特點改變了傳統(tǒng)統(tǒng)計對數(shù)據(jù)統(tǒng)計分析的主觀訴求,過去人們通過統(tǒng)計分析更偏向于追求“為什么”,而現(xiàn)在的統(tǒng)計分析更趨同與追求“是什么”。這一系列的影響對于統(tǒng)計學的進一步發(fā)展提出了新的發(fā)展挑戰(zhàn):
1.1樣本選取以及標準的確定難度加大
樣本統(tǒng)計屬于統(tǒng)計學的核心內容,統(tǒng)計學通過樣本統(tǒng)計對客觀事物數(shù)量特點、數(shù)量關系等展開研究。在大數(shù)據(jù)背景下,樣本與總體之間的局部與整體之間的關聯(lián)性將會進一步地降低,造成樣本即是總體的變化趨勢,因而會造成大樣本的標準化的變更。數(shù)據(jù)來源的多樣化進一步的提升了樣本數(shù)量,繼而提升了統(tǒng)計度,促進了統(tǒng)計學學科的高精尖的發(fā)展。但隨著樣本數(shù)量越來越多,而從網(wǎng)絡環(huán)境中采集到的數(shù)據(jù)多半屬于非結構化的數(shù)據(jù),但傳統(tǒng)統(tǒng)計學要求結構化數(shù)據(jù),利用傳統(tǒng)的關系數(shù)據(jù)庫難以對非結構數(shù)據(jù)進行有效的轉換,難以挖掘大數(shù)據(jù)大樣本數(shù)據(jù)中的潛在信息。大數(shù)據(jù)時代統(tǒng)計樣本的選取工作難度不斷提升,傳統(tǒng)統(tǒng)計學缺乏非結構數(shù)據(jù)的建設,難以發(fā)揮出大數(shù)據(jù)時代,大數(shù)據(jù)庫有效轉換非結構與結構數(shù)據(jù)的優(yōu)勢,也為統(tǒng)計學的進一步發(fā)展提出了新的挑戰(zhàn)。
1.2統(tǒng)計軟件以及統(tǒng)計方法的欠缺
隨著信息計算機技術的快速發(fā)展,基于計算機運算環(huán)境的統(tǒng)計學軟件應運而生,統(tǒng)計學軟件的使用有效提升了統(tǒng)計學中對數(shù)據(jù)分析和處理的效率和精準率,統(tǒng)計模型也進一步的簡化了統(tǒng)計的實際操作,更有利于一般性的統(tǒng)計工作的實踐操作。大數(shù)據(jù)背景下,現(xiàn)階段發(fā)展較為成熟的統(tǒng)計學軟件如SPSS、DPS等,尚不能夠實現(xiàn)大數(shù)據(jù)高速傳輸、存儲功能,軟件功能還需要一定的開發(fā)和升級。與此同時,數(shù)據(jù)在大數(shù)據(jù)時代下屬于一項資本,其被開發(fā)的水平還略顯不足,絕大多數(shù)被互聯(lián)網(wǎng)、搜索引擎以及電子商務等相關IT公司、統(tǒng)計機構所掌握。
2.大數(shù)據(jù)時代統(tǒng)計學面臨的機遇
2.1統(tǒng)計效率的提升
在大數(shù)據(jù)時代,統(tǒng)計學的統(tǒng)計效率得到了更好的體現(xiàn)。一方面,大數(shù)據(jù)的多樣化、及時性特征能夠有效彌補傳統(tǒng)統(tǒng)計中數(shù)據(jù)的滯后性問題,有效的提升了統(tǒng)計的時效性,另一方面,大數(shù)據(jù)的高速傳輸為統(tǒng)計的動態(tài)數(shù)據(jù)的收集提供了保障。與此同時,大數(shù)據(jù)可被頻繁反復應用,采集的統(tǒng)計數(shù)據(jù)不再單單局限于一種相關用途,其能夠服務于各式各樣的需求。對采集數(shù)據(jù)應用的次數(shù)逐步增多,數(shù)據(jù)所具備的潛在價值被更的挖掘,而采集數(shù)據(jù)所產(chǎn)生的成本并不會受數(shù)據(jù)應用的次數(shù)所影響,故各式各樣用途的平均統(tǒng)計成本將得到顯著地降低。
2.2統(tǒng)計學科體系的新延伸
大數(shù)據(jù)引入到統(tǒng)計學科之中,龐大的數(shù)據(jù)使得樣本的選取、標準劃分都產(chǎn)生了新的變化,傳統(tǒng)統(tǒng)計中的樣本統(tǒng)計將會進一步的朝向總體統(tǒng)計的方向發(fā)展,一并囊括總體統(tǒng)計、樣本統(tǒng)計的統(tǒng)計學科體系,能夠有效消除總體統(tǒng)計的數(shù)據(jù)采集難度,彌補樣本統(tǒng)計的數(shù)據(jù)采集不足,達到有效延伸統(tǒng)計學科體系的目的。
2.3統(tǒng)計學科的應用范圍擴大
傳統(tǒng)的統(tǒng)計學實踐是為了去了解一個結果或者一個原因,但基于大數(shù)據(jù)的統(tǒng)計學科將向人們展示的是一個具體的過程。從前,人們習慣于根據(jù)“研究問題”來驅動“收集數(shù)據(jù)”。今后,大數(shù)據(jù)到處可得,人們將會用“數(shù)據(jù)”驅動“研究問題”而這種功能性的還變,促進了統(tǒng)計學應用范圍的進一步擴大,例如傳統(tǒng)的統(tǒng)計學往往被用來作為一個數(shù)學形式的參考信息,例如衛(wèi)生統(tǒng)計、生產(chǎn)統(tǒng)計等等,但在大數(shù)據(jù)背景下,數(shù)據(jù)本身所含有的信息更加豐富化和多元化,基于海量用戶下的網(wǎng)絡數(shù)據(jù)所包含的信息極為廣闊,而這些信息涉及到他們生活中的方方面面,這些信息一旦被深入挖掘出來,將會促進許多產(chǎn)業(yè)的快速發(fā)展。在大數(shù)據(jù)背景下,傳統(tǒng)統(tǒng)計學的結構化數(shù)據(jù)局限會逐步接觸,在非結構或者半結構的數(shù)據(jù)統(tǒng)計下,統(tǒng)計學將會應用到許多傳統(tǒng)意義上無法數(shù)據(jù)化的行業(yè)領域中。
3結束語
數(shù)據(jù)是統(tǒng)計學科的核心,也是統(tǒng)計學科的主要價值體現(xiàn)。大數(shù)據(jù)時代改變了傳統(tǒng)的數(shù)據(jù)的意義,數(shù)據(jù)所包含的信息、傳播速度、分布速度也遠遠超出了我們的想象,數(shù)據(jù)核心意義的轉變,迫使得以此為基礎的統(tǒng)計學科必然會隨之做出改變。機遇與挑戰(zhàn)并存,在新的時期,統(tǒng)計學要想快速完成其學科的有效轉換,就必須要進一步的深入研究大數(shù)據(jù)的時代特征,并有效地與傳統(tǒng)統(tǒng)計學結合起來,以達成統(tǒng)計學科的進一步發(fā)展。
作者:鄭雅倩 單位:海南師范大學數(shù)學與統(tǒng)計學院
統(tǒng)計學數(shù)據(jù)論文:數(shù)據(jù)挖掘與統(tǒng)計學的比較分析
摘要:數(shù)據(jù)挖掘來源于統(tǒng)計分析,而又不同于統(tǒng)計分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術,相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。
關鍵詞:數(shù)據(jù)挖掘;統(tǒng)計學;比較
隨著科學技術的發(fā)展,利用數(shù)據(jù)庫技術來存儲管理數(shù)據(jù),利用機器學習的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識。這種思想的結合形成了現(xiàn)在深受人們關注的非常熱門的研究領域:數(shù)據(jù)庫中的知識發(fā)現(xiàn)――KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術便是KDD中的一個最為關鍵的環(huán)節(jié)。
一、數(shù)據(jù)挖掘簡介
(一)數(shù)據(jù)挖掘的含義和功能
數(shù)據(jù)挖掘―DM(Data Mining)就是從大量的、不的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學科,它匯聚了數(shù)據(jù)庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域,近年來受到各界的廣泛關注。
一般說來,數(shù)據(jù)挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關系的過程,這些模型和關系可以用來做出決策和預測。它強調對大量觀測到的數(shù)據(jù)庫的處理。它是涉及數(shù)據(jù)庫管理、人工智能、機器學習、模式識別、及數(shù)據(jù)可視化等學科的邊緣學科。
作為一門處理數(shù)據(jù)的新興技術,數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不的、有噪聲的、隨機的,有復雜的數(shù)據(jù)結構,維數(shù)大。,數(shù)據(jù)挖掘所采用的技術涉及到:數(shù)據(jù)庫、人工智能、統(tǒng)計學、可視化、并行計算等不同學科和領域。
二、統(tǒng)計學的含義
統(tǒng)計學最初是作為一門實質性科學建立起來的,它從數(shù)量上研究某類具體的現(xiàn)象(如社會經(jīng)濟發(fā)展)的規(guī)律,但是,隨著統(tǒng)計學研究范圍的不斷擴大以及統(tǒng)計方法在社會領域和自然領域內的有效應用,加之統(tǒng)計方法體系本身的不斷發(fā)展和完善,使得統(tǒng)計學的研究對象也發(fā)生了變化。統(tǒng)計學已從實質性科學中分離出來,轉而研究統(tǒng)計方法,成為一門方法論的科學。即統(tǒng)計學是研究如何搜集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)的一門方法論科學。
從本質上看,統(tǒng)計工作的核心就是數(shù)據(jù)(或者信息)的采集、分析和處理,正如的不列顛百科全書將統(tǒng)計定義為“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“統(tǒng)計:收集、分析、表述和解釋數(shù)據(jù)”
三、數(shù)據(jù)挖掘與統(tǒng)計學的比較
數(shù)據(jù)挖掘來源于統(tǒng)計分析,而又不同于統(tǒng)計分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術,相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。大多數(shù)的統(tǒng)計分析技術都基于完善的數(shù)學理論和高超的技巧,其預測的程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算算法的產(chǎn)生如神經(jīng)網(wǎng)絡、決策樹使人們不需了解到其內部復雜的原理也可以通過這些方法獲得良好的分析和預測效果。
由于數(shù)據(jù)挖掘和統(tǒng)計分析根深蒂固的聯(lián)系,通常的數(shù)據(jù)挖掘工具都能夠通過可選件或自身提供統(tǒng)計分析功能。這些功能對于數(shù)據(jù)挖掘的前期數(shù)據(jù)探索和數(shù)據(jù)挖掘之后對數(shù)據(jù)進行總結和分析都是十分必要的。統(tǒng)計分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時間序列分析等功能都有助于數(shù)據(jù)挖掘前期對數(shù)據(jù)進行探索,發(fā)現(xiàn)數(shù)據(jù)挖掘的題目、找出數(shù)據(jù)挖掘的目標、確定數(shù)據(jù)挖掘所需涉及的變量、對數(shù)據(jù)源進行抽樣等等。所有這些前期工作對數(shù)據(jù)挖掘的效果產(chǎn)生重大影響。而數(shù)據(jù)挖掘的結果也需要統(tǒng)計分析的描述功能(較大值、最小值、平均值、方差、四分位、個數(shù)、概率分配)進行具體描述,使數(shù)據(jù)挖掘的結果能夠被用戶了解。因此,統(tǒng)計分析和數(shù)據(jù)挖掘是相輔相成的過程,兩者的合理配合是數(shù)據(jù)挖掘成功的重要條件。
四、小結
數(shù)據(jù)挖掘理論與技術的產(chǎn)生,促進了統(tǒng)計學發(fā)展的同時,也提出了更多的挑戰(zhàn)。如何更好地使用數(shù)據(jù)挖掘和統(tǒng)計為解決社會實際問題做出貢獻,是統(tǒng)計學家和數(shù)據(jù)挖掘研究者共同關心的話題。數(shù)據(jù)挖掘和統(tǒng)計學應該相互學習和滲透,各自分工,協(xié)同工作,共同為挖掘隱藏在復雜現(xiàn)象背后的有價值的知識貢獻力量。
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代統(tǒng)計學重構研究中的熱點問題剖析
摘要:新興科學技術的發(fā)展帶領我們進入數(shù)據(jù)大時代的環(huán)境中,大數(shù)據(jù)如“一口新興石油”,一定會引領科技和經(jīng)濟的大發(fā)展。我們了解大數(shù)據(jù)需要一定的時間,大數(shù)據(jù)的研究對于我們有非常重要的意義,可能會激發(fā)出一個新興的產(chǎn)業(yè),我們應該將大數(shù)據(jù)的研究上升為國家的呼聲和意志,以舉國之力來研究它,發(fā)展它。本文就從大數(shù)據(jù)時代統(tǒng)計學重構的價值和意義出發(fā),談一談在大數(shù)據(jù)時代統(tǒng)計學重構研究中的幾個熱點問題。
關鍵詞:大數(shù)據(jù);統(tǒng)計學;重構研究
引言
進入21世紀以來,科學技術尤其是互聯(lián)網(wǎng)和計算機技術的迅猛發(fā)展,促使大數(shù)據(jù)時代快速到來,大數(shù)據(jù)是堪比黃金石油的致富新思路,會給社會方方面面帶來很深遠的影響和變化,在生活中,農業(yè)工業(yè)等很多領域都會運用到統(tǒng)計學,統(tǒng)計學之于現(xiàn)代社會有著較為重要的意義,因此,在這種情況下,對大數(shù)據(jù)時代背景下統(tǒng)計學重構進行研究是非常必要也是非常重要的。
一、大數(shù)據(jù)時代統(tǒng)計學重構的價值與意義
1.是前沿科研領域
伴隨著科學技術的發(fā)展,大數(shù)據(jù)時代科研的進步會帶來很多領域的發(fā)展和超多超復雜的數(shù)據(jù),面對這樣的挑戰(zhàn),我們應該不斷增強自身獲取信息的能力,就統(tǒng)計學而言,這門學科應該具有分析這些龐大數(shù)據(jù)的能力,并且通過分析能夠研發(fā)出合理的分析工具以及相應的分析研究理論,來通過科學的理論解決一些更為前沿、復雜的現(xiàn)實問題[1]。顯而易見,當前很多造詣深厚的學者都將研究領域轉向了數(shù)據(jù)分析上來。
2.是交叉科研領域
統(tǒng)計學是一個與眾多學科都有交叉的一個學科,比如與數(shù)學有交叉關系,與經(jīng)驗科學如天文學中假設估計參數(shù)有關系。在現(xiàn)代社會,統(tǒng)計學的使用已經(jīng)不止局限在政府或者國家事務中使用,而將應用領域延伸到了商業(yè)、社會科學以及自然科學中來,由于統(tǒng)計學具有廣泛的應用性和深厚的歷史,因此,它不只是與數(shù)學有親密的關系,更是與數(shù)學本身的哲學有著親密的聯(lián)系。伴隨著領域的增多和數(shù)據(jù)的復雜程度的加重,統(tǒng)計學家一直進行著跨領域、跨學科的研究,隨著研究數(shù)據(jù)的不斷增多,所研究的領域也在不斷拓寬,統(tǒng)計學家面臨著越來越多的機遇,統(tǒng)計學的發(fā)展也面臨著越來越多的機遇,同時,統(tǒng)計學的發(fā)展也推動著很多前沿科學的發(fā)展。
3.具有非常重大的意義
我們可以在進行統(tǒng)計學研究時形成一套完整的統(tǒng)計學研究理論和方法,推動大數(shù)據(jù)時代多元復雜數(shù)據(jù)分析朝著國際化方向發(fā)展;可以將數(shù)據(jù)化研究理論成果運用到經(jīng)濟和社會發(fā)展中去,比如可以運用在金融風險管理與控制上;還有很多金融領域的人運用大數(shù)據(jù)分析可以挖掘出市場信息,據(jù)此判斷市場走勢,會獲得高收益,這些都是大數(shù)據(jù)時代中統(tǒng)計學在發(fā)揮作用[2]。
4.搶占制高點
國外很多研究表明,大數(shù)據(jù)時代統(tǒng)計學工程需要從各個領域挖掘有用的信息,并將這些信息融合,提取出有用的因素,發(fā)展相應的研究理論。目前,已經(jīng)有很多研究結果表明,現(xiàn)如今的大數(shù)據(jù)研究方法和理論已經(jīng)相對成熟,我們應該牢牢把握住這次機會,不畏挑戰(zhàn),迎難而上,盡快研究出具有獨立知識產(chǎn)權、具有創(chuàng)新性的數(shù)據(jù)分析理論和軟件,為我國的數(shù)據(jù)分析發(fā)展提供動力。
二、大數(shù)據(jù)時代統(tǒng)計學重構的熱點問題研究
1.大數(shù)據(jù)統(tǒng)計學的理論和方法
過去的統(tǒng)計主要將重心放在概率分布的指數(shù)族方面,在上世紀70年代以來,指數(shù)族分布研究及其在高維貝葉斯和像圖模型的應用中的研究居多,我們知道,由于指數(shù)族包括了所有已知概率的分布,因此,指數(shù)組的應用十分廣泛,它是統(tǒng)計學的核心,并且在概率論方面的作用也在不斷加強。這一研究方向旨在運用指數(shù)族來對龐大的數(shù)據(jù)進行初步的簡化,利用Bootstrap方法對大多數(shù)統(tǒng)計和概率方面的貝葉斯數(shù)據(jù)進行應用[3]。
2.大數(shù)據(jù)數(shù)據(jù)建模
隨著大數(shù)據(jù)的不斷變化和發(fā)展,線上算法被研究出來,大數(shù)據(jù)的形式多種多樣,因為多樣化的應用、龐大的數(shù)據(jù)和針對大數(shù)據(jù)所開發(fā)的技術,這項研究會產(chǎn)生深遠廣泛的影響。該研究的方向是將數(shù)據(jù)建模相應的領域進行推廣,將這些數(shù)據(jù)能夠統(tǒng)一運用在大數(shù)據(jù)中,運用理論和公式對實際應用進行輔助。
3.并行迭代蒙特卡羅方法
日常生活和科學研究與計算機技術的結合讓大數(shù)據(jù)的收集不再是幻想,要想分析這些數(shù)據(jù),要運用并行和分布結構。并行和分布結構是擁有存儲和處理大數(shù)據(jù)功能的,但是目前的技術還不能將現(xiàn)代的統(tǒng)計算法應用到大數(shù)據(jù)中去,并且在日益增多的數(shù)據(jù)中,我需要更加復雜的結構和模型來進行解釋。盡管迭代蒙特卡羅方法已經(jīng)被相關研究證明是非常強大的,但是它仍然不能夠用于大數(shù)據(jù)的分析,該研究旨在將迭代蒙特卡羅方法融入到一個通用理論中去發(fā)展,另其適應大數(shù)據(jù)的發(fā)展環(huán)境,并且讓其也能夠適用并行和分布結構,即從并列的樣本中算出蒙特卡羅值,一這個數(shù)值來近似最初需要的數(shù)據(jù)量,這個理論能夠有效避免在算法迭代中的重復掃描數(shù)據(jù)問題,與此同時,這一算法的應用也可以另數(shù)據(jù)研究中的問題得出具有統(tǒng)計學意義的解[4]。
三、結語
大數(shù)據(jù)時代下統(tǒng)計質量得到提高,統(tǒng)計成本降低,統(tǒng)計學發(fā)揮作用的領域增多,并且讓統(tǒng)計學能夠發(fā)展延伸,提高了統(tǒng)計學的地位,面對統(tǒng)計學發(fā)展過程中可能遇見的問題,要通過大數(shù)據(jù)的時代背景,順應當今的發(fā)展潮流,不斷進行思維和技術上的進步與提升。
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)時代下統(tǒng)計學科建設與教學改革的幾點思考
[摘 要]大數(shù)據(jù)時代的來臨給統(tǒng)計學科建設與教學帶來了不小的挑戰(zhàn)。傳統(tǒng)的統(tǒng)計學科在認知水平、技術手段、內容框架等方面均需要進行革新。在回顧統(tǒng)計學科發(fā)展歷史沿革以及大數(shù)據(jù)時代數(shù)據(jù)特征的基礎上,對新時代下統(tǒng)計學科面臨的傳統(tǒng)統(tǒng)計手段的不適應性、傳統(tǒng)統(tǒng)計學科框架不能滿足時代要求、統(tǒng)計學專業(yè)設置與社會需求脫節(jié)和統(tǒng)計學師資隊伍建設不夠完善等問題進行闡述,可以得出相應的對策。
[關鍵詞]統(tǒng)計學;大數(shù)據(jù)時代;學科建設;教學改革
21世紀是一個信息化的時代,尤其在2012年之后,大數(shù)據(jù)逐漸進入尋常百姓的生活,并深刻影響著這個時代的變革。大數(shù)據(jù)時代下海量數(shù)據(jù)所隱藏著的巨大價值不可小覷。因此,如何應用、分析、挖掘數(shù)據(jù)背后的隱含知識、潛在規(guī)律成為各個領域所關注的熱點話題,統(tǒng)計學科的重要性不斷彰顯。早在2011年2月,國務院學位委員會就將統(tǒng)計學科設為一級學科[1],改變了統(tǒng)計學科被分別安放在經(jīng)濟學門類和理學門類下的歷史局面,從此終結了統(tǒng)計學究竟是應用經(jīng)濟學范疇還是概率論與數(shù)理統(tǒng)計學范疇的各種爭論。如今的統(tǒng)計學,就是關于數(shù)據(jù)科學的學科,在理學門類之下理學學位和經(jīng)濟學學位均可授予。站在大數(shù)據(jù)時代的風口浪尖,在統(tǒng)計學科成為一級學科的歷史背景下,統(tǒng)計學在全國各個院校的發(fā)展如火如荼。但如何讓統(tǒng)計學科適應大數(shù)據(jù)的時代要求,如何培養(yǎng)勝任各種數(shù)據(jù)挖掘能力的人才,是奮斗在統(tǒng)計學教育一線同仁們所必須面對的問題。
一、傳統(tǒng)統(tǒng)計學的發(fā)展歷史
統(tǒng)計學源于實踐與應用,當人類開始從事生產(chǎn)勞動以來,統(tǒng)計學就慢慢建立和發(fā)展起來。在西方,一般認為統(tǒng)計學始于古希臘時期的亞里士多德時代,并在此后開枝散葉。而中國也是世界上最早進行統(tǒng)計活動的國家,具有國際公認的最早的統(tǒng)計史料,但先秦之后發(fā)展緩慢,未成氣候。1930年,中國統(tǒng)計學會成立,這是中國最早的統(tǒng)計學研究群體。
此后統(tǒng)計學的發(fā)展大致分為以下幾個階段:1.蘇聯(lián)模式模仿期。新中國成立后,我國在經(jīng)濟模式上采用了計劃經(jīng)濟體制,同時也引入了蘇聯(lián)的馬克思統(tǒng)計理論與模式。在這種模式之下,統(tǒng)計學僅僅是計劃經(jīng)濟制度的專屬工具,其抑制了數(shù)理統(tǒng)計學派的發(fā)展。因此,這個階段下的中國統(tǒng)計學發(fā)展逐漸喪失活力,未能與西方統(tǒng)計學的主流研究方向接軌。2.改革開放時期的再認識。隨著我國改革開放的不斷深入,不斷涌現(xiàn)的新事物導致傳統(tǒng)模式下的蘇聯(lián)統(tǒng)計理論與我國實踐工作形成不可避免的矛盾,依附于計劃經(jīng)濟的統(tǒng)計學逐漸喪失生命力,這一現(xiàn)象引起了我國學者的反思。在這種背景下,歐美體系下的統(tǒng)計學逐步進入中國市場,并引發(fā)了一場關于統(tǒng)計學科建設的學術爭鳴。3.20世紀90年代的“大統(tǒng)計”思想。隨著我國改革開放的不斷深化,統(tǒng)計學在社會經(jīng)濟統(tǒng)計學和數(shù)理統(tǒng)計學兩個方面蓬勃發(fā)展起來。于是“大統(tǒng)計”的提法日漸增多,20世紀90年代尤其是20世o90年代中后期有關統(tǒng)計學發(fā)展的文獻,都在討論統(tǒng)計學的融合與構建問題。“大統(tǒng)計”思想是對傳統(tǒng)認識局限的一次突破,它為中國統(tǒng)計學在下一個世紀的發(fā)展提供了理論前提。4.大數(shù)據(jù)時代下統(tǒng)計學的新機遇。從上述3個階段可以看出,統(tǒng)計學的發(fā)展與其時代背景息息相關。進入21世紀以來,在大數(shù)據(jù)的時代背景下,統(tǒng)計學在學科建設與教學改革方面該有怎樣的側重和突破,這正是身處這個時代的統(tǒng)計學人應該思考的問題。要對這個問題進行剖析,必須了解這個時代的數(shù)據(jù)特點。
二、大數(shù)據(jù)時代的數(shù)據(jù)特征
在20世紀90年代,信息化開疆拓土給數(shù)據(jù)的產(chǎn)生帶來了指數(shù)級的增長模式,這一現(xiàn)象就曾引起美國社會的廣泛討論和研究。進入21世紀以來,社會高速發(fā)展、信息飛速流通、科技不斷進步,這使得“大數(shù)據(jù)時代”呼之欲出。2012年,由維克托?邁爾-舍恩伯格 (Viktor Mayer?鄄Sch?inberger)和肯尼思?庫克耶 (Kenneth Cukier)聯(lián)合編著的《大數(shù)據(jù)時代:生活、工作與思維的大變革》給社會帶來了不小的反響,學術界也逐漸摩拳擦掌地迎接大數(shù)據(jù)時代的來臨。[2]
著名的4V理論有效揭示了大數(shù)據(jù)的主要特征。[3]1.Volume:海量的數(shù)據(jù)規(guī)模。在當下社會,每一分每一秒都伴隨著大量數(shù)據(jù)的產(chǎn)生,由于數(shù)據(jù)的驅動性,現(xiàn)在的數(shù)據(jù)量已經(jīng)不再是傳統(tǒng)的TB、PB級別,其早已經(jīng)擴展到EB、ZB乃至更高的級別。2.Velocity:快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系。在一個瞬息萬變的社會中,數(shù)據(jù)是一種流動的狀態(tài),大量數(shù)據(jù)可以隨時隨地產(chǎn)生并改變,這種動態(tài)性給統(tǒng)計分析帶來了巨大的挑戰(zhàn)。3.Vari?鄄ety:多樣的數(shù)據(jù)類型。大數(shù)據(jù)不但具有動態(tài)性,還具有多樣性。數(shù)據(jù)形式包括:文本數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、行為數(shù)據(jù)、圖片數(shù)據(jù)、聲音數(shù)據(jù)、多媒體數(shù)據(jù)等各種各樣的數(shù)據(jù)形態(tài)。4.Value:巨大的數(shù)據(jù)價值。曾經(jīng)有人把Data mining稱為數(shù)據(jù)采礦,倘若在傳統(tǒng)的數(shù)據(jù)模式下數(shù)據(jù)都蘊含著豐富的“礦藏”,那么大數(shù)據(jù)時代下的數(shù)據(jù)價值則是我們難以想象的。正因為數(shù)據(jù)擁有巨大的價值,這才使我們有了進一步分析處理的動力。
大數(shù)據(jù)時代下的數(shù)據(jù)特征給傳統(tǒng)統(tǒng)計學帶來了不小的沖擊。作為一門處理、分析數(shù)據(jù)的學科,在新時代下必須認清統(tǒng)計學科所面臨的問題,這樣才能有的放矢地進行革新,采用新的技術手段駕馭新時代的數(shù)據(jù),為社會進步做出應有的貢獻。
三、新時代下統(tǒng)計學科面臨的問題
(一)傳統(tǒng)統(tǒng)計手段的不適應性
傳統(tǒng)的統(tǒng)計思維模式基本是以問題為導向,確立要研究的問題之后,再著手獲取數(shù)據(jù)。國家統(tǒng)計局所開展的數(shù)據(jù)普查和抽樣調查都是基于這種模式。對于數(shù)據(jù)索取能力較弱的科研院所或個人而言,其沒有能力進行大規(guī)模抽樣調查的能力,一般是通過各種官方數(shù)據(jù)庫獲取數(shù)據(jù)用以科學研究。但用傳統(tǒng)抽樣調查手段所獲取的數(shù)據(jù),是用樣本估計總體的思路進行,倘若調查方案設計合理、操作得當,誤差可以控制在允許范圍之內,這不失為一種良好的統(tǒng)計手段。但在大數(shù)據(jù)時代下,不僅難以有效地抽取數(shù)據(jù),而且沒有簡潔有效的技術手段對數(shù)據(jù)進行分析,這給抽樣調查帶來了不小的麻煩,其省時省力的優(yōu)勢也不復存在。類似的問題在傳統(tǒng)統(tǒng)計方法的發(fā)展中依然存在。因此,需要緊貼時代背景,建立一套適用于當下的統(tǒng)計分析模式,以便更加科學高效地開展統(tǒng)計分析工作。
(二)傳統(tǒng)統(tǒng)計學科框架不能滿足時代要求
統(tǒng)計學是從大量實踐經(jīng)驗中所逐漸發(fā)展形成的一門對數(shù)據(jù)進行搜集、處理、分析的學科。統(tǒng)計學的產(chǎn)生與數(shù)據(jù)有著不解之緣,因此,有關大數(shù)據(jù)的處理必然離不開統(tǒng)計理論和技術的支撐。但是,傳統(tǒng)的統(tǒng)計思想、分析手段以及分析設備等都無法滿足大數(shù)據(jù)時代的發(fā)展要求。在人類邁入新紀元以來,互聯(lián)網(wǎng)技術日臻成熟,社會信息化程度出現(xiàn)質的飛躍,大量半結構化、非結構化數(shù)據(jù)源源不斷地產(chǎn)生,人們對各種類型數(shù)據(jù)資源的潛在規(guī)律以及數(shù)據(jù)回報價值都有迫切的需求。[4]這要求統(tǒng)計學有一套完整的學科框架體系去駕馭大數(shù)據(jù),具備對海量非結構化、半結構化、實時性數(shù)據(jù)等的有效分析能力。而大數(shù)據(jù)時代下的數(shù)據(jù)分析工作,已經(jīng)從根本上打破了傳統(tǒng)統(tǒng)計學科的框架。
(三)統(tǒng)計學專業(yè)設置與社會需求脫節(jié)
當前統(tǒng)計學學生的培養(yǎng)方式雖然逐漸向應用層面傾斜,但形式與內容相對老套。在這種模式下,理論模型的建立、參數(shù)估計的方法、一些統(tǒng)計量的檢驗等都得到了足夠的重視,但學生對這些問題的認識很可能還停留在表面。雖然部分課程安排有上機實踐操作,但由于數(shù)據(jù)局限性等原因,其所帶來的案例相對老舊、與時代脫節(jié)的情況時有發(fā)生。這導致學生不能很好地學以致用。另外,大數(shù)據(jù)時代下的統(tǒng)計分析工作,由于數(shù)據(jù)的海量性、動態(tài)性等特點,工作量相對較大,需要團隊的分工協(xié)作才能很好地完成。而在我們日常的教學中,由于面向傳統(tǒng)的統(tǒng)計手段較多,學生基本都是個人完成案例,這種教學方式難以培養(yǎng)學生在數(shù)量搜集、處理、分析中的團隊協(xié)作精神,而這種精神在學生今后的工作崗位中是應該必備的。
(四)統(tǒng)計學師資隊伍建設不夠完善
由于統(tǒng)計學的蓬勃發(fā)展以及社會對統(tǒng)計學人才的迫切需求,各個院校紛紛成立(或籌備成立)統(tǒng)計學院,導致統(tǒng)計學教師相對緊缺。在教資力量相對不夠充足的情況下,統(tǒng)計學科依然面臨一個嚴峻的問題。這個問題就是在現(xiàn)有的教師隊伍中,大部分教師接受的均是傳統(tǒng)統(tǒng)計理論方法的訓練,專業(yè)和研究成果也都偏向于經(jīng)濟統(tǒng)計、數(shù)理統(tǒng)計的傳統(tǒng)模型、實證分析等方面。在傳統(tǒng)領域,大部分教師具備教學與科研的經(jīng)驗,具有相當深厚的功底及心得。但是在大數(shù)據(jù)領域、有關大數(shù)據(jù)的清洗、降維、處理、可視化;云計算、云平臺、分布式計算、并行計算的hadoop、Spark、MapReduce等有關大數(shù)據(jù)的挖掘理論和技能方面,則出現(xiàn)斷層。對于絕大多數(shù)教師而言,這也是一個相對陌生的領域。因此,這引發(fā)了統(tǒng)計學師資隊伍知識結構不完善的問題。
四、解決新時代下統(tǒng)計學面臨問題的對策
(一)針對新問題,尋找新的統(tǒng)計技術手段
大數(shù)據(jù)時代下,數(shù)據(jù)量巨大、數(shù)據(jù)信息瞬息萬變、數(shù)據(jù)類型多種多樣,數(shù)據(jù)結構也由原來單一的結構化數(shù)據(jù)變?yōu)榉墙Y構化、半結構化數(shù)據(jù)模式。面對新的問題,對于海量數(shù)據(jù)的存儲、清洗、數(shù)據(jù)挖掘、知識呈現(xiàn)、數(shù)據(jù)傳輸、管理等各個方面都需要有新的技術手段加入。[5]因此,我們需要從各個細小的環(huán)節(jié)入手,從而形成一個完備統(tǒng)一的處理大數(shù)據(jù)問題的新模式和新框架。這個過程需要其他領域專業(yè)人員的支持和協(xié)作,其中包括計算機、數(shù)學、經(jīng)濟學、信息學、管理學等。1.數(shù)據(jù)獲取階段。數(shù)據(jù)獲取的途徑有很多,不應再拘泥于過去翻閱式的查找和抽樣調查。由于大部分數(shù)據(jù)均產(chǎn)生于互聯(lián)網(wǎng),因此我們不得不通過爬蟲技術對所需數(shù)據(jù)進行爬取,從而獲得海量的一手數(shù)據(jù)。2.數(shù)據(jù)清洗、降噪、降維等預處理階段。這一階段是大數(shù)據(jù)分析的開始,任何一種分析都不能離開有效的數(shù)據(jù)而進行,對原始數(shù)據(jù)的整理、清洗等工作直接影響到后續(xù)統(tǒng)計分析的有效性和科學性。3.數(shù)據(jù)挖掘、知識發(fā)現(xiàn)。這是整個數(shù)據(jù)分析中最為關鍵的環(huán)節(jié),是整個分析的核心所在。在此需要強調的是,并非在大數(shù)據(jù)時代所有的傳統(tǒng)統(tǒng)計方法都不可使用。當經(jīng)過數(shù)據(jù)預處理、把數(shù)據(jù)轉出化成傳統(tǒng)數(shù)據(jù)模式之后,傳統(tǒng)統(tǒng)計分析方法依然有其用武之地,且傳統(tǒng)統(tǒng)計分析方法當中寶貴的統(tǒng)計思維模式和統(tǒng)計視野也是我們解決大數(shù)據(jù)問題的智庫。因此,對于傳統(tǒng)統(tǒng)計分析方法要給予足夠的重視,其在大數(shù)據(jù)時代也有廣闊的舞臺。我們要在繼承的基礎上,進行改進、創(chuàng)新和發(fā)揚。
(二)系統(tǒng)性調整統(tǒng)計學科框架,以適應時展
在大數(shù)據(jù)時代下,統(tǒng)計學同樣需要加入信息化的過程。雖然大數(shù)據(jù)與統(tǒng)計學有著千絲萬縷的聯(lián)系,但是由于面對的數(shù)據(jù)類型、對象等的不同,傳統(tǒng)統(tǒng)計學的研究范式已經(jīng)不能適應新時代的要求。這主要表現(xiàn)在以下幾方面:1.統(tǒng)計對象的改變。新時代下的統(tǒng)計數(shù)據(jù)從數(shù)量、結構和類型上早已打破傳統(tǒng)統(tǒng)計學的數(shù)據(jù)概念。2.統(tǒng)計技術的改變。新時代下關于數(shù)據(jù)的搜集、整理、知識發(fā)現(xiàn)等數(shù)據(jù)處理手段相較于傳統(tǒng)的統(tǒng)計學科,已經(jīng)發(fā)生了巨大的變化。3.數(shù)據(jù)倉庫的建設和使用。關于海量數(shù)據(jù)的存儲、調取、傳輸、管理是在傳統(tǒng)統(tǒng)計學當中較容易被忽視的環(huán)節(jié)。傳統(tǒng)統(tǒng)計學下的數(shù)據(jù)量較小,對其的存儲、傳輸和管理并不存在問題,但海量數(shù)據(jù)出現(xiàn)之后,這個話題則成為統(tǒng)計學需要重點研究的問題之一。因此,我們需要從更高的視野重新構建統(tǒng)計學的學科框架,使其達到能駕馭大數(shù)據(jù)時代的目的,從而為人們的生產(chǎn)、生活提供科W有效地指導和幫助。首先,要從思想上打破對傳統(tǒng)統(tǒng)計學的認識,將視野投放到更加廣闊的數(shù)據(jù)天地。客觀對待傳統(tǒng)統(tǒng)計學在社會發(fā)展中所出現(xiàn)的滯后性問題。其次,應尋求多學科協(xié)作,信息資源共享。沒有任何一種單一的技術分析手段可以貫穿大數(shù)據(jù)分析的始終,它需要多種學科的交叉與融合。因此,統(tǒng)計學的學科框架不能故步自封,一定要兼容并蓄,這樣才有新活力。,統(tǒng)計學科框架的建設要體現(xiàn)出大數(shù)據(jù)時代的信息化。對信息的收集與爬取、清洗與降維、分析與挖掘、結果與展示等各個方面,都需要在傳承經(jīng)典的基礎上,進行大膽地突破性改革。從而建設一個能夠在新歷史背景下解決新數(shù)據(jù)問題的學科,從而培養(yǎng)出適應這個時展的統(tǒng)計分析人才。
(三)改良統(tǒng)計學科內容設置,滿足新時代下的社會需求
關于統(tǒng)計學科的專業(yè)培養(yǎng)方案。目前,基于傳統(tǒng)統(tǒng)計學的模式,可以采取兩種統(tǒng)計方式進行培養(yǎng)。這就是我們熟知的數(shù)理類和經(jīng)濟類,這兩類具有不同的側重點和學科背景。“大統(tǒng)計”思想的提出以及統(tǒng)計學一級學科的成立,終于可以讓統(tǒng)計學匯到統(tǒng)計學院或者統(tǒng)計系的框架下統(tǒng)一培養(yǎng)。由于西方主流統(tǒng)計學甚至經(jīng)濟學,均注重數(shù)理思維和能力,任何一個統(tǒng)計分析手段和經(jīng)濟模型都離不開數(shù)學推導、演算,因此,打好數(shù)理基礎成為我國統(tǒng)計學科建設的普遍共識。在本科生的培養(yǎng)方案中,就包含數(shù)學分析、高等代數(shù)等一系列數(shù)學思維培養(yǎng)的課程。但無論是本科生還是碩士生的教學,都缺乏對大數(shù)據(jù)分析技能的培養(yǎng),未能迅速地緊跟時代,與社會需求相脫節(jié)。這一現(xiàn)象不利于學生就業(yè)。因此,亟須在教學內容、方法和技術方面進行改進。1.在教學內容方面,傳統(tǒng)的統(tǒng)計學科從概率論與數(shù)理統(tǒng)計、多元統(tǒng)計分析到統(tǒng)計學原理等都是基于結構化的小量數(shù)據(jù)展開,關于非結構化大數(shù)據(jù)的教學內容缺失。因此,要注重培養(yǎng)學生對非結構化、半結構化數(shù)據(jù)的處理分析能力;教師應對原有課程進行調整,減少重復內容與重復教學,加入與大數(shù)據(jù)相關的數(shù)學理論與軟件學習方面的新內容。2.在教學方法方面,應注重培養(yǎng)學生的動手能力和團隊協(xié)作精神。傳統(tǒng)統(tǒng)計學的數(shù)據(jù)處理分析工作量相對較輕,個人可以獨立完成工作,但是在大數(shù)據(jù)模式下,分工與協(xié)作是必不可少的環(huán)節(jié)。因此,在培養(yǎng)學生實戰(zhàn)能力的同時,不能忽視團隊協(xié)作能力的培養(yǎng)。3.在教學技術方面,要善于通過經(jīng)典案例寓教于樂,通過對實際問題的思考,培養(yǎng)學生對數(shù)據(jù)處理的熱情及其思維能力和實戰(zhàn)能力。有必要打破傳統(tǒng)的相對固化的授課模式,采用具有時代感的新鮮問題來激發(fā)學生的創(chuàng)新性思維,讓學生在解決實際問題的過程中對理論有更加深刻的認識。
(四)加強統(tǒng)計學師資隊伍建,填補知識結構的不均衡性
在y計學成為一級學科之前,我國高校的普遍做法是將數(shù)理統(tǒng)計專業(yè)放在數(shù)學學院,授予理學學士學位,把經(jīng)濟統(tǒng)計放在經(jīng)濟學院,授予經(jīng)濟學學位。這種模式對我國統(tǒng)計學教師隊伍的知識結構產(chǎn)生了重要影響。統(tǒng)計學專業(yè)教師基本也都來源于這兩個領域:一個分支來自擅長數(shù)學模型、推導等數(shù)量關系的數(shù)理統(tǒng)計方面;另一個分支則是擅長經(jīng)濟理論、實證的經(jīng)濟統(tǒng)計方面。但互聯(lián)網(wǎng)技術之下應運而生的各種新信息和新問題,需要用新技術去解決,遺憾的是這方面的人才相對缺乏,這導致在大數(shù)據(jù)時代下教師隊伍知識結構不完整。要解決這個問題,可以從兩個方面入手。首先,針對一些數(shù)學功底見長,對大數(shù)據(jù)分析感興趣的教師進行內部培訓。鼓勵他們在全國乃至全球范圍內參加有關大數(shù)據(jù)學科的培訓、研討等學術交流活動,力求在短期內培養(yǎng)一批在大數(shù)據(jù)方面有所專長的教師團隊,以彌補整個教師隊伍知識結構的失衡問題。同時加強教師隊伍的自主學習和創(chuàng)新能力,保持他們對新事物、新方法的敏銳嗅覺。其次,在全國范圍內著重關注相關培養(yǎng)單位的博士、博士后等潛在的教師力量。力爭將從事有關數(shù)據(jù)挖掘方向、大數(shù)據(jù)分析方向等具有一定大數(shù)據(jù)分析能力及實戰(zhàn)經(jīng)驗的博士、博士后納入教師隊伍。此外,還要充分認識到大數(shù)據(jù)分析工作的交叉性和協(xié)作性,它對計算機技術、數(shù)學理論方法等都有較高的要求;要著重引進具有上述學科經(jīng)歷的復合背景人才,力爭將這些新鮮血液融入傳統(tǒng)的師資隊伍當中,以改善教師知識結構的不平衡問題,力爭建設一支專業(yè)結構合理、學術素養(yǎng)良好、適應能力強大的統(tǒng)計學教師隊伍。
統(tǒng)計學數(shù)據(jù)論文:淺析大數(shù)據(jù)時代對統(tǒng)計學的挑戰(zhàn)
【摘要】隨著互聯(lián)網(wǎng)技術和信息技術的不斷發(fā)展,讓我們迎來了大數(shù)據(jù)時代,為統(tǒng)計學帶來了發(fā)展機遇,但是也是統(tǒng)計學面臨著嚴峻的挑戰(zhàn)。本文主要針對大數(shù)據(jù)時代對于統(tǒng)計學的挑戰(zhàn)進行論述,并且提出具體的改革策略,對于相關的研究提供理論基礎。
【關鍵詞】大數(shù)據(jù)時代 統(tǒng)計學 挑戰(zhàn)
二十一世紀屬于信息爆炸的年代,我們的生活當中隨處都涉及到大數(shù)據(jù),例如圖書館、高校學生檔案管理、企業(yè)的財務數(shù)據(jù)等各個場所都擁有龐大的信息量。大數(shù)據(jù)不斷發(fā)展,給統(tǒng)計學帶來了挑戰(zhàn)和機遇,利用傳統(tǒng)的統(tǒng)計學方法,對于大數(shù)據(jù)的處理無法有效的利用,有關于大數(shù)據(jù)的各種處理需求無法得到滿足,處理大數(shù)據(jù)的基礎就是統(tǒng)計學。因此需要分析大數(shù)據(jù)影響下統(tǒng)計學面臨的各種挑戰(zhàn)進行論述。
一、大數(shù)據(jù)時代給統(tǒng)計學帶來的挑戰(zhàn)
(一)對于教學內容帶來的挑戰(zhàn)
針對統(tǒng)計學的專業(yè)教學,主要包括概率論、數(shù)理統(tǒng)計、抽樣抽查等,其面臨的處理對象就是結構化的數(shù)據(jù),但是卻不夠重視非結構化和半結構化的數(shù)據(jù),也很少進行利用。在大數(shù)據(jù)時代當中,高端人士的對于數(shù)據(jù)處理提出了更高的要求,當前的統(tǒng)計學內容無法滿足含量數(shù)據(jù)研究和商業(yè)運用的需求。實施統(tǒng)計學教學需要結合時展情況,核心內容就是統(tǒng)計專業(yè)人士的各種現(xiàn)實需要,從而將其科目內容進行提升,適當?shù)拈_設新的課程,這樣才可以滿足大數(shù)據(jù)時代的發(fā)展需求。
(二)對于教育方法提出的挑戰(zhàn)
我國長期利用的統(tǒng)計學教育模式的中心就是課堂教育,主要以教師的講解為主要內容,理論知識的講解比較注重,但是實際應用卻沒有重視,教師只是在講解理論知識,卻沒有培養(yǎng)學生的技能。利用的方式比較單一,而教學方法也比較單調。利用這樣的統(tǒng)計學教育方法對于大數(shù)據(jù)時代的要求無法得到滿足,無法培養(yǎng)人才的素養(yǎng),因此需要改革其教學方法。
(三)對于人才培養(yǎng)提出的挑戰(zhàn)
統(tǒng)計學教育方式面臨著重大的統(tǒng)計任務,其主要內容就是實現(xiàn)統(tǒng)計教育和研究人員,很多教師的綜合素養(yǎng)比較低,沒有研究專業(yè)之外的知識,更新實驗室相關設施的速度比較慢,培養(yǎng)學生比較注重理論知識,形成的知識構架的主要內容就是數(shù)理認知,對于其他領域的知識缺乏認知,無法將實際困難進行解決。在大數(shù)據(jù)時代,對于統(tǒng)計學人才提出了更高的要求,需要在海量的數(shù)據(jù)當中將市場機遇進行掌控,從而將其中的商業(yè)價值挖掘出來,從而可以將行業(yè)的內在潛力進行制造,具備探究精神。
二、大數(shù)據(jù)時代統(tǒng)計學的改革策略
(一)提高統(tǒng)計人員的綜合素質
在當前大數(shù)據(jù)背景的影響下,統(tǒng)計學對于統(tǒng)計人員提出了更高的要求,統(tǒng)計人員需要具備良好的道德素質和職業(yè)素質,這樣才可以更好的應對大數(shù)據(jù)時代帶來的挑戰(zhàn)。企業(yè)需要定期開展崗位培訓和思想道德教育,使統(tǒng)計人員的專業(yè)技能得到增強,使統(tǒng)計人員的思想認識進行提高,使統(tǒng)計人員不斷學習新的統(tǒng)計知識,可以學會更多的統(tǒng)計方法,對于各種新型的統(tǒng)計工具的實際操作流程進行熟練的掌握,企業(yè)應該為統(tǒng)計人員提供良好的工作氛圍,從而的提升統(tǒng)計人員的素質。針對學校的教育需要采取措施提升學生的素質,統(tǒng)計學專業(yè)課在實踐過程中,需要營造良好的學習氛圍,加強引導和教育學生,不斷學習統(tǒng)計學的專業(yè)課程,不斷掌握統(tǒng)計學的展業(yè)理論知識,使學生深入的認識和理解統(tǒng)計學,從而可以更好的和時代接軌,以社會的實際需求為基礎,讓學生形成自主的意識,將自身素質不斷提升。
(二)加強統(tǒng)計人員掌握新技術
在當前的時代影響下,總是會出現(xiàn)各種新的數(shù)據(jù)處理技術和分析工具等等,利用這些新的處理工具和技術,對于當今的統(tǒng)計學來說這是一種挑戰(zhàn),因為統(tǒng)計人員不夠了解這些新的技術和工具,這些新的技術也不夠熟悉,但是可以有效利用這些新計劃,可以使統(tǒng)計學更好的適應大數(shù)據(jù)時代的發(fā)展。這就需要統(tǒng)計人員了解這些新技術。在大數(shù)據(jù)的影響下,需要改革統(tǒng)計學,重視培訓統(tǒng)計人員的新技術,加強統(tǒng)計人員掌握新技術。企業(yè)需要將各種新的數(shù)據(jù)處理技術和設備進行引進,通過專題講座和實訓的方式,為統(tǒng)計人員提供學習的平臺,使他們可以學習更多的數(shù)據(jù)處理技術,從而可以對于大數(shù)據(jù)時代提供更好的服務。
(三)加強統(tǒng)計學課程教學改革
高職教育機構需要做的哦啊與時俱進,大數(shù)時代不斷發(fā)展,統(tǒng)計學課程需要實現(xiàn)改革,將落后的教學理念和教學方式進行拋棄,將統(tǒng)計學的相關設備設施進行完善,使統(tǒng)計學的教學環(huán)境和教學條件進行改善,將各種先進的統(tǒng)計學教學方法進行有效的引進,在實際改革的過程中,充分融合統(tǒng)計學教學內容和大數(shù)據(jù)信息,協(xié)調統(tǒng)計學教學內容和教學方法。改革統(tǒng)計學課程,不僅需要實現(xiàn)課程改革,還要實現(xiàn)教學改革,需要在課程和教學兩個方面進行,從而使統(tǒng)計學更好的適應大數(shù)據(jù)時代,將大數(shù)據(jù)時代帶來的各種挑戰(zhàn)進行有效的應對,更好的掌握大數(shù)據(jù)時代帶來的各種機遇。
改革統(tǒng)計學教學,需要有效的整改課程教學模式和課程目標以及課程結構安排等,從而將課程結構的合理性得到有效的提升,使課程目標具備科學性,使課程內容實現(xiàn)完整性,將統(tǒng)計學課程的重點內容進行突出。改革統(tǒng)計學內容,需要提高教師自身的教學水平,將傳統(tǒng)的教學理念進行轉變,從而利用新的教學方法和科學的教學模式,重視實訓教學,使學生的實踐操作能力得到有效的提高。
三、結束語
大數(shù)據(jù)和統(tǒng)計學在探究目標。數(shù)據(jù)處理對象等各個方面具有一定的聯(lián)系,但是也具有一定的差異。大數(shù)據(jù)時展的速度不斷提高,沖擊了統(tǒng)計學的固定探究方式和價值觀念,統(tǒng)計學教育的教學結構和教育方式等各個方面都帶來了各種挑戰(zhàn),要想對于大數(shù)據(jù)時代的發(fā)展潮流更好的適應,培育胡高素質、適應能力很強的統(tǒng)計專業(yè)人才,統(tǒng)計學教師和統(tǒng)計教育需要做到與時俱進,從而實現(xiàn)有效的調整和改革、
統(tǒng)計學數(shù)據(jù)論文:大數(shù)據(jù)背景下統(tǒng)計學教學改革的探討
摘 要:在當今大數(shù)據(jù)背景下,統(tǒng)計學教學存在著諸多問題。本文首先梳理了傳統(tǒng)的統(tǒng)計教學過程中存在的問題,然后針對大數(shù)據(jù)時代需求的統(tǒng)計學人才的特點,從教學體系、教學內容等等方面來探討統(tǒng)計學教學改革,為各高校更好的培養(yǎng)適應當今社會發(fā)展的統(tǒng)計學人才提供思路。
關鍵詞:大數(shù)據(jù) 統(tǒng)計學教學改革 教學方法
當今社會是信息爆炸的時代,隨著數(shù)據(jù)可獲得性的提高,數(shù)以海量級的數(shù)據(jù)有待于我們處理。作為一門處理分析數(shù)據(jù)的學科――統(tǒng)計學,其教學面臨著諸多挑戰(zhàn),為了適應當今時代的需求,統(tǒng)計學課程的教學迫切需要進行多方面的改革。那么如何改進傳統(tǒng)的教學模式,培養(yǎng)出能夠適應“大數(shù)據(jù)時代”需求的專業(yè)人才?是值得我們深思的問題,對該問題進行探討具有深遠的意義。本文從當今社會人才需求方面,探討如何進行改革,來尋求的教學模式和方法,來為社會輸送品質的統(tǒng)計專業(yè)的畢業(yè)生。
1 傳統(tǒng)的統(tǒng)計教學中主要存在的問題
1.1 就教學內容而言,偏重于理論
在大多數(shù)高校中,目前對于統(tǒng)計學課程的教學仍然是偏重于統(tǒng)計理論的講解,學生大多數(shù)是采用死記硬背或者習題訓練的方式來掌握統(tǒng)計理論。雖然他們能夠記住統(tǒng)計理論或一些統(tǒng)計模型,但是卻無法將所學的知識應用到實際中,來解決實際問題。學生不知道為什么要學習統(tǒng)計學,學習該課程有何用途?因而很難提起學生們的學習興趣。學生往往在了解所學的內容可以解決什么問題后,才會積極主動的去學習,這便要求老師在課堂教學中,摒棄偏重于理論教學的枯燥教學模式,更多的拋出生動的實際問題,來調動學生的積極性。
1.2 統(tǒng)計教學過程中上C實驗課較少
在目前的統(tǒng)計教學過程中,鑒于課程內容較多,而教學課時量有限,這便使得上機實驗課在課程中所占的比例較少,大多只有幾個學時的上機實驗課。致使很多需要上機實踐的課程內容無法實現(xiàn)。這非常的不利于學生現(xiàn)學現(xiàn)用, 而只能是讓學生簡單了解一下統(tǒng)計軟件的基本操作流程,這即利于學生掌握課堂知識,也不利于調動學生的學習積極性。
1.3相對于中國統(tǒng)計實踐的需求,統(tǒng)計教學的發(fā)展較為滯后
統(tǒng)計學是一門搜集、整理、分析數(shù)據(jù)的學科,學習統(tǒng)計學的目的是通過探索數(shù)據(jù)的內在規(guī)律性,來客觀、科學的認識客觀事物。統(tǒng)計數(shù)據(jù)源自于實踐,及時、、完整的統(tǒng)計數(shù)據(jù)是我們進行統(tǒng)計分析的前提,否則,統(tǒng)計方法將無用武之地。隨著計算機技術的快速發(fā)展,數(shù)據(jù)的可獲得性大大提高,我們已經(jīng)步入了大數(shù)據(jù)時代,此時,傳統(tǒng)的統(tǒng)計學理論或方法已不再使用,迫切需要在我們的教學過程中引入新的內容來適應時代的發(fā)展。但是,在統(tǒng)計學的教學過程中,教學內容并沒有隨著社會的發(fā)展而有所變化,不僅如此,在統(tǒng)計學的教學案例中,大多數(shù)還是采用比較陳舊的數(shù)據(jù),并沒有及時更新數(shù)據(jù),數(shù)據(jù)質量不高。
2 大數(shù)據(jù)時代對統(tǒng)計學教學改革的需求
在當今大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為了一項非常重要的資源,它同礦產(chǎn)資源、石油資源等一樣的重要,并且數(shù)據(jù)資源有其特別之處是越用越多。大數(shù)據(jù)方面的人才在各國較為緊缺,在能夠做數(shù)據(jù)分析的人才里面,統(tǒng)計學專業(yè)有其獨特的優(yōu)勢,統(tǒng)計人才是數(shù)據(jù)分析的核心人才。這是我們統(tǒng)計的發(fā)展機遇,也是挑戰(zhàn)。因為傳統(tǒng)的統(tǒng)計教學已經(jīng)不能夠適應當今社會對統(tǒng)計人才的需求。改革開放三十年來,我們的統(tǒng)計學教材并沒有隨著社會的變化而變化,教材已經(jīng)不能夠反映社會的需求,在我們的教材中有些部分花費了很大的篇幅來介紹一些簡單的計算方法,但是,隨著計算機的普遍,這些方法,計算機一點就能夠解決。
有人說21世紀是統(tǒng)計的世紀,這是一個很好的機遇,需要從事統(tǒng)計專業(yè)的老師和學生共同努力,主動的接受大數(shù)據(jù)的知識,加強計算機能力的培養(yǎng),拓寬視野,既能夠熟練的掌握計算機,又能夠很好的運用統(tǒng)計軟件進行數(shù)據(jù)分析,來適應當今社會的發(fā)展。
3 關于統(tǒng)計教學改革的思考
3.1 構建集課堂、實驗室和社會于一體的教學體系
學好統(tǒng)計學并不是一件易事,不僅需要掌握課堂上的理論知識,還需要步入社會去實地調查,獲得一手數(shù)據(jù),得到數(shù)據(jù)后,進一步需要我們到實驗室去學習如何運用統(tǒng)計軟件,進行處理、分析數(shù)據(jù),從數(shù)據(jù)得到結論。因而,要達到較好的教學效果,便需要一個集課堂、社會和實驗室于一體的完善教學體系。使得學生不僅掌握了基本的統(tǒng)計學理論知識,還能夠熟練運用統(tǒng)計軟件和計算機系統(tǒng)來處理現(xiàn)實數(shù)據(jù),挖掘數(shù)據(jù)內在的規(guī)律性,成為當今社會需求的統(tǒng)計專業(yè)人才。
3.2 在教學過程中,加大教學案例所占的比例
在統(tǒng)計教學過程中,如果只偏重于理論教學,無疑是枯燥、乏味的。如果我們可以適當?shù)奶砑右恍┥鷦拥慕虒W案例,便會調動學生的學習積極性,使其能夠更好的理解課本上的內容,也會提高學生的應用能力,更清楚的明白所學內容可以如何應用。所以說案例在教學過程中非常的重要,好的案例不僅要能夠體現(xiàn)書本上的知識點,還要考慮到所授學生的專業(yè)特點,不斷的更新,有針對性的挑選一些好的案例,這有助于學生掌握如何運用統(tǒng)計學知識來處理所學專業(yè)的問題,提高他們的學習積極性。
3.3 教學內容上跟上大數(shù)據(jù)時代的需求
傳統(tǒng)的教學理念和方法所培養(yǎng)出來的統(tǒng)計人才,已經(jīng)不能夠很好的適應大數(shù)據(jù)時代對人才的需求,當今社會需要的是具有很好的動手能力、數(shù)據(jù)處理能力和學習能力的人才。
這便迫切需要我們不斷的調整教學理念和教學模式。一方面在統(tǒng)計教學過程中,在講授基礎知識的基礎之上,突出統(tǒng)計方法以及統(tǒng)計理論的應用性,在授課過程中,幫助同學們樹立起大數(shù)據(jù)的統(tǒng)計思維。另一方面,在教學過程中,調整傳統(tǒng)的教學模式,盡可能的引入慕課、微課等新的教學方法,穿插一些有趣的案例,來不斷的激發(fā)學生的學習興趣。,統(tǒng)計學教師作為知識的傳授者,需要不斷的學習,提高自身的大數(shù)據(jù)知識水平,才能夠更好的引導學生,帶領他們跟上時代的步伐。