引論:我們?yōu)槟砹?3篇數(shù)據(jù)分析的方法范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
篇1
· 數(shù)據(jù)分析的一般過(guò)程是怎樣的?
· 有哪些數(shù)據(jù)分析方法?
· 在服務(wù)性行業(yè)里,數(shù)據(jù)分析方法有哪些需要特別注意的地方?
· 在國(guó)內(nèi)最容易犯哪些數(shù)據(jù)分析的錯(cuò)誤?
因筆者能力和精力有限,文章中存在錯(cuò)誤或沒(méi)有詳盡之處,還望各位讀者見(jiàn)諒并懇請(qǐng)及時(shí)指正,大家相互學(xué)習(xí)。
(一)數(shù)據(jù)分析的核心作用
根據(jù)國(guó)際標(biāo)準(zhǔn)的定義,“數(shù)據(jù)分析是有組織、有目的地收集并分析數(shù)據(jù),通過(guò)將數(shù)據(jù)信息化、可視化,使之成為信息的過(guò)程,其目的在于把隱藏在看似雜亂無(wú)章的數(shù)據(jù)背后的信息集中和提煉出來(lái),從而總結(jié)研究對(duì)象的內(nèi)在規(guī)律。”在實(shí)際工作中,數(shù)據(jù)分析能夠幫助管理者進(jìn)行判斷和決策,以便采取適當(dāng)策略與行動(dòng)。
這里需引起關(guān)注的是任何沒(méi)有目的或結(jié)果的分析報(bào)告都是“忽悠”,都僅僅是沒(méi)有靈魂的軀殼!我們經(jīng)常看到國(guó)內(nèi)的同事們忙于各種所謂的“數(shù)據(jù)分析報(bào)告”,堆砌了大量的圖表和文字,顯得“專業(yè)”、“美觀”,但認(rèn)真研讀后卻發(fā)現(xiàn)缺乏最關(guān)鍵的“分析”過(guò)程,更別說(shuō)什么分析結(jié)果了。顯然大家只是把對(duì)事實(shí)的原始描述當(dāng)成了數(shù)據(jù)分析,而實(shí)際上描述原始事實(shí)只是數(shù)據(jù)分析過(guò)程的一項(xiàng)內(nèi)容而非全部。數(shù)據(jù)分析不能僅有報(bào)表沒(méi)有分析,因?yàn)椤坝袌?bào)表不等于有分析,有分析不代表有效執(zhí)行”,報(bào)表只是數(shù)據(jù)的展現(xiàn)形式;數(shù)據(jù)分析也不能僅有分析沒(méi)有結(jié)論,沒(méi)有結(jié)論的分析無(wú)疑“差了一口氣”,對(duì)實(shí)際業(yè)務(wù)工作無(wú)法產(chǎn)生價(jià)值,唯有通過(guò)分析得出結(jié)論并提出解決方案才能體現(xiàn)數(shù)據(jù)分析協(xié)助管理者輔助決策的核心作用。因此數(shù)據(jù)分析來(lái)源于業(yè)務(wù),也必須反饋到業(yè)務(wù)中去,沒(méi)有前者就不存在數(shù)據(jù)分析的基礎(chǔ),沒(méi)有后者也就沒(méi)有數(shù)據(jù)分析的價(jià)值了。
(二)數(shù)據(jù)分析的分類
最常見(jiàn)也是最標(biāo)準(zhǔn)的數(shù)據(jù)分析可分為三大類:描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析。
所謂描述性分析是對(duì)一組數(shù)據(jù)的各種特征進(jìn)行分析,以便于描述測(cè)量樣本的各種特征及其所代表的總體特征。這種分析要對(duì)調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢(shì)分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計(jì)圖形,比如上個(gè)月的平均通話時(shí)長(zhǎng)是多少,員工離職率是多少等等。
探索性數(shù)據(jù)分析是指對(duì)已有數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法,側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,比如呼叫中心的一次解決率和哪些因素相關(guān)?他們背后的驅(qū)動(dòng)因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而驗(yàn)證性分析是依據(jù)一定的理論對(duì)潛在變量與觀察變量間關(guān)系做出合理的假設(shè),并對(duì)這種假設(shè)進(jìn)行統(tǒng)計(jì)檢驗(yàn)的現(xiàn)代統(tǒng)計(jì)方法,側(cè)重于驗(yàn)證已有假設(shè)的真?zhèn)涡浴r?yàn)證性分析是在對(duì)研究問(wèn)題有所了解的基礎(chǔ)上進(jìn)行的,這種了解可建立在理論研究、實(shí)驗(yàn)研究或兩者結(jié)合的基礎(chǔ)上,比如從調(diào)研的結(jié)果來(lái)看本月的客戶滿意度比上個(gè)月高出2%,是否真是如此;男性客戶的滿意度是否高于女性客戶等等。
(三)數(shù)據(jù)分析的一般過(guò)程
通常來(lái)講完整的數(shù)據(jù)分析過(guò)程可分為以下幾步:明確數(shù)據(jù)分析的目的、采集并處理數(shù)據(jù)、分析及展現(xiàn)數(shù)據(jù)、撰寫分析報(bào)告。
現(xiàn)實(shí)情況中人們往往在做數(shù)據(jù)分析時(shí)陷入一大堆雜亂無(wú)章的數(shù)據(jù)中而忘記了分析數(shù)據(jù)的目的,數(shù)據(jù)分析第一步就是要明確數(shù)據(jù)分析的目的,然后根據(jù)目的選擇需要分析的數(shù)據(jù),明確數(shù)據(jù)分析的產(chǎn)出物,做到有的放矢、一擊即中!
其次,在做數(shù)據(jù)分析時(shí)要根據(jù)特定需求采集數(shù)據(jù),有目的地采集數(shù)據(jù)是確保數(shù)據(jù)分析過(guò)程有效的基礎(chǔ),采集后的數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)要對(duì)其進(jìn)行整理、分析、計(jì)算、編輯等一系列的加工和處理,即數(shù)據(jù)處理,數(shù)據(jù)處理的目的是從大量的、可能是難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定人群來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù)。
接著是對(duì)處理完畢的數(shù)據(jù)進(jìn)行分析和展現(xiàn),分析數(shù)據(jù)是將收集的數(shù)據(jù)通過(guò)加工、整理和分析、使其轉(zhuǎn)化為信息,數(shù)據(jù)展現(xiàn)的方式有兩類:列表方式、圖形方式。
最后,整個(gè)數(shù)據(jù)分析過(guò)程要以“分析報(bào)告”的形式呈現(xiàn)出來(lái),分析報(bào)告應(yīng)充分展現(xiàn)數(shù)據(jù)分析的起因、過(guò)程、結(jié)果及相關(guān)建議,需要有分析框架、明確的結(jié)論以及解決方案。數(shù)據(jù)分析報(bào)告一定要有明確的結(jié)論,沒(méi)有明確結(jié)論的分析稱不上分析,同時(shí)也失去了報(bào)告的意義,因?yàn)檎麄€(gè)數(shù)據(jù)分析過(guò)程就是為尋找或者求證一個(gè)結(jié)論才進(jìn)行的。最后,分析報(bào)告要有建議或解決方案,以供管理者在決策時(shí)作參考。
(四)客戶中心常用的數(shù)據(jù)分析工具及簡(jiǎn)介1 Excel
Excel是微軟辦公套裝軟件的一個(gè)重要組成部分,它可以進(jìn)行各種數(shù)據(jù)的處理、統(tǒng)計(jì)分析和輔助決策操作,廣泛地應(yīng)用于管理、統(tǒng)計(jì)財(cái)經(jīng)、金融等眾多領(lǐng)域。Excel提供了強(qiáng)大的數(shù)據(jù)分析處理功能,利用它們可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的排序、分類匯總、篩選及數(shù)據(jù)透視等操作。
2 SPC
SPC(Statistical Process Control)即統(tǒng)計(jì)過(guò)程控制,是一種借助數(shù)理統(tǒng)計(jì)方法的過(guò)程控制工具。實(shí)施SPC的過(guò)程一般分為兩大步驟:首先用SPC工具對(duì)過(guò)程進(jìn)行分析,如繪制分析用控制圖等;根據(jù)分析結(jié)果采取必要措施:可能需要消除過(guò)程中的系統(tǒng)性因素,也可能需要管理層的介入來(lái)減小過(guò)程的隨機(jī)波動(dòng)以滿足過(guò)程能力的需求。第二步則是用控制圖對(duì)過(guò)程進(jìn)行監(jiān)控。
3 SAS
SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計(jì)分析,時(shí)至今日,統(tǒng)計(jì)分析功能仍是它的重要組成部分和核心功能。在數(shù)據(jù)處理和統(tǒng)計(jì)分析領(lǐng)域,SAS系統(tǒng)被譽(yù)為國(guó)際上的標(biāo)準(zhǔn)軟件系統(tǒng),SAS提供多個(gè)統(tǒng)計(jì)過(guò)程,用戶可以通過(guò)對(duì)數(shù)據(jù)集的一連串加工實(shí)現(xiàn)更為復(fù)雜的統(tǒng)計(jì)分析,此外 SAS還提供了各類概率分析函數(shù)、分位數(shù)函數(shù)、樣本統(tǒng)計(jì)函數(shù)和隨機(jī)數(shù)生成函數(shù),使用戶能方便地實(shí)現(xiàn)特殊統(tǒng)計(jì)要求。
4 JMP
JMP是SAS(全球最大的統(tǒng)計(jì)學(xué)軟件公司)推出的一種交互式可視化統(tǒng)計(jì)發(fā)現(xiàn)軟件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等強(qiáng)大的產(chǎn)品線,主要用于實(shí)現(xiàn)統(tǒng)計(jì)分析。其算法源于SAS,特別強(qiáng)調(diào)以統(tǒng)計(jì)方法的實(shí)際應(yīng)用為導(dǎo)向,交互性、可視化能力強(qiáng),使用方便。JMP的應(yīng)用非常廣泛,業(yè)務(wù)領(lǐng)域包括探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗(yàn)設(shè)計(jì)、統(tǒng)計(jì)分析與建模、交互式數(shù)據(jù)挖掘、分析程序開(kāi)發(fā)等。 SPSS(Statistical Product and Service Solutions)“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件,是世界上最早的統(tǒng)計(jì)分析軟件,基本功能包括數(shù)據(jù)管理、統(tǒng)計(jì)分析、圖表分析、輸出管理等等。SPSS統(tǒng)計(jì)分析過(guò)程包括描述性統(tǒng)計(jì)、均值比較、一般線性模型、相關(guān)分析、回歸分析、對(duì)數(shù)線性模型、聚類分析、數(shù)據(jù)簡(jiǎn)化、生存分析、時(shí)間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個(gè)統(tǒng)計(jì)過(guò)程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、加權(quán)估計(jì)、兩階段最小二乘法、非線性回歸等多個(gè)統(tǒng)計(jì)過(guò)程,而且每個(gè)過(guò)程中又允許用戶選擇不同的方法及參數(shù),SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。
6 Minitab
篇2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1002―2848―2007(01)-0108―06
一、前 言
在經(jīng)濟(jì)數(shù)據(jù)的傳統(tǒng)定量分析中,所分析的數(shù)據(jù)對(duì)象具有這樣的特征,即數(shù)據(jù)要么是時(shí)間序列數(shù)據(jù),要么是橫截面數(shù)據(jù)。而實(shí)際中獲得的許多經(jīng)濟(jì)數(shù)據(jù),往往是在時(shí)間序列上取多個(gè)截面,再在這些截面上同時(shí)選取樣本觀測(cè)值所構(gòu)成的樣本數(shù)據(jù)。計(jì)量經(jīng)濟(jì)學(xué)中稱這樣的數(shù)據(jù)為“平行數(shù)據(jù)”(Panel Da―ta),也被翻譯成“面板數(shù)據(jù)”,或“縱向數(shù)據(jù)”(longitudinal data)。20多年來(lái),許多學(xué)者研究分析了面板數(shù)據(jù)。事實(shí)上,關(guān)于面板數(shù)據(jù)的研究是計(jì)量經(jīng)濟(jì)學(xué)理論方法的重要發(fā)展之一,它在解決數(shù)據(jù)樣本容量不足、估計(jì)難以度量的因素對(duì)經(jīng)濟(jì)指標(biāo)的影響,以及區(qū)分經(jīng)濟(jì)變量的作用等方面,具有突出優(yōu)點(diǎn)。但是,研究面板數(shù)據(jù)的計(jì)量模型,以線性結(jié)構(gòu)描述變量之間的因果關(guān)系,且模型太過(guò)于依賴諸多的假設(shè)條件,使得方法的應(yīng)用具有一定的局限性。為了彌補(bǔ)面板數(shù)據(jù)的計(jì)量模型分析方法及其它統(tǒng)計(jì)分析方法的缺陷,本文基于經(jīng)濟(jì)數(shù)據(jù)的函數(shù)性特征,介紹一種從函數(shù)視角對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析的全新方法一函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)。
函數(shù)性數(shù)據(jù)分析的概念,始見(jiàn)于加拿大統(tǒng)計(jì)學(xué)家J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數(shù)性數(shù)據(jù)分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對(duì)函數(shù)性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的已有理論和方法,總結(jié)在《函數(shù)性數(shù)據(jù)分析》一書中。但這本書偏重方法的理論介紹和數(shù)學(xué)推導(dǎo),不利于統(tǒng)計(jì)基礎(chǔ)薄弱者使用。經(jīng)過(guò)5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數(shù)性數(shù)據(jù)案例,并將其具體的分析過(guò)程編入他們于2002年出版的專著中。雖然國(guó)外在這方面已經(jīng)做了許多研究,也取得了許多有價(jià)值的結(jié)果,但是有關(guān)函數(shù)性數(shù)據(jù)的研究依然處于起步階段,還有很多問(wèn)題需要研究或進(jìn)一步完善。另外,從方法應(yīng)用的具體領(lǐng)域來(lái)看,很少涉及對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)的分析。就目前研究文獻(xiàn)來(lái)看,我國(guó)在此方面的研究尚是一片空白。
為填補(bǔ)我國(guó)在這方面研究的空白,本文從思想、方法等方面,對(duì)函數(shù)性數(shù)據(jù)分析進(jìn)行系統(tǒng)介紹,并通過(guò)編寫計(jì)算機(jī)程序,率先利用該方法分析實(shí)際的經(jīng)濟(jì)函數(shù)性數(shù)據(jù)。本文共分六部分,以下內(nèi)容的安排為:數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用,最后一部分是本文的結(jié)論。
二、數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例
一般地說(shuō),多元數(shù)據(jù)分析(Multivariate Data A-nalysis,MDA)處理的對(duì)象,是刻畫所研究問(wèn)題的多個(gè)統(tǒng)計(jì)指標(biāo)(變量)在多次觀察中呈現(xiàn)出的數(shù)據(jù),樣本數(shù)據(jù)具有離散且有限的特征。但是,現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息,不但包括傳統(tǒng)統(tǒng)計(jì)方法所處理的數(shù)據(jù),還包括具有函數(shù)形式的過(guò)程所產(chǎn)生的數(shù)據(jù),例如,數(shù)據(jù)自動(dòng)收集系統(tǒng)等,稱具有這種特征的數(shù)據(jù)為函數(shù)性數(shù)據(jù)。
函數(shù)性數(shù)據(jù)的表現(xiàn)形式多種多樣,但就其本質(zhì)來(lái)說(shuō),它們由函數(shù)構(gòu)成。這些函數(shù)的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數(shù)等)。許多研究領(lǐng)域的樣本資料往往表現(xiàn)為函數(shù)形式,如考古學(xué)家挖掘的骨塊的形狀、按時(shí)間記錄的經(jīng)濟(jì)數(shù)據(jù)、手寫時(shí)筆尖的運(yùn)動(dòng)軌跡、溫度的變化等。函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)的基本原理是把觀測(cè)到的數(shù)據(jù)函數(shù)看作一個(gè)整體,而不僅僅是一串?dāng)?shù)字。函數(shù)指的是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),而不是它們直觀的外在表現(xiàn)形式。
實(shí)際中,之所以要從函數(shù)的視角對(duì)數(shù)據(jù)進(jìn)行分析,是因?yàn)椋?1)實(shí)際中,獲得數(shù)據(jù)的方式和技術(shù)日新月異、多種多樣,例如,越來(lái)越多的研究者可以通過(guò)數(shù)據(jù)的自動(dòng)收集系統(tǒng)獲得大量的數(shù)據(jù)信息。更重要的是,原本用于工程技術(shù)分析的修勻(smoothing)和插值(interpolation)技術(shù),可以由有限組的觀測(cè)數(shù)據(jù)產(chǎn)生出相應(yīng)的函數(shù)表示。(2)盡管只有有限次的觀測(cè)數(shù)據(jù)可供利用,但有一些建模問(wèn)題,將其納入到函數(shù)版本下進(jìn)行考慮,會(huì)使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數(shù)據(jù)估計(jì)函數(shù)或其導(dǎo)數(shù),則分析從本質(zhì)上來(lái)看就具有函數(shù)性的特征。(4)將平滑性引入到一個(gè)函數(shù)過(guò)程所產(chǎn)生的多元數(shù)據(jù)的處理中,對(duì)分析具有重要的意義。
在經(jīng)濟(jì)分析中,融合時(shí)間序列和橫截面兩者的數(shù)據(jù)很常見(jiàn),例如,多個(gè)國(guó)家、地區(qū)、行業(yè)或企業(yè)的多年的年度經(jīng)濟(jì)總量、多家商業(yè)銀行歷年的資本結(jié)構(gòu)、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時(shí)間上多個(gè)省市的失業(yè)數(shù)據(jù)等。這些經(jīng)濟(jì)數(shù)據(jù)往往呈現(xiàn)函數(shù)性特征,即每個(gè)個(gè)體對(duì)應(yīng)著一個(gè)函數(shù)或曲線。在對(duì)經(jīng)濟(jì)函數(shù)性數(shù)據(jù)進(jìn)行分析時(shí),將觀測(cè)到的數(shù)據(jù)(函數(shù))看作一個(gè)整體,而不是個(gè)體觀測(cè)值的順序排列,這是函數(shù)性數(shù)據(jù)分析不同于傳統(tǒng)統(tǒng)計(jì)分析之根本所在。例如,表1是工商銀行、農(nóng)業(yè)銀行、中國(guó)銀行、建設(shè)銀行1995年到2004年期間的資產(chǎn)收益率(ROA)數(shù)據(jù)。
利用基于MATLAB編寫的程序,對(duì)數(shù)據(jù)進(jìn)行平滑處理(smoothing),并繪出四家國(guó)有銀行的資產(chǎn)收益率(ROA)的修勻曲線(見(jiàn)圖1)。由曲線圖可以看出,每個(gè)個(gè)體(銀行)對(duì)應(yīng)著一條曲線(其數(shù)學(xué)表達(dá)式為函數(shù)),這是將多家銀行的歷年ROA數(shù)據(jù)記錄看作函數(shù)的根本理由,也是函數(shù)性數(shù)據(jù)分析的出發(fā)點(diǎn)。
三、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義
從函數(shù)的視角,對(duì)具有函數(shù)特征的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行研究,會(huì)挖掘出更多的信息。例如,對(duì)函數(shù)性數(shù)據(jù)的平滑曲線展示,不但能夠診斷出擬合數(shù)據(jù)的可能數(shù)學(xué)模型,還能夠通過(guò)對(duì)光滑曲線求一階、或更高階的導(dǎo)數(shù),來(lái)進(jìn)一步探索數(shù)據(jù)的個(gè)體(橫截面)差異和動(dòng)態(tài)變化規(guī)律。
圖2是四家銀行資產(chǎn)收益率的速度(一階導(dǎo)數(shù))曲線,觀察發(fā)現(xiàn):在1995年至2004年期間,農(nóng)業(yè)
銀行、中國(guó)銀行及建設(shè)銀行的資產(chǎn)收益率的變化率,呈現(xiàn)出較強(qiáng)的周期性,其中尤以建設(shè)銀行的表現(xiàn)最為突出。加速度曲線圖顯示,四家銀行資產(chǎn)收益率的變化率的波動(dòng)狀況不相同,轉(zhuǎn)折變化的時(shí)間差異也較大。這些情況一定程度表明,各家銀行的內(nèi)部管理與經(jīng)營(yíng)機(jī)制,對(duì)市場(chǎng)信息的反應(yīng)快慢程度各不相同。
四、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟
函數(shù)性數(shù)據(jù)分析的目標(biāo)與傳統(tǒng)統(tǒng)計(jì)學(xué)分析的目標(biāo)基本一樣,具體情況如下:
(一)以對(duì)進(jìn)一步分析有利的方法來(lái)描述數(shù)據(jù);
(二)為突出不同特征而對(duì)數(shù)據(jù)進(jìn)行展示;
(三)研究數(shù)據(jù)類型的重要來(lái)源和數(shù)據(jù)之間的變化;
(四)利用輸入(自變量信息)來(lái)解釋輸出(因變量)的變化情況;
(五)對(duì)兩組或更多的某種類型的變量數(shù)據(jù)進(jìn)行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數(shù)據(jù)的收集、整理和組織。假設(shè)我們考慮的自變量是一維的,記為t,一個(gè)的函數(shù)僅在離散抽樣值 處被觀測(cè),而且這些ti可能等間隔分布,也可能不是。在函數(shù)性數(shù)據(jù)分析中,將這些離散的觀測(cè)值看作一個(gè)整體。
第二步,將離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)形式。這是利用各次觀察的原始數(shù)據(jù)定義出一個(gè)函數(shù)x(t),它在某一區(qū)間上所有t處的值都被估算了出來(lái)。解決這個(gè)問(wèn)題的基本方法是選定一組基函數(shù) (t),k=O,…,K,并用基函數(shù)的線性組合給出函數(shù)x(t)的估計(jì)
第三步,多種形式的初步展示與概括統(tǒng)計(jì)量。概括統(tǒng)計(jì)量包括均值和方差函數(shù)、協(xié)方差與相關(guān)函數(shù)、交叉協(xié)方差(cross―covafiance)與交叉相關(guān)(cross―correlation)函數(shù)等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現(xiàn)出來(lái),可能需要對(duì)函數(shù)進(jìn)行排齊(regigtration),其目的是能夠區(qū)別對(duì)待垂直方向的振幅變化與水平方向的相變化。
第五步,對(duì)排齊后的函數(shù)數(shù)據(jù)進(jìn)行探索性分析,如函數(shù)性主成份分析(FPCA)、函數(shù)性典型相關(guān)份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數(shù)性線性模型,也可能是微分方程。
第七步,模型估計(jì)。
五、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用
為了說(shuō)明函數(shù)性數(shù)據(jù)分析方法的具體應(yīng)用,同時(shí)出于使所繪圖形簡(jiǎn)單明了,本文再次利用四家國(guó)有銀行的數(shù)據(jù),對(duì)資產(chǎn)收益率進(jìn)行更深入的分析。雖然此實(shí)例中個(gè)體數(shù)少,但并不妨礙對(duì)方法應(yīng)用的系統(tǒng)描述與理解。
在對(duì)實(shí)際問(wèn)題的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時(shí),通常需要依照研究的目標(biāo)編寫計(jì)算機(jī)程序。就目前的研究現(xiàn)狀來(lái)看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計(jì)算函數(shù)等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對(duì)四家國(guó)有銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。
關(guān)于四家銀行資產(chǎn)收益率數(shù)據(jù)的函數(shù)(曲線)展示與初步分析,本文在前面已進(jìn)行了描述,具體結(jié)果見(jiàn)圖1和圖2。概括資產(chǎn)收益率特征的統(tǒng)計(jì)量(均值函數(shù)和標(biāo)準(zhǔn)差函數(shù))的曲線見(jiàn)圖3。
為了進(jìn)一步探討典型函數(shù)所呈現(xiàn)的特征,本文利用函數(shù)性主成份分析,對(duì)四家銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。一般來(lái)說(shuō),在函數(shù)性數(shù)據(jù)分析中,與多元統(tǒng)計(jì)中的某個(gè)主成份的權(quán)向量相對(duì)應(yīng)的是主成份權(quán)函數(shù)(principal component weight function),記為 ,其中t在一個(gè)區(qū)間 中變化。第i個(gè)樣品(個(gè)體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達(dá)到最大的權(quán)函數(shù) ,即它是下面數(shù)學(xué)模型的最優(yōu)解: 類似地,可以求得第j個(gè)主成份,其權(quán)函數(shù)毛(t)是下面數(shù)學(xué)模型的解:
為了得到光滑的主成份,一種方法是對(duì)由上述方法求出的主成份進(jìn)行修勻,另一種方法是將修勻處理過(guò)程,融入到主成份的求解過(guò)程中。具體作法是將描述主成份曲線波動(dòng)程度的粗糙因子納入到約柬?xiàng)l件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個(gè)主成份的數(shù)學(xué)模型是其中 稱為修勻參數(shù),用它可對(duì)粗糙懲罰項(xiàng)進(jìn)行調(diào)整。
利用上述方法和基于MATLAB編寫的程序,對(duì)四家銀行進(jìn)行函數(shù)性主成份分析(FPCA)。具體結(jié)果見(jiàn)圖4。第一個(gè)主成份(PCI)的解釋能力為85.5%,第二個(gè)主成份(Pc2)的解釋能力為13.1%,前兩個(gè)主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進(jìn)行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對(duì)均值曲線分別加上和減去主成份的一個(gè)適當(dāng)倍數(shù)而形成的曲線,具體結(jié)果見(jiàn)圖5(本文所選的倍數(shù)是0.12)。以上所述的三條曲線分別對(duì)應(yīng)著圖5中的實(shí)心曲線、‘+’曲線和‘*’曲線。第一個(gè)主成份反映了資產(chǎn)收益率(ROA)的一般變化,尤其反映了資產(chǎn)收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個(gè)主成份反映了資產(chǎn)收益率(ROA)的中段變化。
六、結(jié)論
在經(jīng)濟(jì)實(shí)踐中,越來(lái)越多的領(lǐng)域所得到的樣本觀察資料是曲線或圖像,即函數(shù)性數(shù)據(jù)。因此,對(duì)這種類型的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和描述,具有重要的現(xiàn)實(shí)意義。因篇幅所限,還有一些函數(shù)性數(shù)據(jù)的分析方法未予以介紹,如函數(shù)性方差分析、函數(shù)線性模型、函數(shù)性典型相關(guān)分析以及描述動(dòng)態(tài)性的微分方程等。由于本文的主要目的,是通過(guò)對(duì)函數(shù)性數(shù)據(jù)分析方法和具體應(yīng)用的介紹,傳述對(duì)數(shù)據(jù)進(jìn)行分析的新思想,而不只是方法技術(shù)本身。因此,缺少的方法并不影響對(duì)思想的闡述。
篇3
網(wǎng)站優(yōu)化數(shù)據(jù)分析方法二:關(guān)鍵詞分析
網(wǎng)站關(guān)鍵詞分析也是網(wǎng)站優(yōu)化的重要工作之一!分析現(xiàn)在網(wǎng)站關(guān)鍵詞的布局,分析網(wǎng)站有流量的關(guān)鍵詞,分析網(wǎng)站還沒(méi)有覆蓋的與網(wǎng)站業(yè)務(wù)相關(guān)的關(guān)鍵詞,分析出網(wǎng)站主關(guān)鍵詞的排名情況,分析關(guān)鍵詞的設(shè)計(jì)是否合理。分析頂級(jí)關(guān)鍵詞是否占據(jù)了搜索引擎首頁(yè)的排名,分析搜索關(guān)鍵詞的質(zhì)量高不高,與網(wǎng)站業(yè)務(wù)的相關(guān)度如何?!分析關(guān)鍵詞轉(zhuǎn)化率如何等等。
篇4
一、運(yùn)用數(shù)據(jù)分析,把握化學(xué)概念的內(nèi)涵
高中化學(xué)選修四《化學(xué)反應(yīng)原理》一書中的一些化學(xué)基本概念比較抽象,教師應(yīng)在教學(xué)中依據(jù)教材提供的數(shù)據(jù)材料或通過(guò)實(shí)驗(yàn)所得數(shù)據(jù)及推理演算,引導(dǎo)學(xué)生在探索中得出相關(guān)概念,并進(jìn)一步理解概念的本質(zhì)。通過(guò)數(shù)據(jù)分析的教學(xué),讓學(xué)生自己收集數(shù)據(jù),應(yīng)用數(shù)據(jù)分析,從而感受數(shù)據(jù)分析的實(shí)際價(jià)值,深刻理解概念的內(nèi)涵。
例如,弱電解質(zhì)電離平衡常數(shù)用Ki表示。弱電解質(zhì)通常為弱酸或弱堿,所以在化學(xué)上,可以用Ka、Kb分別表示弱酸和弱堿的電離平衡常數(shù)。用HA表示弱酸,則其電離方程式為HA H++A-,則電離常數(shù)Ka=[H]*[A]/[HA],電離平衡常數(shù)描述了一定溫度下弱電解質(zhì)的電離能力。在相同溫度和濃度時(shí),電離度的大小也可以表示弱電解質(zhì)的相對(duì)強(qiáng)弱。用電離度比較幾種電解質(zhì)的相對(duì)強(qiáng)弱時(shí),應(yīng)當(dāng)注意所給條件,即濃度和溫度,如不注明溫度通常指25℃。
在教學(xué)過(guò)程中,我們發(fā)現(xiàn)這些概念抽象難以用啟發(fā)式教學(xué)法讓學(xué)生去學(xué)習(xí),因?yàn)閷W(xué)生對(duì)于課本上弱酸的電離平衡常數(shù)的理解總是基于表面,沒(méi)能真正理解化學(xué)概念的內(nèi)涵。
教師在教學(xué)中應(yīng)充分利用課本中的數(shù)據(jù),分析Ka與電離度α的關(guān)系,比較Ka與電離度α的相同點(diǎn)與不同點(diǎn)。電離常數(shù)K與電離度α的關(guān)系可近似地表示為K=cα2,其中c為弱電解質(zhì)溶液的濃度。教師通過(guò)設(shè)計(jì)一組具體數(shù)據(jù),讓學(xué)生從電離常數(shù)可以算出不同濃度、不同溫度時(shí)弱電解質(zhì)的電離度,比較電離常數(shù)與電離度的區(qū)別,可看出Ka是常數(shù)而α不是常數(shù)。Ka隨溫度而變化,α隨Ka而變化,因此α也隨溫度而變化,Ka不因濃度改變而變化,但α卻隨濃度而變化,Ka不因溶液中其他電解質(zhì)的存在而變化,但α卻因溶液中其他電解質(zhì)離子的存在而變化。
例如,在醋酸溶液中加入醋酸鈉(CH3COONa),則因同離子效應(yīng)而使平衡向左移動(dòng),α將減小。在室內(nèi)溫度下,醋酸的電離常數(shù)是1.8×10-5,學(xué)生對(duì)這一數(shù)據(jù)并沒(méi)有什么印象,但通過(guò)計(jì)算可以得出它的電離度α=1.3%,學(xué)生得出每1000個(gè)醋酸分子室溫條件下只有13個(gè)醋酸分子發(fā)生電離,987個(gè)醋酸分子的形式存在溶液中。通過(guò)數(shù)據(jù)的分析轉(zhuǎn)換,學(xué)生容易理解弱電解質(zhì)的電離程度的大小,有利于把握化學(xué)概念的內(nèi)涵。
二、運(yùn)用數(shù)據(jù)分析,準(zhǔn)確化學(xué)概念的外延
化學(xué)課本中有許多數(shù)據(jù),教學(xué)中并不要求具體記憶這些數(shù)值,但對(duì)這些數(shù)據(jù)的統(tǒng)計(jì)分析,既能幫助學(xué)生理解概念本質(zhì),形成學(xué)科觀念,又有利于培養(yǎng)學(xué)生嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,全面提升科學(xué)素養(yǎng)。對(duì)這些數(shù)據(jù)的統(tǒng)計(jì)分析,有利于學(xué)生建立準(zhǔn)確的數(shù)據(jù)觀念,可以發(fā)展學(xué)生的數(shù)據(jù)意識(shí),學(xué)生從中提取相關(guān)信息,從而充分體現(xiàn)化學(xué)基本概念對(duì)元素化合物性質(zhì)學(xué)習(xí)的指導(dǎo)作用。例如,關(guān)于Ka概念外延的教學(xué),我們應(yīng)該清楚該概念的適用范圍。
(1)根據(jù)Ka判斷弱酸的酸性強(qiáng)弱。通過(guò)Ka的學(xué)習(xí)達(dá)到指導(dǎo)元素化合物性質(zhì)的學(xué)習(xí)。相同條件下,Ka越大,酸性越強(qiáng)。通過(guò)比較Ka,我們可以得出常見(jiàn)弱酸的酸性:CH3COOH>H2CO3>
H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。這樣,學(xué)生就很容易理解醋酸溶液與碳酸鈣的反應(yīng),還有漂白粉放置在空氣中失效、水玻璃溶液中通入二氧化碳?xì)怏w、偏鋁酸鈉溶液中通入二氧化碳?xì)怏w等一系列反應(yīng),這些反應(yīng)都是高一化學(xué)課本中的重要反應(yīng),都符合“酸性強(qiáng)的制取酸性弱”的基本原理。
(2)以Ka來(lái)判斷鹽類物質(zhì)的水解相對(duì)大小。根據(jù)鹽類水解規(guī)律“越弱越水解”,我們可以判斷出相同條件下醋酸銨溶液、氯化銨溶液、次氯酸銨溶液水解的相對(duì)大小,從而判斷出溶液的酸堿性。分析利用醋酸Ka和氨水Kb數(shù)據(jù)的特殊性可知:醋酸銨溶液接近中性,進(jìn)而可以探究Mg(OH)2沉淀溶于濃銨鹽的反應(yīng)原理。
(3)根據(jù)Ka1、Ka2判斷酸式鹽溶液的酸堿性。在25℃時(shí),碳酸的電離平衡常數(shù)分別為:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亞硫酸的電離平衡常數(shù)Ka1=1.54×10-2 ,Ka2=1.02×10-7。對(duì)于酸式鹽NaHA的水溶液, NaHA 中 HA-既可電離:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式鹽溶液由于NaHCO3溶液的Ka1Kh1而顯酸性。
(4)根據(jù)Ka1、Ka2的相對(duì)大小判斷物|的性質(zhì)、理解離子反應(yīng)的實(shí)質(zhì)。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氫氧化鋁的酸式電離Ka= 6.3×10-13 。通過(guò)對(duì)這些數(shù)據(jù)的分析,我們?nèi)菀椎贸鏊嵝裕篐2CO3>HCO3->Al(OH)3-;H2CO3>
C6H5OH>HCO3-。這樣就容易理解以下四個(gè)反應(yīng):
A.往苯酚鈉水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+
HCO3-
B.往偏鋁酸鈉水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-
C.往偏鋁酸鈉水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+
HCO3-
D. 偏鋁酸鈉水溶液與碳酸氫鈉水溶液混合: AlO2-+HCO3-+H2O
Al(OH)3+CO32-
三、運(yùn)用數(shù)據(jù)分析,拓展提高學(xué)生綜合應(yīng)用概念的水平
化學(xué)計(jì)算是中學(xué)化學(xué)教學(xué)的重要內(nèi)容,也是中學(xué)生必須掌握的一個(gè)基本技能,學(xué)會(huì)數(shù)據(jù)分析是提高計(jì)算能力的關(guān)鍵?;瘜W(xué)計(jì)算題中,往往題目數(shù)據(jù)多、綜合性強(qiáng),但學(xué)生們因綜合分析能力差,不善于對(duì)知識(shí)準(zhǔn)確遷移,因而覺(jué)得十分棘手。分析化學(xué)過(guò)程、融會(huì)貫通理解化學(xué)概念的內(nèi)涵是正確解決化學(xué)計(jì)算題的基礎(chǔ)。
在學(xué)習(xí)《溶液中的離子反應(yīng)》專題后,許多教師會(huì)引導(dǎo)學(xué)生對(duì)化學(xué)平衡常數(shù)K、酸堿電離平衡常數(shù)Ka、Kb、水的離子積Kw、難溶電解質(zhì)的溶度積Ksp等一些概念進(jìn)行比較歸納,分析他們的異同,但是若能進(jìn)一步拓展到酸電離平衡常數(shù)Ka與鹽的水解常數(shù)Kh、與難溶電解質(zhì)的溶度積Ksp、配合物的穩(wěn)定系數(shù)Kw之間的聯(lián)系,就能進(jìn)一步提高學(xué)生的綜合能力。
例如,在25℃下,于0.010mol?L-1
FeSO4溶液中通入H2S(g), 使其成為飽和溶液 (C(H2S)= 0.10mol?L-1) 。
篇5
使用一些工具來(lái)幫助大家更好的理解數(shù)據(jù)分析在挖掘數(shù)據(jù)價(jià)值方面的重要性,是十分有必要的。其中的一個(gè)工具,叫做四維分析法。
簡(jiǎn)單地來(lái)說(shuō),分析可被劃分為4種關(guān)鍵方法。
下面會(huì)詳細(xì)介紹這四種方法。
1.描述型分析:發(fā)生了什么?
這是最常見(jiàn)的分析方法。在業(yè)務(wù)中,這種方法向數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。
例如,每月的營(yíng)收和損失賬單。數(shù)據(jù)分析師可以通過(guò)這些賬單,獲取大量的客戶數(shù)據(jù)。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強(qiáng)描述型分析所提供的信息。
2.診斷型分析:為什么會(huì)發(fā)生?
描述性數(shù)據(jù)分析的下一步就是診斷型數(shù)據(jù)分析。通過(guò)評(píng)估描述型數(shù)據(jù),診斷分析工具能夠讓數(shù)據(jù)分析師深入地分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心。
良好設(shè)計(jì)的BI dashboard能夠整合:按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過(guò)濾和鉆取數(shù)據(jù)等功能,以便更好的分析數(shù)據(jù)。
3.預(yù)測(cè)型分析:可能發(fā)生什么?
預(yù)測(cè)型分析主要用于進(jìn)行預(yù)測(cè)。事件未來(lái)發(fā)生的可能性、預(yù)測(cè)一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過(guò)預(yù)測(cè)模型來(lái)完成。
預(yù)測(cè)模型通常會(huì)使用各種可變數(shù)據(jù)來(lái)實(shí)現(xiàn)預(yù)測(cè)。數(shù)據(jù)成員的多樣化與預(yù)測(cè)結(jié)果密切相關(guān)。
在充滿不確定性的環(huán)境下,預(yù)測(cè)能夠幫助做出更好的決定。預(yù)測(cè)模型也是很多領(lǐng)域正在使用的重要方法。
4.指令型分析:需要做什么?
數(shù)據(jù)價(jià)值和復(fù)雜度分析的下一步就是指令型分析。指令模型基于對(duì)“發(fā)生了什么”、“為什么會(huì)發(fā)生”和“可能發(fā)生什么”的分析,來(lái)幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨(dú)使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
篇6
數(shù)據(jù)分析是指運(yùn)用一定的分析方法對(duì)數(shù)據(jù)進(jìn)行處理,從而獲得解決管理決策或營(yíng)銷研究問(wèn)題所需信息的過(guò)程。所謂的數(shù)據(jù)統(tǒng)計(jì)分析就是運(yùn)用統(tǒng)計(jì)學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行處理。在實(shí)際的市場(chǎng)調(diào)研工作中,數(shù)據(jù)統(tǒng)計(jì)分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當(dāng)?shù)男问奖憩F(xiàn)出來(lái),并最終指導(dǎo)決策的制定。
二、數(shù)據(jù)統(tǒng)計(jì)分析的原則
(1)科學(xué)性。科學(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計(jì)分析作為市場(chǎng)調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標(biāo)準(zhǔn)。(2)系統(tǒng)性。市場(chǎng)調(diào)研是一個(gè)周密策劃、精心組織、科學(xué)實(shí)施,并由一系列工作環(huán)節(jié)、步驟、活動(dòng)和成果組成的過(guò)程,而不是單個(gè)資料的記錄、整理或分析活動(dòng)。(3)針對(duì)性。就不同的數(shù)據(jù)統(tǒng)計(jì)分析方法而言,無(wú)論是基礎(chǔ)的分析方法還是高級(jí)的分析方法,都會(huì)有它的適用領(lǐng)域和局限性。(4)趨勢(shì)性。市場(chǎng)所處的環(huán)境是在不斷的變化過(guò)程中的,我們要以一種發(fā)展的眼光看待問(wèn)題。(5)實(shí)用性。市場(chǎng)調(diào)研說(shuō)到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計(jì)分析也同樣服務(wù)于此,在保證其專業(yè)性和科學(xué)性的同時(shí)也不能忽略其現(xiàn)實(shí)意義。
三、推論性統(tǒng)計(jì)分析方法
(1)方差分析。方差分析是檢驗(yàn)多個(gè)總體均值是否相等的一種統(tǒng)計(jì)方法,它可以看作是t檢驗(yàn)的一種擴(kuò)展。它所研究的是分類型自變量對(duì)數(shù)值型因變量的影響,比如它們之間有沒(méi)有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過(guò)檢驗(yàn)各個(gè)總體的均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計(jì)分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對(duì)應(yīng)的因果變化往往無(wú)法用精確的數(shù)學(xué)公式來(lái)描述,只有通過(guò)大量觀察數(shù)據(jù)的統(tǒng)計(jì)工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問(wèn)題的常用方法是回歸分析?;貧w分析是從定量的角度對(duì)觀察數(shù)據(jù)進(jìn)行分析、計(jì)算和歸納。
四、多元統(tǒng)計(jì)分析方法
(1)相關(guān)分析。相關(guān)分析是描述兩組變量間的相關(guān)程度和方向的一種常用的統(tǒng)計(jì)方法。值得注意的是,事物之間有相關(guān)關(guān)系,不一定是因果關(guān)系,也可能僅僅是伴隨關(guān)系;但如果事物之間有因果關(guān)系,則兩者必然存在相關(guān)關(guān)系。(2)主成分分析。在大部分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個(gè)彼此不相關(guān)的綜合指標(biāo)盡可能多地反映原來(lái)眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)分析方法,很顯然在一個(gè)低維空間識(shí)別系統(tǒng)要比在一個(gè)高維空間容易的多。(3)因子分析。因子分析的目的是使數(shù)據(jù)簡(jiǎn)單化,它是將具有錯(cuò)綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時(shí)根據(jù)不同因子,對(duì)變量進(jìn)行分類。這些因子是不可觀測(cè)的潛在變量,而原先的變量是可觀測(cè)的顯在變量。(4)聚類分析。在市場(chǎng)調(diào)研中,市場(chǎng)細(xì)分是最常見(jiàn)的營(yíng)銷術(shù)語(yǔ)之一,它按照一定的標(biāo)準(zhǔn)將市場(chǎng)分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內(nèi)部在這種特征上具有相似性。聚類分析就是實(shí)現(xiàn)分類的一種多元統(tǒng)計(jì)分析方法,它根據(jù)聚類變量將樣本分成相對(duì)同質(zhì)的族群。聚類分析的主要優(yōu)點(diǎn)是,對(duì)所研究的對(duì)象進(jìn)行了全面的綜合分析,歸類比較客觀,有利于分類指導(dǎo)。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統(tǒng)計(jì)方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標(biāo)準(zhǔn),以判定將該新樣品放置于哪個(gè)類中。由定義我們可以知道判別分析區(qū)別于聚類分析的地方,而在判別分析中,至少要有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,從而利用這個(gè)數(shù)據(jù)建立判別準(zhǔn)則,并通過(guò)預(yù)測(cè)變量來(lái)為未知類別的觀測(cè)值進(jìn)行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠(yuǎn)近來(lái)把對(duì)象歸類的。
參考文獻(xiàn)
篇7
隨著醫(yī)藥制造業(yè)在我國(guó)整個(gè)制造業(yè)中的地位逐步提高,如何有效提升企業(yè)管理決策水平是我國(guó)醫(yī)藥制造業(yè)企業(yè)正面臨的關(guān)鍵問(wèn)題。目前,眾多信息融合、數(shù)據(jù)分析和決策分析方法正為企業(yè)現(xiàn)代化發(fā)展做出重要貢獻(xiàn)。文提出一種醫(yī)藥制造企業(yè)的數(shù)據(jù)分析和決策支持設(shè)計(jì)方案,實(shí)現(xiàn)多維數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的高效分析,繼而進(jìn)行分級(jí)決策支持。數(shù)據(jù)分析和決策支持系統(tǒng)主要是對(duì)存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中的各級(jí)粒度數(shù)據(jù)進(jìn)行處理,并返回用戶所需的分析和決策信息。系統(tǒng)主要任務(wù)是定制固定和自由統(tǒng)計(jì)報(bào)表、多維數(shù)據(jù)分析以及決策支持。
1.醫(yī)藥制造企業(yè)數(shù)據(jù)分析方法
系統(tǒng)多維數(shù)據(jù)分析的主要關(guān)鍵技術(shù)包括如下。
(1)多維數(shù)據(jù)分析的核心是將一條或多條多維查詢指令輸入進(jìn)平臺(tái)接口中;接口調(diào)用查詢解析器對(duì)多維查詢指令進(jìn)行解析和分解;接著查詢優(yōu)化器接收經(jīng)過(guò)解析后的多維查詢指令,并對(duì)指令進(jìn)行一系列的優(yōu)化;最后查詢處理器執(zhí)行優(yōu)化后的多維查詢指令,獲取數(shù)據(jù)、加工數(shù)據(jù)以及返回查詢結(jié)果,為了能夠提高多維數(shù)據(jù)分析的效率,文需要對(duì)以下內(nèi)容進(jìn)行考慮。
①對(duì)于新出現(xiàn)的一些多維數(shù)據(jù)分析應(yīng)用,系統(tǒng)將這些多維數(shù)據(jù)分析作為一個(gè)特殊的關(guān)系操作符(稱為多維操作符),考慮它與傳統(tǒng)關(guān)系操作符間執(zhí)行順序變換的等價(jià)規(guī)則。從而,基于這些等價(jià)變換規(guī)則和附加條件,通過(guò)改變多維操作符與傳統(tǒng)關(guān)系操作符之間的執(zhí)行順序來(lái)有效提高數(shù)據(jù)分析的效率。同時(shí),給出充分的理論證明以及代價(jià)模型來(lái)論證所給等價(jià)變換規(guī)則的正確性和有效性。
②當(dāng)用戶提出的多維數(shù)據(jù)分析應(yīng)用在查詢優(yōu)化器中沒(méi)有對(duì)應(yīng)的操作函數(shù)表示時(shí),系統(tǒng)采用如下方案:確定多維數(shù)據(jù)分析的精確代價(jià)模型;基于代價(jià)的方式擴(kuò)展傳統(tǒng)的查詢優(yōu)化樹(shù)(主要是擴(kuò)展注釋連接樹(shù));將這些多維數(shù)據(jù)分析作為一個(gè)特殊的關(guān)系操作符(稱為多維操作符),考慮它與基本關(guān)系操作,聚集操作以及rank操作之間組合的等價(jià)關(guān)系的約束條件和正確性判定;在擴(kuò)展的查詢優(yōu)化樹(shù)上使用等價(jià)規(guī)則,通過(guò)操作的上移,下移,增加操作符,變換操作符等機(jī)制生成代價(jià)最小的查詢操作執(zhí)行序列;多維操作符的物理層面上的實(shí)施;將多維操作符集成進(jìn)傳統(tǒng)的查詢優(yōu)化器之后將如何影響執(zhí)行計(jì)劃的搜索空間;擴(kuò)展傳統(tǒng)查詢優(yōu)化器的搜索執(zhí)行計(jì)劃的算法,權(quán)衡執(zhí)行計(jì)劃的有效性和生成執(zhí)行計(jì)劃的時(shí)間開(kāi)銷。
③當(dāng)存在多個(gè)數(shù)據(jù)分析應(yīng)用時(shí),采用的技術(shù)是:從祖先數(shù)據(jù)立方體獲取子孫數(shù)據(jù)立方體的代價(jià)模型;根據(jù)多維數(shù)據(jù)分析的自身特點(diǎn),有效選擇近似最優(yōu)數(shù)據(jù)立方體的方法;根據(jù)代價(jià)模型,考察邏輯上如何將所有給出的多個(gè)多維數(shù)據(jù)分析分組,每個(gè)組由一個(gè)相同的祖先數(shù)據(jù)立方體來(lái)回答;根據(jù)多維數(shù)據(jù)分析的底層實(shí)現(xiàn)機(jī)制,將每個(gè)組中的多個(gè)多維數(shù)據(jù)分析通過(guò)物理上的共享機(jī)制進(jìn)行有效的同步進(jìn)行,節(jié)省不必要的物理上的時(shí)間開(kāi)銷。
2.決策支持方案
醫(yī)藥制造企業(yè)決策支持模塊應(yīng)用的考慮主要包含三個(gè)部分,即決策模型庫(kù)的構(gòu)造、決策分析的實(shí)施以及多環(huán)節(jié)協(xié)作決策的實(shí)施,為了能夠有效且正確地讓各級(jí)管理者和用戶進(jìn)行決策,需要對(duì)以下內(nèi)容進(jìn)行考慮。
(1)醫(yī)藥制造業(yè)決策模型庫(kù)建立。決策模型庫(kù)主要用于存放進(jìn)行企業(yè)用戶決策分析的模型。針對(duì)醫(yī)藥生產(chǎn)過(guò)程中的材料采購(gòu)、庫(kù)存管理、產(chǎn)品生產(chǎn)、市場(chǎng)營(yíng)銷、財(cái)務(wù)管理與人力資源管理等方面的數(shù)據(jù),構(gòu)建進(jìn)行決策的模型。決策模型可以通過(guò)一定程度的授權(quán),獲得訪問(wèn)數(shù)據(jù)的權(quán)限。在此前提下,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中獲取的數(shù)據(jù),進(jìn)行由用戶指定目標(biāo)的決策支持。系統(tǒng)對(duì)現(xiàn)有模型組成元素及其組成結(jié)構(gòu)的知識(shí)進(jìn)行描述,并且獲取模型構(gòu)造過(guò)程中的各類推理算法。對(duì)于由人機(jī)交互接口實(shí)現(xiàn)機(jī)器理解的決策問(wèn)題,平臺(tái)通過(guò)模型概念詞及其屬性等相關(guān)知識(shí),獲取適合新決策問(wèn)題的匹配模型結(jié)構(gòu)等信息。然后再根據(jù)模型構(gòu)建推理算法自動(dòng)用新問(wèn)題的屬性值填充匹配模型的框架,最終構(gòu)造出決策問(wèn)題模型。
(2)醫(yī)藥制造業(yè)決策分析實(shí)施。決策分析的實(shí)施就是決策模型進(jìn)行求解的過(guò)程。模型的求解主要是通過(guò)對(duì)決策問(wèn)題的理解,獲取用戶所需要決策的目標(biāo),意圖等方面信息,進(jìn)而通過(guò)合適的決策模型將可獲得的數(shù)據(jù)進(jìn)行分析,利用一定的規(guī)則和模型的求解算法得出有效的決策意見(jiàn),并提交給用戶。本系統(tǒng)通過(guò)對(duì)每個(gè)模型所包含求解算法進(jìn)行規(guī)范的描述,對(duì)于具有通用求解算法的模型,通過(guò)調(diào)用模型中所包含的求解算法很容易對(duì)問(wèn)題進(jìn)行求解。而對(duì)于求解算法不存在或者不確定應(yīng)采用哪種算法實(shí)施求解時(shí),平臺(tái)將從以往成功的決策案例中,選擇與需要求解的問(wèn)題相似的范例,通過(guò)范例求解的方法對(duì)問(wèn)題進(jìn)行求解。對(duì)于取得較好決策效果的案例,平臺(tái)會(huì)進(jìn)行相關(guān)的記錄,同時(shí)存放在數(shù)據(jù)層的公用數(shù)據(jù)庫(kù)中,方便在決策分析時(shí)調(diào)用相似范例進(jìn)行求解。
篇8
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動(dòng)”作為目標(biāo)的工作[1-2],它包括由多個(gè)任務(wù)組成的高度重復(fù)執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來(lái)驗(yàn)證、指導(dǎo)及規(guī)范組織或個(gè)人的決策行動(dòng);BDA的執(zhí)行過(guò)程一般包括問(wèn)題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評(píng)測(cè)結(jié)果有效性及監(jiān)控等幾個(gè)階段。從以上BDA的定義及過(guò)程來(lái)看,BDA與情報(bào)學(xué)領(lǐng)域中的情報(bào)研究(也稱情報(bào)分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡(jiǎn)稱方法)上可以相互借鑒或補(bǔ)充。本文基于情報(bào)學(xué)的視角,關(guān)注哪些BDA方法可以為情報(bào)研究提供借鑒,并解決情報(bào)研究的相關(guān)問(wèn)題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報(bào)研究中的適用性。
1 大數(shù)據(jù)分析的方法分類
到目前為止,尚沒(méi)有公認(rèn)的BDA方法的分類體系,甚至對(duì)BDA包括哪些方法,也有不同的認(rèn)識(shí)。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。
1.1 相關(guān)研究
不同學(xué)者對(duì)BDA方法的看法各有差異,概括起來(lái),主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。
(1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對(duì)象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問(wèn)題、處理數(shù)據(jù)的方式等角度對(duì)BDA方法進(jìn)行分類。
Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對(duì)未來(lái)做出推論,可采取歷史數(shù)據(jù)及定量工具進(jìn)行“回顧性數(shù)據(jù)分析”;②若要進(jìn)行前瞻及預(yù)測(cè)分析,可采取歷史數(shù)據(jù)及仿真模型進(jìn)行“預(yù)測(cè)性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實(shí)時(shí)數(shù)據(jù)及定量工具進(jìn)行“規(guī)范性數(shù)據(jù)分析”。美國(guó)國(guó)家研究委員會(huì)在2013年公布的《海量數(shù)據(jù)分析前沿》研究報(bào)告中提出了七種基本統(tǒng)計(jì)數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(jì)(如一般統(tǒng)計(jì)及多維數(shù)分析等);②N體問(wèn)題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計(jì)算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。
針對(duì)非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時(shí)空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過(guò)對(duì)動(dòng)態(tài)數(shù)據(jù)挖掘出主體的預(yù)測(cè)性,如運(yùn)用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時(shí)間區(qū)段的信號(hào)、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運(yùn)用時(shí)間序列方法預(yù)測(cè)地點(diǎn)位置的變化;魏順平[8]以教育領(lǐng)域?yàn)槔崂砹嗣嫦驅(qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語(yǔ)分析、社會(huì)網(wǎng)絡(luò)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語(yǔ)義關(guān)系,并回答“誰(shuí)在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問(wèn)題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。
Mohanty等人[3]從數(shù)據(jù)獲?。―ata Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時(shí)處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見(jiàn)事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對(duì)數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進(jìn)行分析;⑥文本分析(Text Analytics),如觀點(diǎn)挖掘或社會(huì)網(wǎng)絡(luò)分析等;⑦時(shí)間序列分析(Time-Series Analysis),通過(guò)模式偵測(cè)及事件發(fā)生概率來(lái)處理時(shí)空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。
Chen等人[9]認(rèn)為,在商業(yè)智能分析發(fā)展的過(guò)程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動(dòng)數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉(cāng)儲(chǔ)、ETL、聯(lián)機(jī)分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時(shí)間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點(diǎn)挖掘、多語(yǔ)義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲(chóng)、日志分析等分析技術(shù),可應(yīng)用在云計(jì)算、社會(huì)網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計(jì)量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會(huì)影響力及擴(kuò)散模式等;⑤移動(dòng)分析,可應(yīng)用在移動(dòng)通訊服務(wù)、個(gè)性化分析、游戲營(yíng)銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對(duì)BDA方法進(jìn)行分類。
美國(guó)計(jì)算社區(qū)協(xié)會(huì)出版的《大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)》白皮書指出BDA是一個(gè)多階段任務(wù)循環(huán)執(zhí)行過(guò)程[4],從整體看,其分析的過(guò)程包括了五個(gè)階段,每一個(gè)階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時(shí)空相關(guān),需要及時(shí)分析技術(shù)處理數(shù)據(jù)并過(guò)濾無(wú)用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語(yǔ)義關(guān)系轉(zhuǎn)換為機(jī)器可讀取、自動(dòng)解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識(shí),涉及可擴(kuò)展的挖掘算法或知識(shí)發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時(shí)間序列分析等多種方法。
(3)面向信息技術(shù)視角的BDA方法分類。這類研究強(qiáng)調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。
孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進(jìn)一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過(guò)程,有助于用戶理解分析結(jié)果。覃雄派等人[12]認(rèn)為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴(kuò)展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動(dòng)”轉(zhuǎn)向“直接對(duì)數(shù)據(jù)進(jìn)行分析”。
2012~2013年在印度召開(kāi)了兩次BDA國(guó)際研討會(huì)[13-14],會(huì)上分別就BDA中的機(jī)器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問(wèn)題、可擴(kuò)展的機(jī)器學(xué)習(xí)算法(如隨機(jī)映射、隨機(jī)梯度下降等)、機(jī)器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測(cè)與跟蹤、地點(diǎn)推理、語(yǔ)義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對(duì)分析(如特征提取、Iterative Methods)等進(jìn)行了探討。2013年IEEE計(jì)算機(jī)協(xié)會(huì)在美國(guó)召開(kāi)大數(shù)據(jù)國(guó)際研討會(huì),BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向?qū)哟蔚腂DA方法框架
上述三種視角的BDA分類各有特點(diǎn),都有一定的道理。從面向數(shù)據(jù)的視角來(lái)看,BDA方法正從統(tǒng)計(jì)(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(cè)(Prediction)?;诹鞒痰腂DA分類則更能反映BDA過(guò)程的集成性(Integration),也就是說(shuō),在完成一項(xiàng)分析任務(wù)時(shí),需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強(qiáng)調(diào)使用新技術(shù)對(duì)傳統(tǒng)數(shù)據(jù)處理方法進(jìn)行改進(jìn)和創(chuàng)新,同時(shí)更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實(shí)例。
本文認(rèn)為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個(gè)面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測(cè)及集成五個(gè)層次,并初步歸納出17種BDA相關(guān)方法(見(jiàn)表1)。
2 BDA方法在情報(bào)研究中的適用性探討
如前所述,BDA與情報(bào)研究在本質(zhì)上有共同之處,BDA方法可為情報(bào)研究提供借鑒,因此,探討B(tài)DA方法對(duì)情報(bào)研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報(bào)研究的分析對(duì)象特征、方法的可移植性[15]等因素,對(duì)本文所列舉的17種面向?qū)哟蔚腂DA方法在情報(bào)研究中的適用性進(jìn)行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報(bào)研究,用來(lái)對(duì)情報(bào)研究的數(shù)據(jù)源(如科技文獻(xiàn)、網(wǎng)絡(luò)資源等)進(jìn)行處理,解決情報(bào)研究過(guò)程中的一個(gè)或幾個(gè)步驟中要解決的問(wèn)題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識(shí)發(fā)現(xiàn)、觀點(diǎn)挖掘、話題演化分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析、海量數(shù)據(jù)的基本統(tǒng)計(jì)方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報(bào)研究中已經(jīng)有多年的應(yīng)用歷史。
(1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟?jì)算機(jī)語(yǔ)言學(xué)及統(tǒng)計(jì)方法的發(fā)現(xiàn)技術(shù),用來(lái)揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫(kù)中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘?yàn)榛A(chǔ),用來(lái)揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報(bào)學(xué)領(lǐng)域的實(shí)踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動(dòng)化技術(shù)與服務(wù)方面,例如,館藏采購(gòu)決策、個(gè)性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報(bào)研究的價(jià)值在于彌補(bǔ)了情報(bào)學(xué)專門分析方法對(duì)科技文獻(xiàn)內(nèi)在知識(shí)挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無(wú)法揭示論文的研究?jī)?nèi)容這個(gè)問(wèn)題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來(lái)識(shí)別引用句,再通過(guò)基于C-value多詞術(shù)語(yǔ)識(shí)別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語(yǔ)義信息與文獻(xiàn)之間的語(yǔ)義關(guān)系。
(2)知識(shí)發(fā)現(xiàn)。情報(bào)研究中所說(shuō)的知識(shí)發(fā)現(xiàn),主要是指基于文獻(xiàn)的知識(shí)發(fā)現(xiàn),例如,張樹(shù)良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)”,包括:基于相關(guān)文獻(xiàn)、基于非相關(guān)文獻(xiàn)及基于全文獻(xiàn)三種條件下的知識(shí)發(fā)現(xiàn),完整揭示文獻(xiàn)的知識(shí)結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福[19]認(rèn)為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問(wèn)機(jī)制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識(shí)發(fā)現(xiàn)提供了新的研究潛力,包括知識(shí)發(fā)現(xiàn)的范圍被擴(kuò)展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語(yǔ)義關(guān)系等。簡(jiǎn)言之,知識(shí)發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識(shí)或規(guī)律,甚至可對(duì)未來(lái)進(jìn)行預(yù)測(cè)。
(3)觀點(diǎn)挖掘與話題演化分析。觀點(diǎn)挖掘與話題演化分析兩種方法實(shí)際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點(diǎn)挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點(diǎn)挖掘、比較語(yǔ)句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過(guò)對(duì)網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對(duì)某一社會(huì)事件的情緒、態(tài)度及觀點(diǎn),再通過(guò)關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤(rùn)[22]認(rèn)為微博情感分析的關(guān)鍵是觀點(diǎn)句識(shí)別,并根據(jù)文本特征的差異性,提出了基于新詞擴(kuò)充和特征選擇的觀點(diǎn)句識(shí)別方法,即先擴(kuò)充情感詞典來(lái)提高分詞準(zhǔn)確率,再結(jié)合微博特征進(jìn)行句子選取。話題演化分析方法是近年文本挖掘的研究熱點(diǎn),借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語(yǔ),表示為某一話題的集合,再引入時(shí)間信息模擬該話題隨著時(shí)間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點(diǎn)的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻(xiàn)中的話題(即主題詞),再計(jì)算話題的強(qiáng)度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢(shì)。
(4)多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析兩種方法也是情報(bào)研究常見(jiàn)的定量分析方法[25],前者研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴的統(tǒng)計(jì)規(guī)律,后者則是基于隨機(jī)過(guò)程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究動(dòng)態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個(gè)重要特點(diǎn)在于能基于歷史數(shù)據(jù)的變化,評(píng)價(jià)事物現(xiàn)狀或預(yù)測(cè)事物未來(lái)的發(fā)展。
(5)海量數(shù)據(jù)的基本統(tǒng)計(jì)分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計(jì)分析方法適用于情報(bào)研究的原因是,專家們普遍認(rèn)為,在現(xiàn)有硬件技術(shù)條件下要開(kāi)發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)的難度過(guò)高,且高性能計(jì)算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計(jì)算方法來(lái)幫助運(yùn)算[6],同時(shí)這些統(tǒng)計(jì)方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對(duì)情報(bào)研究來(lái)說(shuō),處理的數(shù)據(jù)量不及高性能計(jì)算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計(jì)分析方法。盡管如此,隨著情報(bào)研究處理的文本量增加,包括文獻(xiàn)計(jì)量或信息計(jì)量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計(jì)算方法,并進(jìn)行公式改進(jìn)。
(6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見(jiàn)的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨(dú)立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過(guò)線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機(jī)器學(xué)習(xí)的效率[27-28]。情報(bào)研究在處理文本語(yǔ)料時(shí),廣泛使用基于向量空間模型來(lái)表示文本,形成的高維特征集會(huì)對(duì)文本分類或機(jī)器學(xué)習(xí)的效果產(chǎn)生很大影響,通過(guò)特征選擇(如特征頻率、互信息等)進(jìn)行特征抽?。ㄈ鏟CA、LSI、NMF等),轉(zhuǎn)換成一個(gè)低維的特征集來(lái)提高訓(xùn)練效果,是非常必要的[29]。
(7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學(xué)數(shù)據(jù)集成問(wèn)題,白如江、冷伏海[30]認(rèn)為解決關(guān)鍵在于中間件構(gòu)建,例如,通過(guò)基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問(wèn)題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語(yǔ)法層次的整合,為了提供數(shù)據(jù)在語(yǔ)義層次的整合,可通過(guò)基于語(yǔ)義模型對(duì)XML的對(duì)象進(jìn)行分類,在對(duì)象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語(yǔ)義信息。此外,也可以通過(guò)基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對(duì)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實(shí)體與關(guān)系,再進(jìn)行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進(jìn)入數(shù)據(jù)分析之前的重要任務(wù),對(duì)情報(bào)研究來(lái)說(shuō),需要多種來(lái)源支持情報(bào)分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語(yǔ)種信息等,都需要通過(guò)異源信息字段的映射、拆分、濾重、加權(quán)等進(jìn)行融合分析[31]。
2.2 調(diào)整后移植的方法
調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過(guò)程有自身的特點(diǎn),若移植到情報(bào)研究時(shí),需要根據(jù)情報(bào)研究自身的特征進(jìn)行調(diào)整。數(shù)據(jù)可用處理及分析方法、時(shí)空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。
(1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來(lái)降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見(jiàn)的一致性、精確性、完整性、時(shí)效性及實(shí)體同一性等問(wèn)題。對(duì)情報(bào)研究來(lái)說(shuō),情報(bào)素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報(bào)工作的核心[33],其中,情報(bào)素材的質(zhì)量對(duì)后續(xù)的情報(bào)分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯(cuò)誤或不完整時(shí),提煉出來(lái)的情報(bào)勢(shì)必會(huì)存在缺陷或錯(cuò)誤。過(guò)去對(duì)情報(bào)研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問(wèn)題,有助于提高情報(bào)分析素材的可用性與正確性。
(2)時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點(diǎn),其中最常使用“周期”(Periodic Behavior)分析,例如天氣預(yù)報(bào)、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見(jiàn)的應(yīng)用實(shí)例[7]?,F(xiàn)有研究的多數(shù)做法是采取基于時(shí)間序列的方法進(jìn)行周期建模,但建模過(guò)程容易出現(xiàn)對(duì)象可能沒(méi)有周期、時(shí)間點(diǎn)分布不一定呈現(xiàn)周期性等問(wèn)題,為了解決這些問(wèn)題,王閱等人[34]提出基于ERP的周期檢測(cè)方法解決周期長(zhǎng)度定義問(wèn)題,孟志青等人[35]提出多粒度時(shí)間文本下的周期模式挖掘算法解決時(shí)態(tài)文本數(shù)據(jù)挖掘問(wèn)題。對(duì)情報(bào)研究來(lái)說(shuō),時(shí)間是文本中一個(gè)重要的屬性,如文獻(xiàn)發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時(shí)間維度進(jìn)行長(zhǎng)時(shí)段分析是多數(shù)研究的常見(jiàn)做法,但并沒(méi)有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報(bào)演化的周期模式。
2.3 不適用的方法
考慮學(xué)科領(lǐng)域差異,本文認(rèn)為 “翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專門研究方法不適合情報(bào)研究。
(1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進(jìn)領(lǐng)域知識(shí)的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點(diǎn)中的“可操作的決策”(Actionable Decision),同時(shí)能對(duì)人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過(guò)翻譯生物信息學(xué)分析,可以將分析方法與工具開(kāi)發(fā)從系統(tǒng)層面橫跨到分子、個(gè)人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測(cè)研究[36]。從分析方法的操作過(guò)程來(lái)說(shuō),考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報(bào)學(xué)的學(xué)科研究特色。
(2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評(píng)測(cè)學(xué)習(xí)者及其學(xué)習(xí)語(yǔ)境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境[8]。從UNESCO IITE機(jī)構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡(jiǎn)報(bào)可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開(kāi)展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報(bào)研究的常見(jiàn)方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語(yǔ)境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進(jìn)學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開(kāi)了學(xué)習(xí)語(yǔ)境,方法的內(nèi)涵和外延可能就會(huì)產(chǎn)生變化,因此,難以移植到情報(bào)研究。
2.4 需要繼續(xù)關(guān)注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個(gè)成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進(jìn)空間,它們與各種分析方法的集成缺乏公認(rèn)的標(biāo)準(zhǔn)和規(guī)范,同樣地,對(duì)于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒(méi)有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉(cāng)庫(kù)、ETL、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識(shí)管理等多種技術(shù)融合的一組系統(tǒng),通過(guò)BI系統(tǒng)管理組織內(nèi)部及個(gè)人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識(shí),涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒(méi)有標(biāo)準(zhǔn)化的體系架構(gòu)。
因此,本文還無(wú)法明確回答上述三種方法將如何應(yīng)用于情報(bào)研究、在應(yīng)用過(guò)程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報(bào)研究方法的關(guān)系如何等相關(guān)問(wèn)題,但可以肯定的是,這些方法對(duì)未來(lái)的情報(bào)研究具有借鑒價(jià)值,例如,一旦情報(bào)研究的處理對(duì)象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補(bǔ)充情報(bào)研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報(bào)機(jī)構(gòu)的知識(shí)庫(kù)或機(jī)構(gòu)典藏,找出組織的知識(shí)缺口等方面。
3 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代就是一個(gè)數(shù)據(jù)分析的時(shí)代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對(duì)情報(bào)研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報(bào)研究以及需要繼續(xù)關(guān)注等四個(gè)方面對(duì)這些方法在情報(bào)研究中的適用性進(jìn)行了分析,以期為情報(bào)研究借鑒或移植BDA相關(guān)方法提供參考,促進(jìn)情報(bào)研究的理論與實(shí)踐發(fā)展。
參考文獻(xiàn):
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù),2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴(yán)霄鳳,張德馨. 大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(1): 146-169.
[12]覃雄派,王會(huì)舉,杜小勇,等. 大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對(duì)科學(xué)計(jì)量學(xué)研究的方法論啟示[J]. 科學(xué)學(xué)研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內(nèi)容分析的高被引論文主題識(shí)別研究[J]. 中國(guó)圖書館學(xué)報(bào),2014,(1):39-49.
[18]張樹(shù)良,冷伏海. 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的應(yīng)用進(jìn)展研究[J]. 情報(bào)學(xué)報(bào),2006, 25(6): 700-712.
[19]李楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報(bào)工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬(wàn)利. 觀點(diǎn)挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué),2009:(1): 94-99.
[22]趙潔,溫潤(rùn). 基于新詞擴(kuò)充和特征選擇的微博觀點(diǎn)句識(shí)別方法[J]. 情報(bào)學(xué)報(bào),2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報(bào),2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻(xiàn)話題演化研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2012,(4): 61-67.
[25]查先進(jìn).信息分析[M].武漢:武漢大學(xué)出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數(shù)據(jù)特征降維研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,(8):2832-2835.
[29]陳濤,謝陽(yáng)群. 文本分類中的特征降維方法綜述[J]. 情報(bào)學(xué)報(bào),2005,24(6): 690-695.
[30]白如江,冷伏海. “大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J]. 情報(bào)理論與實(shí)踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報(bào)理論與實(shí)踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報(bào)研究質(zhì)量[J].圖書情報(bào)工作,2010,54(10):35-39.
[34]王閱,高學(xué)東,武森,等. 時(shí)間序列周期模式挖掘的周期檢測(cè)方法[J]. 計(jì)算機(jī)工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強(qiáng).多粒度時(shí)間文本數(shù)據(jù)的周期模式挖掘算法[J]. 計(jì)算機(jī)科學(xué),2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
篇9
1 交通事故預(yù)測(cè)思想
交通事故對(duì)人類造成的危害相對(duì)較大,對(duì)人類產(chǎn)生嚴(yán)重的威脅。從我國(guó)發(fā)展實(shí)踐中可知,交通事故在一定程度上制約我國(guó)經(jīng)濟(jì)的發(fā)展進(jìn)程,尤其對(duì)人類社會(huì)福利、醫(yī)療保險(xiǎn)等方面的影響較大。據(jù)不完全統(tǒng)計(jì),2015年全年間,我國(guó)交通事故約為10597358起,死亡人數(shù)約為68432人,財(cái)產(chǎn)損失高達(dá)10億元以上??梢?jiàn),交通事故威脅隱患相對(duì)較大。交通事故預(yù)測(cè)能夠根據(jù)已發(fā)生交通事故進(jìn)行統(tǒng)計(jì)、分析、處理,在遵循規(guī)律的基礎(chǔ)上,對(duì)未來(lái)可能發(fā)生的交通事故作出科學(xué)合理的預(yù)測(cè),該預(yù)測(cè)結(jié)果以科學(xué)邏輯推斷為基礎(chǔ)。就交通事故原因而言,道路環(huán)境、交通條件、車輛、駕駛員等都是影響因素。通過(guò)交通事故預(yù)測(cè),我國(guó)交通部門人員能夠?qū)煌ㄊ鹿首鞒隹茖W(xué)合理的判斷和制定有效的預(yù)防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預(yù)測(cè)方法
2.1 回歸分析預(yù)測(cè)法
回歸分析預(yù)測(cè)法在交通事故預(yù)測(cè)中的有效應(yīng)用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預(yù)測(cè)法,通過(guò)對(duì)自變量和因變量之間關(guān)系問(wèn)題的探討,對(duì)因變量趨勢(shì)加以預(yù)測(cè),其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時(shí)人口、常住人口、機(jī)動(dòng)車輛、自行車、道路長(zhǎng)度、道路面積、燈控路口、交通標(biāo)志、交通標(biāo)線、失控部位、交警人數(shù)。
其次,英國(guó)倫敦大學(xué)SemeedR.J教授對(duì)歐洲國(guó)家十余載的交通事故資料進(jìn)行研究,提出非線性回歸分析預(yù)測(cè)法。對(duì)此,他建立冪函數(shù)曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數(shù);N是機(jī)動(dòng)車保有量;P為人口數(shù)量。
回歸分析預(yù)測(cè)法能夠?qū)煌ㄊ鹿视绊懸蛩亻g的因果關(guān)系加以反應(yīng),以達(dá)到預(yù)測(cè)結(jié)果的目的,但對(duì)變化趨勢(shì)的反應(yīng)可能較為遲鈍。該預(yù)測(cè)方法適用于樣本量較大、數(shù)據(jù)波動(dòng)小和極具規(guī)律性的預(yù)測(cè)實(shí)踐中。
2.2 時(shí)間序列預(yù)測(cè)法
時(shí)間序列預(yù)測(cè)法主要有兩種類型,分別為移動(dòng)平均預(yù)測(cè)法和指數(shù)平滑預(yù)測(cè)法。首先,移動(dòng)平均預(yù)測(cè)法是比較簡(jiǎn)單的平滑預(yù)測(cè)技術(shù),通過(guò)計(jì)算項(xiàng)數(shù)時(shí)序平均值,對(duì)長(zhǎng)期發(fā)展趨勢(shì)變化做出科學(xué)合理的預(yù)測(cè)。內(nèi)蒙古科技大學(xué)韋麗琴、徐勇勇利用時(shí)間序列ARIMA模型做出科學(xué)合理的預(yù)測(cè)分析,對(duì)交通事故加以預(yù)測(cè)。其次,指數(shù)平滑預(yù)測(cè)法的通式為:
Ft+1=αxt+(1-α)Ft
時(shí)間序列預(yù)測(cè)法屬于定量預(yù)測(cè)方法,擬合效果良好,但在短期預(yù)測(cè)中,受諸多因素干擾影響較大,使預(yù)測(cè)結(jié)果具有不確定性。該方法適用于國(guó)內(nèi)縣區(qū)等區(qū)域范圍較小的預(yù)測(cè)實(shí)踐中。
2.3 灰色馬爾科夫鏈預(yù)測(cè)法
道路交通系統(tǒng)屬于動(dòng)態(tài)時(shí)變系統(tǒng),但影響交通安全的因素多且復(fù)雜。在灰色馬爾科夫鏈預(yù)測(cè)法的指導(dǎo)下,相關(guān)人員能夠通過(guò)灰色預(yù)測(cè)模型,做出短期預(yù)測(cè),以縮小預(yù)測(cè)區(qū)間,提高預(yù)測(cè)效率。云南交通職業(yè)技術(shù)學(xué)院王剛對(duì)灰色馬爾科夫鏈預(yù)測(cè)法而建立模型,對(duì)交通事故進(jìn)行預(yù)測(cè),根據(jù)實(shí)踐可知,基于該模型的預(yù)測(cè)精確度十分高,取得良好的預(yù)測(cè)成效。
灰色預(yù)測(cè)以短期預(yù)測(cè)為主,馬爾科夫鏈預(yù)測(cè)以長(zhǎng)期預(yù)測(cè)為主,通過(guò)二者結(jié)合,可提高預(yù)測(cè)精度,但如若數(shù)據(jù)變化大,則灰色模型的吻合度和精度下降。借助該預(yù)測(cè)方法,能夠?qū)顟B(tài)下的轉(zhuǎn)移規(guī)律加以預(yù)測(cè),并揭示交通事故時(shí)序變化總趨勢(shì)。
2.4 貝葉斯預(yù)測(cè)法
貝葉斯預(yù)測(cè)法主要相對(duì)于交通事故中的車速問(wèn)題而言。在交通事故中,車速是重要影響因素,如若車輛速度過(guò)快,則駕駛員反應(yīng)的時(shí)間較少,其應(yīng)急策略不足,造成重大交通安全隱患。貝葉斯預(yù)測(cè)法能夠?qū)ξ磥?lái)交通事故發(fā)生的可能性進(jìn)行預(yù)測(cè)。該預(yù)測(cè)方法應(yīng)用中,必須建立在交通事故和車速有關(guān)聯(lián)的基礎(chǔ)之上,有助于交通部門人員更好開(kāi)展數(shù)據(jù)統(tǒng)計(jì)和交通流進(jìn)行觀測(cè)。
2.5 灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法
就灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法而言,哈爾濱工業(yè)大學(xué)交通研究所和中國(guó)城市規(guī)劃設(shè)計(jì)研究院的裴玉龍與張宇提出該方法,旨在通過(guò)交通事故影響因素分析,對(duì)事故進(jìn)行進(jìn)一步解析,并建立合理的模型理論和確定預(yù)測(cè)指標(biāo),對(duì)未來(lái)交通事故發(fā)展趨勢(shì)加以預(yù)測(cè)。該預(yù)測(cè)方法的適應(yīng)性較強(qiáng),在我國(guó)交通事故預(yù)測(cè)工作實(shí)踐中有著較為有效的運(yùn)用,可解決傳統(tǒng)預(yù)測(cè)方法難以解決的問(wèn)題,建立在BP網(wǎng)絡(luò)基礎(chǔ)之上,并利用計(jì)算機(jī)開(kāi)展輔計(jì)算活動(dòng)。
2.6 多層遞階預(yù)測(cè)方法
多層遞階預(yù)測(cè)方法能夠規(guī)避傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)方法的缺陷,以現(xiàn)代控制理論“系統(tǒng)辨識(shí)”為重要基礎(chǔ),對(duì)對(duì)象的未來(lái)狀態(tài)做科學(xué)的預(yù)測(cè)。動(dòng)態(tài)系統(tǒng)數(shù)學(xué)模型為:y(k)=。在交通事故預(yù)測(cè)中,多層遞階預(yù)測(cè)方法是大數(shù)據(jù)時(shí)代背景下的重要處理方式,有利于增強(qiáng)預(yù)測(cè)效果。
3 結(jié)論
交通部門對(duì)交通事故進(jìn)行合理的預(yù)測(cè),有利于提高道路交通系統(tǒng)的安全系數(shù)。所以,相關(guān)人員合理選擇交通事故預(yù)測(cè)方法具有必要性,為規(guī)避交通事故而做出科學(xué)合理的決策。目前,使用較多的交通事故預(yù)測(cè)方法主要有:回歸分析預(yù)測(cè)法、時(shí)間序列預(yù)測(cè)法、灰色馬爾科夫鏈預(yù)測(cè)法、貝葉斯預(yù)測(cè)法、灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法等,因其各具優(yōu)缺點(diǎn)和適用條件,因而要求相關(guān)人員必須對(duì)系列問(wèn)題進(jìn)行深入探究,確保公路交通事故預(yù)測(cè)的有效性。
參考文獻(xiàn)
[1]李景文,高桂清.交通事故預(yù)測(cè)分析[J].中國(guó)安全科學(xué)學(xué)報(bào),2015,6(01):20-23.
[2]劉志強(qiáng).道路交通事故預(yù)測(cè)方法比較研究[J].交通與計(jì)算機(jī),2013,19(05):7-10.
篇10
[中圖分類號(hào)]F239.1[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673 - 0194(2012)11- 0026- 02
1背景
網(wǎng)間結(jié)算是各運(yùn)營(yíng)商之間永恒的話題。自各運(yùn)營(yíng)商開(kāi)展全業(yè)務(wù)經(jīng)營(yíng)以來(lái),網(wǎng)間結(jié)算的協(xié)議和收入支出結(jié)構(gòu)都發(fā)生了很大的變化,C網(wǎng)的雙向結(jié)算和規(guī)模的發(fā)展、增值短信業(yè)務(wù)的發(fā)展、固網(wǎng)的逐漸萎縮以及國(guó)家對(duì)TD業(yè)務(wù)結(jié)算上的扶持,網(wǎng)間結(jié)算支出的變化,均值得分析研究。
網(wǎng)間結(jié)算的收入與本網(wǎng)的規(guī)模間接相關(guān),網(wǎng)間結(jié)算的支出與本網(wǎng)的用戶數(shù)量、話務(wù)量以及商品、營(yíng)銷政策直接相關(guān),是公司經(jīng)營(yíng)成本的一部分,也是關(guān)注的重點(diǎn)。
網(wǎng)間結(jié)算的支出與很多環(huán)節(jié)相關(guān),如在設(shè)計(jì)各類套餐、營(yíng)銷政策、增值業(yè)務(wù)包資費(fèi)政策等環(huán)節(jié)時(shí)是否考慮網(wǎng)間結(jié)算的成本、規(guī)避風(fēng)險(xiǎn)保證公司經(jīng)營(yíng)目標(biāo)的實(shí)現(xiàn);在公司經(jīng)營(yíng)分析中是否持續(xù)關(guān)注網(wǎng)間結(jié)算的支出,防范各種異常、突發(fā)的網(wǎng)間結(jié)算損失等。
2分析思路和目標(biāo)
網(wǎng)間結(jié)算支出按業(yè)務(wù)可分為語(yǔ)音、短信兩大類,按通信區(qū)域可分為本地網(wǎng)和長(zhǎng)途業(yè)務(wù)兩大類。語(yǔ)音又可分為固網(wǎng)和移動(dòng)兩類,兩者之下還可繼續(xù)分為本地業(yè)務(wù)和長(zhǎng)途業(yè)務(wù)(省內(nèi)、省際、國(guó)際)。本地業(yè)務(wù)包括普通語(yǔ)音、短號(hào)、智能網(wǎng)、卡類業(yè)務(wù)等,本地普通語(yǔ)音業(yè)務(wù)還要細(xì)分為固話、GSM/WGSM/CDMA、TD三個(gè)小類。短信可大致分為點(diǎn)對(duì)點(diǎn)短信、彩信、業(yè)務(wù)短信等。每一類還要分為收入和支出,劃分如此多的小類是結(jié)算規(guī)則的要求和系統(tǒng)結(jié)算出賬的需要。
我們可以從一個(gè)分公司結(jié)算支出的時(shí)間和業(yè)務(wù)兩個(gè)維度進(jìn)行分析調(diào)查。在分析分公司結(jié)算支出的月度變化趨勢(shì)時(shí),也分析結(jié)算支出的業(yè)務(wù)構(gòu)成。計(jì)算出單個(gè)分公司每個(gè)用戶的平均語(yǔ)音、短信結(jié)算支出,可與其他分公司進(jìn)行比較,還可進(jìn)一步細(xì)化到對(duì)某一類套餐進(jìn)行分析。對(duì)支出占比較大的結(jié)算業(yè)務(wù)要分析其支出的明細(xì)清單,查清是哪些號(hào)碼造成的結(jié)算支出,查清這些號(hào)碼的來(lái)源、商品屬性、受理渠道并檢查結(jié)算系統(tǒng)的結(jié)算規(guī)則是否正確配置。
流程如下:
(1)檢查結(jié)算報(bào)表。
(2)分析結(jié)算支出的月度變化。
(3)計(jì)算每個(gè)用戶的平均語(yǔ)音、短信結(jié)算支出。
(4)查找高額結(jié)算用戶。
(5)檢查用戶套餐資費(fèi)、受理渠道信息。
(6)檢查營(yíng)銷或業(yè)務(wù)短信資費(fèi)政策的合理性。
根據(jù)以上思路進(jìn)行調(diào)查分析,我們可以確立重點(diǎn)和發(fā)現(xiàn)疑點(diǎn),做到有的放矢,進(jìn)行深入分析。重點(diǎn)查找是哪些業(yè)務(wù)的結(jié)算支出較高,計(jì)算該業(yè)務(wù)或套餐在結(jié)算收支相抵后帶來(lái)的價(jià)值,找出評(píng)價(jià)的標(biāo)準(zhǔn),提出管理建議。
3分析方法
結(jié)算系統(tǒng)每個(gè)月都會(huì)出網(wǎng)間結(jié)算報(bào)表,包括結(jié)算的收入和指標(biāo)。我們可以先從這些數(shù)據(jù)的分析開(kāi)始。
3.1 分析網(wǎng)間結(jié)算的變化趨勢(shì)
首先分析網(wǎng)間結(jié)算總的變化趨勢(shì),再查看指標(biāo)明細(xì)項(xiàng)的變化趨勢(shì),找出結(jié)算支出變化較大的分公司。
3.2 查找平均結(jié)算金額高出平均水平的營(yíng)銷套餐
我們可以從指標(biāo)中計(jì)算出每個(gè)用戶的平均結(jié)算支出,公式如下:
(1)固話語(yǔ)音平均結(jié)算支出=固網(wǎng)語(yǔ)音(本地、省內(nèi)、省際)網(wǎng)間結(jié)算支出/當(dāng)月過(guò)網(wǎng)固網(wǎng)用戶數(shù)。
(2)固話短信平均結(jié)算支出=短信結(jié)算支出/當(dāng)月過(guò)網(wǎng)固網(wǎng)用戶數(shù)。移動(dòng)用戶的平均結(jié)算支出計(jì)算與固話類似。
(3)再調(diào)查一些營(yíng)銷方案,計(jì)算其扣除補(bǔ)貼、結(jié)算支出以及傭金后的收入,檢查是否可能有結(jié)算風(fēng)險(xiǎn)。
3.3 檢查業(yè)務(wù)短信的結(jié)算支出
我們分析短信結(jié)算支出的構(gòu)成要分析構(gòu)成是否包含了業(yè)務(wù)短信的結(jié)算支出。
先分析總體情況,再進(jìn)一步統(tǒng)計(jì)檢查結(jié)算清單,找出結(jié)算支出金額、條數(shù)較多的號(hào)碼,可到系統(tǒng)進(jìn)一步查看這些號(hào)碼。
3.4 預(yù)估以后一段時(shí)間內(nèi)的網(wǎng)間結(jié)算支出
經(jīng)過(guò)統(tǒng)計(jì)分析發(fā)現(xiàn),單個(gè)過(guò)網(wǎng)用戶的平均結(jié)算支出是比較穩(wěn)定的。而業(yè)務(wù)短信基本是采取預(yù)付費(fèi)的形式,因此可以通過(guò)業(yè)務(wù)受理情況、分析其他網(wǎng)占比(單個(gè)分公司基本穩(wěn)定)來(lái)估算它一段時(shí)間內(nèi)的網(wǎng)間結(jié)算支出。分公司一段時(shí)間的網(wǎng)間結(jié)算支出的模型如下:
分公司一段時(shí)間的網(wǎng)間結(jié)算支出≈固話語(yǔ)音平均結(jié)算支出×平均過(guò)網(wǎng)用戶數(shù)×賬期數(shù)+移動(dòng)語(yǔ)音短信平均結(jié)算支出×平均過(guò)網(wǎng)用戶數(shù)×賬期數(shù)+短信(不含業(yè)務(wù)短信)平均結(jié)算支出×平均過(guò)網(wǎng)用戶數(shù)×賬期數(shù)+預(yù)期消費(fèi)的業(yè)務(wù)短信業(yè)務(wù)受理量/資費(fèi)×他網(wǎng)占比×結(jié)算資費(fèi)。該公式的數(shù)值都可以從報(bào)表和平臺(tái)統(tǒng)計(jì)得到,有一定指導(dǎo)意義。通過(guò)這個(gè)公式我們可以預(yù)估一個(gè)分公司一段時(shí)間的網(wǎng)間結(jié)算支出。
4分析結(jié)論和建議
分析發(fā)現(xiàn),要加強(qiáng)對(duì)結(jié)算支出數(shù)據(jù)的分析、監(jiān)控,應(yīng)對(duì)結(jié)算的支出開(kāi)展預(yù)估,要加強(qiáng)對(duì)業(yè)務(wù)短信的管理,維護(hù)市場(chǎng)秩序,結(jié)算支出的監(jiān)控要實(shí)現(xiàn)自動(dòng)化、智能化。
篇11
[中圖分類號(hào)]F270 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2017)02-00-01
0 引 言
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們?cè)絹?lái)越習(xí)慣于網(wǎng)絡(luò)購(gòu)物。在網(wǎng)上購(gòu)物或刷微博時(shí),常常會(huì)看到“猜你喜歡”“可能感興趣的商品”等廣告欄目。而這些內(nèi)容都是大數(shù)據(jù)產(chǎn)業(yè)的成果,是面向大數(shù)據(jù)視野得到市場(chǎng)分析的結(jié)果。掌握這種市場(chǎng)分析方法,能幫助企業(yè)更好地了解消費(fèi)者的需求,進(jìn)而更好地開(kāi)展?fàn)I銷活動(dòng)。
1 大數(shù)據(jù)視野下市場(chǎng)分析的問(wèn)題
在互聯(lián)網(wǎng)得到普及應(yīng)用的情況下,大數(shù)據(jù)時(shí)代已經(jīng)正式到來(lái)。目前,互聯(lián)網(wǎng)上的數(shù)據(jù)每年都會(huì)增長(zhǎng)50%。而隨著運(yùn)動(dòng)、濕度和溫度等各類傳感器的出現(xiàn),企業(yè)接觸到的數(shù)據(jù)信息也越來(lái)越多,而這些數(shù)據(jù)在給企業(yè)帶來(lái)挑戰(zhàn)的同時(shí),也為企業(yè)提供了新的市場(chǎng)增長(zhǎng)空間。加強(qiáng)數(shù)據(jù)挖掘和分析,能幫助企業(yè)精準(zhǔn)地找到用戶,從而通過(guò)降低營(yíng)銷成本、提高銷售率實(shí)現(xiàn)利益最大化。因此,企業(yè)應(yīng)面向大數(shù)據(jù)進(jìn)行市場(chǎng)分析研究,以便通過(guò)統(tǒng)計(jì)和分析超大量的樣本數(shù)據(jù),獲得更接近市場(chǎng)真實(shí)狀態(tài)的市場(chǎng)研究成果。
2 大數(shù)據(jù)視野下的市場(chǎng)分析方法
2.1 基于大數(shù)據(jù)的市場(chǎng)調(diào)研方法
在過(guò)去較長(zhǎng)的時(shí)間里,市場(chǎng)分析是以實(shí)地調(diào)查為前提,或是通過(guò)問(wèn)卷調(diào)查和提供抽樣技術(shù),其目的均是為了獲得消費(fèi)者的答案。進(jìn)入大數(shù)據(jù)時(shí)代后,企業(yè)開(kāi)始通過(guò)網(wǎng)絡(luò)調(diào)研進(jìn)行市場(chǎng)調(diào)查。這種方法,能夠方便、快捷且經(jīng)濟(jì)地完成市場(chǎng)調(diào)查。具體來(lái)講,就是企業(yè)通過(guò)門戶網(wǎng)站完成市場(chǎng)調(diào)研模塊的建立,然后將新產(chǎn)品郵寄給消費(fèi)者,并要求消費(fèi)者在試用后進(jìn)行網(wǎng)上調(diào)查問(wèn)卷的填寫,這樣就能夠投入較少的人力和物力來(lái)完成市場(chǎng)調(diào)研。由于這種市場(chǎng)分析方法具有一定的互動(dòng)性,能夠在概念階段利用虛擬仿真技術(shù)完成產(chǎn)品測(cè)試,從而使消費(fèi)者參與到產(chǎn)品的開(kāi)發(fā),進(jìn)而使市場(chǎng)需求得到更好的滿足。
2.2 基于大數(shù)據(jù)的市場(chǎng)信息挖掘
面向大數(shù)據(jù)視野研究市場(chǎng)分析的問(wèn)題,企業(yè)可以發(fā)現(xiàn)有效的市場(chǎng)分析需要大量的數(shù)據(jù)信息提供支撐。所以,企業(yè)還要使用基于大數(shù)據(jù)的市場(chǎng)信息挖掘技術(shù),以便對(duì)市場(chǎng)需求進(jìn)行更好的分析。首先,在智能手機(jī)逐步得到普及應(yīng)用的情況下,企業(yè)還應(yīng)在移動(dòng)終端開(kāi)展市場(chǎng)研究,借助移動(dòng)APP完成消費(fèi)信息的采集。企業(yè)對(duì)這些數(shù)據(jù)進(jìn)行深入分析,能夠完成產(chǎn)品回購(gòu)率、產(chǎn)品促銷獎(jiǎng)勵(lì)評(píng)估和購(gòu)買時(shí)點(diǎn)等內(nèi)容的分析。其次,在零售終端,POS機(jī)得到較好的建設(shè)和應(yīng)用下,企業(yè)可以通過(guò)掃描商品條形碼完成購(gòu)買地點(diǎn)、名稱和零售價(jià)等信息的采集,進(jìn)而使其更好地掌握商業(yè)渠道的動(dòng)態(tài)信息。此外,消費(fèi)者往往具有從眾性,企業(yè)加強(qiáng)對(duì)社交平臺(tái)的信息挖掘能更好的掌握消費(fèi)潮流。比如,利用微博評(píng)論可以完成消費(fèi)者對(duì)某種產(chǎn)品偏好的了解,從而完成消費(fèi)者真實(shí)消費(fèi)心理及態(tài)度的分析,進(jìn)而更好地掌握市場(chǎng)信息。
2.3 多學(xué)科分析方法的引入
以往的市場(chǎng)分析通常需要采取社會(huì)學(xué)調(diào)查方法完成資料搜集,再利用數(shù)據(jù)分析軟件完成數(shù)據(jù)分析,并獲得描述性或預(yù)測(cè)性的分析報(bào)告。在大數(shù)據(jù)時(shí)代,由于要完成海量數(shù)據(jù)的分析,因此,可以引入相對(duì)論、整體論和跨文化比較研究等多個(gè)學(xué)科的分析方法,以滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的需要。就目前來(lái)看,大數(shù)據(jù)來(lái)自各種移動(dòng)終端和網(wǎng)絡(luò),其是能反映消費(fèi)者行動(dòng)過(guò)程和軌跡的數(shù)據(jù)記錄,采用傳統(tǒng)的市場(chǎng)分析方法難以對(duì)這種過(guò)程性數(shù)據(jù)進(jìn)行分析,而引入以分析過(guò)程見(jiàn)長(zhǎng)的人類學(xué)的分析方法,則能對(duì)市場(chǎng)消費(fèi)者的行動(dòng)過(guò)程進(jìn)行描述,從而使消費(fèi)者的行動(dòng)趨向得到揭示。
2.4 定量與定性分析方法的結(jié)合
采取定性或定量這兩種分析方法中的一種,可以完成片段式或截面式數(shù)據(jù)內(nèi)容的分析。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)變得更加復(fù)雜,因此可以使用定量和定性相結(jié)合的分析方法進(jìn)行市場(chǎng)分析。一方面,企業(yè)通過(guò)網(wǎng)絡(luò)調(diào)研完成大量數(shù)據(jù)信息的搜集,從而采取定量分析法進(jìn)行市場(chǎng)分析研究。這種方法,能夠使市場(chǎng)研究人員成為“隱形人”,從而更加客觀地觀察消費(fèi)者,并通過(guò)對(duì)超大樣本量進(jìn)行統(tǒng)計(jì)分析,完成市場(chǎng)狀態(tài)的分析。另一方面,針對(duì)文本、視頻和圖形等非量化數(shù)據(jù),可以通過(guò)智能化檢索和分析來(lái)完成定性分析,以便在保護(hù)消費(fèi)者隱私的基礎(chǔ)上,更好地分析市場(chǎng)需求。
2.5 數(shù)據(jù)復(fù)雜屬性的還原
在傳統(tǒng)的市場(chǎng)分析工作中,可以將數(shù)據(jù)看成是一些片段而進(jìn)行分析。而這樣的分析,實(shí)際上是脫離具體情境和社會(huì)關(guān)系的分析過(guò)程,雖然可以根據(jù)自身經(jīng)驗(yàn)和想象來(lái)進(jìn)行情境原,但得到的研究結(jié)果卻不夠客觀和科學(xué)。在大數(shù)據(jù)背景下,企業(yè)可以使用能夠還原數(shù)據(jù)復(fù)雜屬性的市場(chǎng)分析方法,以便更好地完成、嵌入某些社會(huì)關(guān)系的消費(fèi)者的購(gòu)買行動(dòng)和軌跡的分析,進(jìn)而獲得更加有效及真實(shí)的分析結(jié)果。因此,使用的市場(chǎng)分析方法應(yīng)更關(guān)注數(shù)據(jù)的社會(huì)背景,從而更好地完成大數(shù)據(jù)的整合與分析。
3 結(jié) 語(yǔ)
在大數(shù)據(jù)時(shí)代,企業(yè)要選擇適當(dāng)?shù)氖袌?chǎng)分析方法,以便使自身的數(shù)據(jù)處理能力得到提高,從而通過(guò)獲取的高質(zhì)量的數(shù)據(jù)信息來(lái)提高自身競(jìng)爭(zhēng)力,進(jìn)而更好地適應(yīng)社會(huì)發(fā)展的要求。因此,希望本文對(duì)大數(shù)據(jù)視野下的市場(chǎng)分析方法展開(kāi)的研究,可以為相關(guān)工作的開(kāi)展帶來(lái)啟示。
主要參考文獻(xiàn)
篇12
數(shù)據(jù)缺失的程度、機(jī)制均影響處理方法的選擇。方法不適當(dāng)也會(huì)帶來(lái)有偏的參數(shù)估計(jì)M1、方差估計(jì)與統(tǒng)計(jì)檢驗(yàn),甚至影響數(shù)據(jù)分析效用。
(一)數(shù)據(jù)缺失的程度
借助某一變量上數(shù)據(jù)缺失的比率X描述數(shù)據(jù)缺失的程度。缺失比率X如何應(yīng)用方面,當(dāng)X<10%時(shí)應(yīng)當(dāng)保留這些賊并對(duì)其哳搬的艦曾建議,當(dāng)X>15%時(shí)可以考慮刪除采用刪除法;MRaymond與Roberts則認(rèn)為X>40%時(shí)才考慮刪除這些數(shù)據(jù)。
(二)缺失機(jī)制
缺失數(shù)據(jù)與諸多變量等相關(guān),處理方法的性質(zhì)依賴這些相依關(guān)系的特征。為論述方便,記全部變量Y觀測(cè)值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨(dú)立無(wú)關(guān),則缺失數(shù)據(jù)為完全隨機(jī)缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時(shí)缺失值是總體的一個(gè)簡(jiǎn)單隨機(jī)抽樣。如果缺失值僅與Yobs相關(guān)聯(lián)、與Ymis相互獨(dú)立,則是隨機(jī)缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關(guān)系,則稱非隨機(jī)缺失(NMAR,notmissingatrandom),是不可忽略的。
二、單一借補(bǔ)
單一借補(bǔ)用一個(gè)借補(bǔ)值替代全部缺失值,后用完全數(shù)據(jù)方法分析數(shù)據(jù)。單一借補(bǔ)是缺失數(shù)據(jù)處理中最通用方法之一,有多種方法。
(一)推理借補(bǔ)與最近鄰借補(bǔ)
根據(jù)已有信息推斷缺失數(shù)值,該方法簡(jiǎn)單易行,可提供準(zhǔn)確借補(bǔ)值,或者近似準(zhǔn)確借補(bǔ)值,同等情況下可優(yōu)先進(jìn)行推理借補(bǔ)。例,信息收集時(shí)已提供有姐弟信息的某被試“獨(dú)生子女”一項(xiàng)空著,可推斷為“否”。最近鄰借補(bǔ)選用與缺失數(shù)據(jù)提供者相類似的被試數(shù)據(jù)替代該缺失值。按照匹配變量找到一個(gè)以缺失數(shù)據(jù)提供者類似的被試時(shí),可還用例如歐式距離等來(lái)度量類似程度。
(二)均值借法
均值借補(bǔ)用已得數(shù)據(jù)的均值替代全部缺失值。借補(bǔ)值易均值形成尖峰,嚴(yán)重扭曲數(shù)據(jù)分布。當(dāng)數(shù) 據(jù)缺失非MACR時(shí),將低估統(tǒng)計(jì)量方差,導(dǎo)致參數(shù)估計(jì)偏差,且不適用需方差的復(fù)雜分析。
(三)回歸借補(bǔ)
回歸借補(bǔ)可分為線性回歸借補(bǔ),非參數(shù)回歸借補(bǔ)等。本文主要關(guān)注線性回歸借補(bǔ),用Yk關(guān)于數(shù)據(jù)完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時(shí)有一次或多次迭代之分。多次迭代中,預(yù)測(cè)變量以逐步進(jìn)人模型,獲得預(yù)測(cè)力最佳、最精簡(jiǎn)的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數(shù)變化不顯著。是類別變量時(shí),則考慮進(jìn)行變換,進(jìn)行線性回歸。同時(shí),我們還應(yīng)注意到利用嚴(yán)格的回歸方程進(jìn)行預(yù)測(cè),易人為增大變量之間的關(guān)系。多數(shù)情況下,教育學(xué)、心理學(xué)討論的變量大多都不是相互獨(dú)立的。選擇該方法時(shí),須考慮當(dāng)預(yù)測(cè)變量與變量Y是否存在高度的相關(guān)關(guān)系。其構(gòu)造借補(bǔ)值的邏輯清晰,相對(duì)客觀。該方法能得到合乎邏輯的結(jié)果,尤其滿足正態(tài)分布時(shí)。數(shù)據(jù)模擬實(shí)驗(yàn)表明,方法加精確。
三、多重借補(bǔ)
多重借補(bǔ)(multipleimputation,MI)基于缺失值的預(yù)測(cè)分布或統(tǒng)計(jì)模型的方法:提供多個(gè)借補(bǔ)值依次替代各個(gè)缺失值、構(gòu)造個(gè)“完全數(shù)據(jù)”,121,191211后運(yùn)用完全數(shù)據(jù)統(tǒng)計(jì)方法分別分析多個(gè)數(shù)據(jù)集;分別得到數(shù)個(gè)分析結(jié)果,擬合這多個(gè)結(jié)果,獲得對(duì)缺失值的估計(jì)等,甚至是置信區(qū)間、P值。MI具備例如連續(xù)性的優(yōu)良統(tǒng)計(jì)性質(zhì)。
(一)回歸預(yù)測(cè)法與傾向得分法
回歸借補(bǔ)基于已有數(shù)據(jù)建立回歸模型、嵌入借補(bǔ)值。先確定觀察協(xié)變量,傾向得分法賦予一個(gè)條件概率。即對(duì)各Y產(chǎn)生一個(gè)觀測(cè)值缺失概率,并以傾向得分表示。依據(jù)傾向得分對(duì)數(shù)據(jù)分組,組內(nèi)進(jìn)行近似貝葉斯Bootstrap(ABB)借補(bǔ)。
(二)似然的方法
1.極大似然估計(jì)
從理論上來(lái)看,極大似然法(MaximumLikelihood,ML)至今仍是參數(shù)點(diǎn)估計(jì)中的重要方法。既定模型下缺失值的諸多估計(jì)均可基于似然函數(shù)進(jìn)行。ML利用總體數(shù)量特征的分布函數(shù)等,建立未知參數(shù)的估計(jì)量。將Y作為未知變量0,構(gòu)造關(guān)于e的似然函數(shù),后求的參數(shù)的極大似然估計(jì)量,甚至在參數(shù)空間內(nèi)的置信區(qū)間,或者置信區(qū)域。
參數(shù)極大似然估計(jì)量(MLE)具有不變性,推廣至多元變量時(shí)該優(yōu)良性質(zhì)亦成立。這恰能滿足實(shí)際研究需要。基于其漸進(jìn)最優(yōu)性質(zhì)等,ML成為參數(shù)估計(jì)的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。
2.期望極大化算法
期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來(lái)計(jì)算基于不完全數(shù)據(jù)的MLE15。當(dāng)由于觀測(cè)過(guò)程局限帶來(lái)數(shù)據(jù)部分缺失時(shí),或似然估計(jì)因似然函數(shù)不是解析函數(shù)而無(wú)效時(shí)可選用該方法。EM是一種迭代算法,每次迭代似然函數(shù)值都將有所增加,進(jìn)而保證參數(shù)估計(jì)值收斂到一個(gè)局部極大值。此外,EM可自動(dòng)實(shí)現(xiàn)參數(shù)約束?;谲浖?shù)據(jù)模擬表明X<30%時(shí)EM算法可得到比較好的結(jié)果。
3.MCMC方法
當(dāng)缺失值分散在多個(gè)變量時(shí),回歸法基于對(duì)回歸系數(shù)的估計(jì)獲得借補(bǔ)值。復(fù)雜缺失模型中,回歸系數(shù)的估算又依賴于借補(bǔ)值。這里似乎存在某種循環(huán)論證痕跡。此時(shí),可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進(jìn)行蒙特卡洛積分,可基于無(wú)后效性隨機(jī)過(guò)程探討數(shù)量關(guān)系、預(yù)測(cè)變量,還可有包括0出1?抽樣等多種具體算法?;诙嘣闃覯CMC有諸多優(yōu)點(diǎn),足夠長(zhǎng)的時(shí)間使得雅過(guò)程驗(yàn)時(shí),MCMC可得卿常麵的結(jié)果。171MCMC是與具體的模型結(jié)合的,自身有不少擴(kuò)展方法,且不同MCMC方法對(duì)缺失數(shù)據(jù)的參數(shù)估計(jì)之間存在差異。不過(guò),X<30%時(shí)MCMC方法得到結(jié)果與完全數(shù)據(jù)時(shí)擬和較好。這些研究支持MCMC是處理缺失數(shù)據(jù)的有效方法,軟件包SPSS17.0等均收人該方法。
四、不處理
借補(bǔ)值是缺失數(shù)據(jù)的主觀估計(jì)值。引人的主觀值可能改變?cè)畔⑾到y(tǒng),甚至帶進(jìn)新噪音、導(dǎo)致分析錯(cuò)誤。不處理確保了原有信息不變,并進(jìn)行分析,其主要包含貝葉斯網(wǎng)與人工神經(jīng)網(wǎng)絡(luò)。不過(guò),后者的具體應(yīng)用仍有限、待進(jìn)一步探索與實(shí)證。研究開(kāi)始關(guān)注神經(jīng)網(wǎng)絡(luò)在心理學(xué)中的具體應(yīng)用。
(一)貝葉斯網(wǎng)
貝葉斯網(wǎng)絡(luò)(BayesianNetworks)是一個(gè)有向無(wú)圈圖,W能描述不確定性因果關(guān)聯(lián)的模型。該有向無(wú)圈圖帶有概率注解,能夠表示隨機(jī)變量的因果關(guān)系與概率關(guān)系,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠表明如何從局部的概率分布獲得完全的聯(lián)合概率分布。分析缺失數(shù)據(jù)時(shí),貝葉斯網(wǎng)將結(jié)合先驗(yàn)知識(shí)與樣本數(shù)據(jù)對(duì)數(shù)值計(jì)算進(jìn)行推理,得到最佳值。其最大程度利用數(shù)據(jù)蘊(yùn)含的信息,是具有魯棒性的方法。
缺失數(shù)據(jù)下學(xué)習(xí)貝葉斯網(wǎng)有各類算法,不少算法是通過(guò)對(duì)含缺失數(shù)據(jù)的信息系統(tǒng)完備化得到所需統(tǒng)計(jì)因子,最終將問(wèn)題轉(zhuǎn)化為完全數(shù)據(jù)下學(xué)習(xí)貝葉斯的網(wǎng)的問(wèn)題。例如,結(jié)構(gòu)EM(StructureEMAlgorithm)通過(guò)EM算法獲得期望統(tǒng)計(jì)因子。數(shù)據(jù)非隨機(jī)缺失可以通過(guò)引人隱藏變量轉(zhuǎn)化為隨機(jī)缺失問(wèn)題,m似乎可以僅討論隨機(jī)缺失情況下算法。隨著研究的推進(jìn),新的、優(yōu)良的算法相繼涌現(xiàn),并得到模擬實(shí)驗(yàn)的支持。例如,數(shù)據(jù)缺失下貝葉斯網(wǎng)絡(luò)增量學(xué)習(xí)算法IBN-M。甚至穩(wěn)健的貝葉斯方法能夠適用于含缺失數(shù)據(jù)的結(jié)構(gòu)方程分析中,此時(shí)的結(jié)構(gòu)方程模型選擇固定方差。
建構(gòu)貝葉斯網(wǎng)可由專家人工建構(gòu)。其中,因果關(guān)系、網(wǎng)絡(luò)結(jié)構(gòu)是不可或缺的。這需對(duì)分析領(lǐng)域有相應(yīng)了解,至少對(duì)變量間關(guān)系較清楚。在心理學(xué)等領(lǐng)域中應(yīng)用尚待深入研究,該方法運(yùn)用前景令人期待。
(二)貝葉斯網(wǎng)適用軟件能夠?qū)崿F(xiàn)貝葉斯網(wǎng)的軟件包不少。Netica是最重要軟件之一,可免費(fèi)下載功能有限的版本。專門進(jìn)行數(shù)值計(jì)算的語(yǔ)言Matlab,其編程量較少、調(diào)試程序方便、呈現(xiàn)學(xué)習(xí)所得結(jié)構(gòu)也不繁瑣,國(guó)內(nèi)文獻(xiàn)也更多地涉及Matlab。BNTtolkit是基于Matlab開(kāi)發(fā)的,提供不少基礎(chǔ)函數(shù)庫(kù),能夠進(jìn)行參數(shù)學(xué)習(xí)與結(jié)構(gòu)學(xué)習(xí),且完全免費(fèi)。缺乏圖形用戶界面、無(wú)法將基本函數(shù)集成相應(yīng)系統(tǒng)是其“硬傷”。
五、結(jié)論與討論
實(shí)際應(yīng)用中,刪法“浪費(fèi)”不少數(shù)據(jù),統(tǒng)計(jì)力低下,盡量選用其它方法。當(dāng)滿足MAR缺失機(jī)制且人在10%時(shí),對(duì)刪法可運(yùn)用對(duì)有多個(gè)項(xiàng)目的量表的數(shù)據(jù)處理。當(dāng)滿足MAR、變量相關(guān)聯(lián),可考慮均值借補(bǔ)。當(dāng)變量之間高相關(guān)且X>20%Ht,可考慮回歸借補(bǔ)。
篇13
Cluster Analysis Method Application of Grid Technology
Ma Dongmei
(Xinjiang Tianshan Vocational and Technical College,Urumqi830017,China)
Abstract:In the grid based on data mining combines the advantages of grid technology to various information carriers in the distribution of vast amounts of information for efficient processing, analysis and mining.This paper analyzes the grid and cluster analysis of the characteristics,the use of grid-based methods of data analysis methods will be ground into space(hyper)rectangular grid consisting of grid cells,then the cluster analysis of grid cells in order to achieve a more in-depth analysis of the data mining purposes.
Keywords:Data mining;Grid;Cluster analysis
一、引言
隨著信息技術(shù)的飛速發(fā)展,人們對(duì)計(jì)算機(jī)信息處理的要求越來(lái)越高,同時(shí)處理、傳輸、儲(chǔ)存各種信息的數(shù)據(jù)量也越來(lái)越龐大。如何進(jìn)一步增強(qiáng)計(jì)算機(jī)信息系統(tǒng)的處理能力,從海量的數(shù)據(jù)中提取有益的資源,便成為人們不斷追求的目標(biāo)。網(wǎng)格技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,為解決此問(wèn)題提供了一種有效的辦法。網(wǎng)格是一個(gè)集成的資源環(huán)境,它能夠充分吸納各種資源,并將它們轉(zhuǎn)化成一種隨處可得的、可靠的、標(biāo)準(zhǔn)的、經(jīng)濟(jì)的能力。這些資源包括計(jì)算資源、網(wǎng)絡(luò)通信資源、數(shù)據(jù)資料、儀器設(shè)備、知識(shí)等各種各樣的資源。網(wǎng)格計(jì)算就是基于網(wǎng)格的問(wèn)題求解。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)或"挖掘"知識(shí),而網(wǎng)格上含有豐富的數(shù)據(jù),是數(shù)據(jù)挖掘的理想目標(biāo)?;诰W(wǎng)格的數(shù)據(jù)挖掘就是建立在數(shù)據(jù)網(wǎng)格的基礎(chǔ)設(shè)施和相關(guān)技術(shù)的基礎(chǔ)上,在廣域分布的海量數(shù)據(jù)和計(jì)算資源的環(huán)境中發(fā)現(xiàn)數(shù)據(jù)模式,獲取新的科學(xué)知識(shí)和規(guī)律。
二、基于網(wǎng)格的數(shù)據(jù)挖掘
網(wǎng)格計(jì)算技術(shù)是解決復(fù)雜海量科學(xué)數(shù)據(jù)的訪問(wèn)存儲(chǔ)組織和管理的一種有效技術(shù),是廣域分布的異構(gòu)虛擬組織間實(shí)現(xiàn)協(xié)同資源共享、多領(lǐng)域的科學(xué)和工程的問(wèn)題求解。建立在網(wǎng)格基礎(chǔ)上的數(shù)據(jù)挖掘結(jié)合網(wǎng)格計(jì)算的思想及其技術(shù)的優(yōu)點(diǎn),能夠?qū)V域分布的海量數(shù)據(jù)進(jìn)行高效的處理、分析和挖掘,將給信息分析處理的效率帶來(lái)極大的促進(jìn)。(一)網(wǎng)格數(shù)據(jù)挖掘過(guò)程:數(shù)據(jù)的處理,數(shù)據(jù)的分析與挖掘,模式的評(píng)價(jià)。(二)網(wǎng)格數(shù)據(jù)挖掘的特點(diǎn):超強(qiáng)的計(jì)算能力;具有分布性和動(dòng)態(tài)性;具有高性能的I/O負(fù)載平衡能力;高效的數(shù)據(jù)存儲(chǔ)服務(wù)、傳輸服務(wù)和復(fù)制管理。(三)聚類分析在網(wǎng)格計(jì)算中的實(shí)現(xiàn)方法。
三、網(wǎng)格聚類過(guò)程劃分
基于網(wǎng)格聚類算法的第一步是劃分網(wǎng)格結(jié)構(gòu),按搜索子空間的策略不同,主要有基于由底向上網(wǎng)格劃分方法的算法和基于自頂向下網(wǎng)格劃分方法的算法。由底向上劃分方法只需對(duì)數(shù)據(jù)集進(jìn)行一次線性掃描以及較高的簇的描述精度,算法的效率與維度密切相關(guān)。自頂向下劃分方法能夠自動(dòng)根據(jù)數(shù)據(jù)的分布對(duì)空間進(jìn)行劃分,可以快速將大型高維數(shù)據(jù)集中的簇分隔開(kāi),數(shù)據(jù)空間維度對(duì)網(wǎng)格計(jì)算的影響較小。可以看出,兩類方法適用于不同的問(wèn)題。前者適于處理高維數(shù)據(jù)集,后者能有效處理存取代價(jià)較大的超大型數(shù)據(jù)集與動(dòng)態(tài)數(shù)據(jù)。
四、基于網(wǎng)格的聚類過(guò)程分析
基于網(wǎng)格的聚類算法的基本過(guò)程是,首先將數(shù)據(jù)空間W劃分為網(wǎng)格單元,將數(shù)據(jù)對(duì)象集O映射到網(wǎng)格單元中,并計(jì)算每個(gè)單元的密度。根據(jù)用戶輸入的密度閾值Min Pts判斷每個(gè)網(wǎng)格單元是否為高密度單元,由鄰近的稠密單元組形成簇,第一步,定義一個(gè)網(wǎng)絡(luò)單元集;第二步,將對(duì)象指派到單元,并計(jì)算密度;第三步,刪除密度低于指定闕值的單元;第四步,由稠密網(wǎng)格單元形成簇。
(一)網(wǎng)格單元的密度。簇就是一個(gè)區(qū)域,該區(qū)域中的點(diǎn)的密度大于與之相鄰的區(qū)域。在網(wǎng)格數(shù)據(jù)結(jié)構(gòu)中,由于每個(gè)網(wǎng)格單元都有相同的體積,因此網(wǎng)格單元中數(shù)據(jù)點(diǎn)的密度即是落到單元中的點(diǎn)的個(gè)數(shù)。據(jù)此可以得到稠密網(wǎng)格單元的密度是,設(shè)在某一時(shí)刻t一個(gè)網(wǎng)格單元的密度為density,定義density=單元內(nèi)的數(shù)據(jù)點(diǎn)數(shù)/數(shù)據(jù)空間中總的數(shù)據(jù)點(diǎn)數(shù),設(shè)密度閾值為A,為用戶輸入的密度闕值,當(dāng)density>A時(shí),該網(wǎng)格單元是一個(gè)密集網(wǎng)格單元。反之為稀疏網(wǎng)格單元。需聚類計(jì)算時(shí),對(duì)于稀疏網(wǎng)格單元一般采用壓縮或直接刪除的處理方法,理論分析和實(shí)驗(yàn)證明刪除稀疏網(wǎng)格單元并不影響聚類的質(zhì)量。(二)由稠密網(wǎng)格單元形成簇。在基于網(wǎng)格的聚類算法中,根據(jù)以上分析,由鄰接的稠密單元形成簇是相對(duì)直截了當(dāng)?shù)?,這也是基于網(wǎng)格的方法的優(yōu)點(diǎn)之一。但是需要首先定義鄰接單元的含義。設(shè)n維空問(wèn)中的存在任意兩個(gè)網(wǎng)格單元U1和U2,當(dāng)這兩個(gè)網(wǎng)格單元在一個(gè)維上有交集或是具有一個(gè)公共面時(shí),稱它們?yōu)猷徑泳W(wǎng)格單元。在二維空間中,比較常使用的是4-connection相鄰定義和8-connection相鄰定義,
五、結(jié)束語(yǔ)
基于網(wǎng)格聚類方法的優(yōu)點(diǎn)是它的處理速度快,因?yàn)槠渌俣扰c數(shù)據(jù)對(duì)象的個(gè)數(shù)無(wú)關(guān)。但是,基于網(wǎng)格方法的聚類算法的輸入?yún)?shù)對(duì)聚類結(jié)果影響較大,而且這些參數(shù)較難設(shè)置。當(dāng)數(shù)據(jù)中有噪音時(shí),如果不加特殊處理,算法的聚類質(zhì)量會(huì)很差。而且,算法對(duì)于數(shù)據(jù)維度的可伸縮性較差。
基于網(wǎng)格的聚類方法目前還存在一些急需解決的問(wèn)題,主要有以下幾點(diǎn):(1)當(dāng)簇具有不同的密度時(shí),全局的密度參數(shù)不能有效發(fā)現(xiàn)這樣的簇,需要開(kāi)發(fā)具有可變密度參數(shù)的算法。(2)對(duì)于不同類型數(shù)據(jù)的聚類問(wèn)題,比如對(duì)于高維數(shù)據(jù),網(wǎng)格的數(shù)據(jù)將急劇增加,需要有效地技術(shù)發(fā)現(xiàn)近鄰單元。(3)當(dāng)數(shù)據(jù)集的規(guī)模巨大以及數(shù)據(jù)具有地理分布特性時(shí),需要開(kāi)發(fā)有效的并行算法來(lái)提高處理的速度。(4)對(duì)現(xiàn)有網(wǎng)格算法的優(yōu)化,從不同方面提高網(wǎng)格算法的有效性。比如開(kāi)發(fā)稀疏網(wǎng)格的壓縮算法、密度相似網(wǎng)格的合并算法等。
本文對(duì)基于網(wǎng)格的聚類方法的進(jìn)行了分析和研究,包括網(wǎng)格的定義與劃分方法、網(wǎng)格單元密度的確定、由鄰接網(wǎng)格單元形成聚簇的聚類過(guò)程;最后對(duì)網(wǎng)格聚類方法優(yōu)點(diǎn)與局限性進(jìn)行總結(jié),在已有研究分析的基礎(chǔ)上,提出后續(xù)需要重點(diǎn)解決的問(wèn)題。
參考文獻(xiàn):