日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

數(shù)據(jù)挖掘總結(jié)實用13篇

引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘總結(jié)范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

數(shù)據(jù)挖掘總結(jié)

篇1

1.2婦科疾病馬紅麗等[29]通過對多囊卵巢綜合征的病因、病機、辨證分型的現(xiàn)代文獻信息進行挖掘,分析出腎虛、痰濕、血瘀為該病的主要病機,并從邪正關(guān)系角度將其分為5個證型。宋亞南等[30]通過挖掘現(xiàn)代文獻有關(guān)多囊卵巢綜合征的用藥,總結(jié)其用藥頻數(shù)最高的5個中藥:菟絲子、茯苓、當歸、仙靈脾和香附,并歸納出11組核心藥物組合,為臨床對該病的病因病機以及方藥認識提供了思路。為探索不孕癥的古代醫(yī)家用方用藥特點,伏榮紅搜集明清時期的種子方108首,經(jīng)數(shù)據(jù)挖掘發(fā)現(xiàn)明清醫(yī)家善用補益藥物以補益肝脾腎,且藥性以溫通為主,并總結(jié)出使用頻率最高的中藥,以指導臨床不孕癥的治療。秦莉花等運用聚類分析方法對絕經(jīng)綜合征婦女的情志變化與中醫(yī)證型分布關(guān)系進行了研究。張素等通過挖掘圍絕經(jīng)期綜合征的中藥復方使用規(guī)律,發(fā)現(xiàn)該病用藥涉及滋補、清熱、溫補、補氣、安神、疏肝等多種治則,其中尤以滋補肝腎類藥物最為常用。張焱等挖掘何立人治療女性圍絕經(jīng)期高血壓的用藥規(guī)律,總結(jié)出何立人使用頻數(shù)最高的藥物為天麻、丹參、枸杞子、知母、黃柏等,常用藥對為何首烏配伍枸杞子、仙鶴草配伍十大功勞葉等,體現(xiàn)了何立人辨治圍絕經(jīng)期高血壓善于調(diào)補肝腎陰陽,“以平為期,以和為貴”的學術(shù)特點。

1.3兒科疾病王繼軍等[35]通過對《小兒痘疹方論》中治療小兒痘疹的78首復方用藥規(guī)律的挖掘分析,發(fā)現(xiàn)治療以補虛藥、清熱藥、解表藥、利水滲濕藥等中藥為主,單味中藥以甘草、人參、茯苓、當歸、白術(shù)等藥物為主,為現(xiàn)代臨床辨證施治提供更科學合理的理論依據(jù)。王進進等]通過對900余例小兒感冒的信息進行挖掘,總結(jié)出小兒感冒的常見病因、9種分類證型,以及使用頻數(shù)最高的方劑和藥物,為中醫(yī)兒科臨床辨證施治提供參考。鄭燕霞等為研究小兒慢性咳嗽的中醫(yī)證素特征,采用數(shù)據(jù)挖掘方法對所得數(shù)據(jù)進行分析,結(jié)果表明病位證素主要在肺、表、脾,病性證素主要為風、痰、氣虛。潘芳等運用支持向量機方法對孔光一教授診治小兒外感咳嗽風熱犯肺證醫(yī)案進行了挖掘,提煉出宣肺、解毒為主的治法,并歸納出桑葉、金銀花、連翹、黃芩為主的用藥規(guī)律。郝宏文等通過信息挖掘技術(shù)對王素梅診治的757例多發(fā)性抽動癥患兒的證候要素分析,通過對其常見證型、證素、病機的歸納,總結(jié)出王素梅治療多發(fā)性抽動癥之健脾平肝、熄風通絡(luò)的治則大法。

1.4外科、眼科及皮膚疾病脫疽多對應(yīng)于西醫(yī)學之血栓閉塞性脈管炎、動脈硬化閉塞癥、糖尿病足等周圍血管病。謝宇霞等運用數(shù)據(jù)挖掘技術(shù)對古今脫疽醫(yī)案的方藥進行分析,分別總結(jié)出3類疾病的辨證分型及常用方藥,為臨床應(yīng)用提供幫助。趙亞男等對文獻涉及臁瘡的四畔證型進行研究,經(jīng)數(shù)據(jù)挖掘分析其常見證型及各證型的常見癥狀表現(xiàn),豐富了臁瘡的辨證內(nèi)容。角膜炎屬中醫(yī)“翳”“翳膜”“凝脂翳”“聚星障”等范疇,朱曉林等通過對自公元3世紀末至21世紀初的文獻的搜集匯總,經(jīng)聚類分析進行統(tǒng)計,發(fā)現(xiàn)角膜炎以“熱、風、痰、瘀、濕”為常見病因。用藥以祛邪扶正為主,祛邪以清熱疏風等為法,扶正以明目、補肝腎為主。結(jié)合陳彤云教授治療痤瘡的207個處方,倉田等總結(jié)出痤瘡的病位在肝、胃、肺三經(jīng),治療以清熱解毒燥濕與活血化瘀并舉,兼養(yǎng)陰、理氣之法。寧江等通過對近30年治療尋常型銀屑病醫(yī)案的用藥規(guī)律分析,挖掘出頻數(shù)最高的中藥及藥對,支持眾多醫(yī)家“從血論治銀屑病”的觀點,以清熱涼血法為治療的根本大法。姜春燕等對2012年之前有關(guān)濕疹的文獻進行收集整理,挖掘濕疹的證型及用藥規(guī)律,總結(jié)出以濕熱證型為主的核心用藥,為濕疹中醫(yī)治療的規(guī)范化提供客觀依據(jù)。

1.5傳染性疾病田景平等基于文本挖掘方法對流行性乙型腦炎的臨床用藥規(guī)律進行系統(tǒng)研究,結(jié)果發(fā)現(xiàn),中藥以大青葉、地黃、板藍根等清熱解毒藥使用頻率最高,中成藥以“溫病三寶”安宮牛黃丸、紫雪丹、至寶丹的運用最為廣泛,另外發(fā)現(xiàn)臨床上干擾素、利巴韋林等西藥常與中成藥聯(lián)合應(yīng)用。利用中國中醫(yī)科學院的中醫(yī)臨床科研信息共享系統(tǒng)的技術(shù)平臺,胡鐵驪等對乙型肝炎相關(guān)性肝衰竭進行數(shù)據(jù)挖掘,以期探索一條中醫(yī)臨床服務(wù)與科研需求相統(tǒng)一的新路徑。唐仕歡等研究防治流感、肺癆的方劑組方及配伍規(guī)律,應(yīng)用復雜系統(tǒng)熵方法挖掘隱藏于方劑配伍中的核心方藥,提煉出有效方藥,并融合多種數(shù)據(jù)挖掘工具應(yīng)用到中藥新藥的研發(fā)工作中。妮等利用復雜網(wǎng)絡(luò)分析方法,分析李發(fā)枝治療艾滋病咳嗽的用藥規(guī)律,總結(jié)李發(fā)枝從“肺脾氣虛”論治的理論依據(jù),以及治療艾滋病咳嗽常用方藥。

1.6散在中醫(yī)證候數(shù)據(jù)挖掘技術(shù)不僅廣泛應(yīng)用于內(nèi)、外、婦、兒等各科疾病,對于散在中醫(yī)證候挖掘的應(yīng)用也逐漸增多。有學者針對頭痛進行研究,采用數(shù)據(jù)挖掘技術(shù)搜集古今醫(yī)籍、名醫(yī)經(jīng)驗中有關(guān)頭痛的用藥經(jīng)驗,總結(jié)治療頭痛的常見組方用藥、藥物性味歸經(jīng)規(guī)律;也有學者將傳統(tǒng)中醫(yī)病證與數(shù)據(jù)挖掘技術(shù)相結(jié)合,通過對燥證、盜汗、多汗證、眩暈、嘔吐、失眠、肺脹、內(nèi)風等傳統(tǒng)中醫(yī)病證的方藥規(guī)律進行挖掘分析,為臨床病證用藥提供參考。

2總結(jié)與展望

篇2

隨著我國的旅游業(yè)的迅猛發(fā)展,旅游產(chǎn)業(yè)正邁向國際化的軌道,傳統(tǒng)旅游業(yè)積累的海量數(shù)據(jù),沒有被有效利用,資源被極大浪費。將數(shù)據(jù)挖掘引入到旅游產(chǎn)業(yè)是大勢所趨。

當前數(shù)據(jù)挖掘在旅游信息化建設(shè)中的應(yīng)用與研究情況主要集中在高校理論界的研究, 大多數(shù)研究僅僅是學術(shù)研究,真正運用到旅游行業(yè)的文章多是從某個具體的方面出發(fā),針對個別應(yīng)用進行數(shù)據(jù)挖掘的融合。筆者主要研究決策樹方法在旅游信息化建設(shè)中的應(yīng)用。目前,決策樹算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z統(tǒng)計算法、并行決策樹算法和SPRINT算法等。不同算法在執(zhí)行效率、輸出結(jié)果、可擴容性、可理解性、預測的準確性等方面各不相同。總的來說,這么多決策樹算法各有優(yōu)缺點,真正將數(shù)據(jù)挖掘運用到整個旅游信息化建設(shè)中還有很多問題需要解決。

二、旅游業(yè)數(shù)據(jù)挖掘算法選擇

數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。

其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對數(shù)據(jù)進行事先標定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對數(shù)據(jù)的相異度來分析評估數(shù)據(jù),可以作為其他對發(fā)現(xiàn)的簇運行的數(shù)據(jù)挖掘算法的預處理步驟。

各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡單,便于理解,且很擅長處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點,結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點,故作重點分析。

三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點如下:統(tǒng)計旅游興趣;購物消費趨向;推薦其感興趣的旅游景點;在后臺管理中,通過決策樹算法對游客數(shù)量、平均年齡、景點收費、游客來自地區(qū)等進行分析總結(jié),為旅游消費者和旅游管理者提供服務(wù):為消費者提供吃住行購娛樂天氣各方面信息查詢、機票、車船票、酒店、景區(qū)門票、餐飲等方面的預定與現(xiàn)金支付、第三方支付、消費者評價、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點管理、特色服務(wù)管理、機票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)

旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個子模塊。根據(jù)系統(tǒng)日常運行出現(xiàn)的問題及時對系統(tǒng)進行維護,如添加或者刪除某個模塊功能,系統(tǒng)整體運行速度的更近等。系統(tǒng)運用數(shù)據(jù)庫層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu), 主要利用ID3算法達到旅游數(shù)據(jù)信息的快速、準確分類。考慮了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點之間的關(guān)系、游客與機票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計。程序之間的獨立性增加,易于擴展, 規(guī)范化得到保證的同時提高了系統(tǒng)的安全性。

詳細功能設(shè)計包括:用戶登錄、用戶查詢、預定及支付、后臺管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運用Java語言就行邏輯上的處理。系統(tǒng)主要使用 Struts2和Hibernate這兩個框架來進行整個系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實現(xiàn)酒店推薦實現(xiàn)、景點推薦實現(xiàn)、天氣預報實現(xiàn)、旅游線路實現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報表數(shù)據(jù)獲取、景區(qū)客流量變化分析實現(xiàn)等。需要進行后臺信息管理等功能測試以及時間測試、數(shù)據(jù)測試等性能測試。

篇3

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘?qū)儆跀?shù)據(jù)分析的一種,即在大量的數(shù)據(jù)信息資料中的篩選出與人們特定的要求相符和的數(shù)據(jù)內(nèi)容。數(shù)據(jù)挖掘就是通過全智能化的途徑,在眾多的、不確定的、海量的信息中總結(jié)和分析出,原本就存在的但不易被人們感知,具有總結(jié)性特點的相關(guān)內(nèi)容。

二、數(shù)據(jù)挖掘的方法和步驟

1.數(shù)據(jù)挖掘的分析方法。數(shù)據(jù)挖掘分析方法主要包括聚類分析、決策樹和人工神經(jīng)網(wǎng)絡(luò)。

(1)聚類分析就是將具有相同或相似特點的研究對象進行整合,通過數(shù)據(jù)挖掘技術(shù)的分析過濾,在無序的、混亂的研究對象中,輸出其中被隱藏的、不明顯的的行的特點結(jié)果。

(2)決策樹是數(shù)據(jù)挖掘中的另一方面,具有對研究對象進行分類和預測的作用。也就是對眾多分析對象按照一定的要求進行重新分組,并達到對某些事項預測結(jié)果的目的。

(3)人工神經(jīng)網(wǎng)絡(luò)是指類似于人的大腦的神經(jīng)分布與信息處理的一種分析方法。

如圖1所示。

2.數(shù)據(jù)挖掘的步驟。數(shù)據(jù)挖掘涵蓋了四個部分:目標定義、數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)挖掘結(jié)果評析。

(1)數(shù)據(jù)挖掘的目標定義是指人們利用數(shù)據(jù)挖掘技術(shù)所要的達到的最終目的和預期結(jié)果。

(2)數(shù)據(jù)收集是指確定了數(shù)據(jù)挖掘目標以后,所要進行的對相關(guān)數(shù)據(jù)的收集和整理,即人們所說的對研究對象的集中。

(3)數(shù)據(jù)分析是指在完成數(shù)據(jù)收集之后,通過使用數(shù)據(jù)挖掘技術(shù),運用上述三種方法對研究對象進行集中處理。

(4)數(shù)據(jù)挖掘結(jié)果評析是指數(shù)據(jù)挖掘的最終的結(jié)果的輸出,即預期目標的實現(xiàn)。如圖2所示

三、數(shù)據(jù)挖掘技術(shù)在大學英語考試中的應(yīng)用

在大學英語考試中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用主要體現(xiàn)在對于學生的身份、考試內(nèi)容、考試成績結(jié)果等方面。按學生的學號、姓名、年級、指導教教師等標準,進行數(shù)據(jù)挖掘,分析學生的分布情況。考試內(nèi)容是指針對于考試內(nèi)容的難易層次、答題正確率情況,進行數(shù)據(jù)收集,通過數(shù)據(jù)挖掘技術(shù),分析學生考試成績高中低的大體情況,從而確定以后考試試題的難易程度,對應(yīng)不同層次的學生。

整個考試流程的最終目的是,通過數(shù)據(jù)挖掘技術(shù),對考試成績進行分析評估,提取出學生各個層次學生對教學過程中英語知識的掌握程度,進行有針對性的教學,改善教育方法,提高教育水平。

語言是人們與外界溝通的最重要的媒介。英語作為世界上應(yīng)用最廣泛的語言,英語的學習最為關(guān)鍵。大學英語考試是大學教學對大學生的英語接收程度的一種考核方法,大學英語考試結(jié)果運用數(shù)據(jù)挖掘技術(shù),有助于提升教師對考試結(jié)果了解效率,化解教與學之間的隔閡,優(yōu)化大學英語教育方法,提高教學水平。

參考文獻:

[1]張和華,向華,吳旋.數(shù)據(jù)挖掘技術(shù)在醫(yī)療設(shè)備行業(yè)中的應(yīng)用研究[J].中國醫(yī)學裝備,2015,10(01):48-50.

篇4

在計算機審計中,數(shù)據(jù)的分析方式是審計工作中最重要的步驟,審計人員應(yīng)掌握數(shù)據(jù)的分析思路,并將自身的審計能力和水平發(fā)揮出來。從審計事業(yè)的角度來講,能夠給審計思路進行正確和深入的總結(jié)是體現(xiàn)計算機審計整體發(fā)展水平的重要內(nèi)容。審計人員應(yīng)從設(shè)定計算和限定條件的過程中,創(chuàng)新審計思路,由此判斷審計單位經(jīng)濟活動的真實性和合法性,然后做出合理的判斷。

二、基于數(shù)據(jù)挖掘的審計模式

隨著計算機審計理論的不斷發(fā)展和實踐的不斷完善,很多計算機審計模式被合理的融入到審計工作中,由于實際工作的需要和相關(guān)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)被嘗試性地引入了審計過程當中。審計人員通過數(shù)據(jù)挖掘給審計工作的創(chuàng)新帶來了新的突破,現(xiàn)將數(shù)據(jù)挖掘計算的計算機審計模式歸納如下,如圖1所示。圖1:數(shù)據(jù)挖掘計算的計算機審計模式數(shù)據(jù)挖掘技術(shù)能提供高效的方法,讓審計人員在面對大量而復雜的審計數(shù)據(jù)時,擁有寬廣的思路。數(shù)據(jù)挖掘技術(shù)在審計項目中主要有兩大作用:一是在海量的數(shù)據(jù)中尋找有用的知識作為審計線索;二是直接找到孤立點。

計算機審計模式因為數(shù)據(jù)挖掘技術(shù)的應(yīng)用而有所完善,并解決了很多計算機審計模式中的缺點。我國正處于“問題導向型”政府審計的環(huán)境中,計算機審計的目的是發(fā)現(xiàn)一些異常數(shù)據(jù)明確被審計單位的業(yè)務(wù)活動是否具有合法性和合規(guī)性。數(shù)據(jù)挖掘技術(shù)在計算機審計中,是為了找出一組異常和孤立的數(shù)據(jù),由此獲取知識豐富現(xiàn)有的審計知識,并完善業(yè)務(wù)邏輯等方面。

(一)查詢式

在計算機審計模式中,最常被使用的是查詢式。這種方法主要是審計人員將采集到的被審計單位的數(shù)據(jù),在整理后存入審計人員的數(shù)據(jù)庫,然后編寫成SQL語句,進行靈活的查詢,由此更加有效的利用數(shù)據(jù)挖掘技術(shù)進行查找和分析,并對記錄進行累計、基數(shù),綜合計算其最大值和最小值,連接不同的表格,運用函數(shù)編寫公式,從而生成疑點再進行核實。

這種審計模式的核心技術(shù)是掌握SQL語句,該方法的主要對象是關(guān)系數(shù)據(jù)庫的二維表。該方法對審計人員的SQL語句的掌握能力要求較高,如何審計情況比較復雜,那么SQL語句也會變得復雜,步驟也較多。這種方法的圖形數(shù)據(jù)很少,結(jié)果無法直觀的體現(xiàn)出來。例如在以此農(nóng)村信用社貸款的審計過程中,審計人員在將數(shù)據(jù)導入整理后,想在貸款數(shù)據(jù)表輸入對應(yīng)的查找條件,并對應(yīng)寫出轉(zhuǎn)換后的SQL語句。

(二)驗證式

這種審計模式需要審計人員先提出自己的假設(shè),然后采用一定技術(shù)和方法進行驗證和否定這個假設(shè)。這種假設(shè)到驗證的分析方法在日常生活中很常見,在審計工作中,應(yīng)充分分析這種審計模式的關(guān)鍵,并提出相關(guān)合理的假設(shè),假設(shè)的提出與審計人員的職業(yè)判斷有一定關(guān)系。例如在某大型酒廠銷售的真實性審計中,酒廠標準的酒包裝是每盒1瓶,每箱6瓶盒,每件6盒,所以可以得出1件=1箱=6瓶=6盒。由此審計人員能夠得到假設(shè),在酒廠進行銷售期間,酒產(chǎn)品的數(shù)量和消耗的包裝物數(shù)據(jù)應(yīng)該有一定比例關(guān)系,然后在通過這一假設(shè),驗證酒廠銷售收入情況是否真實。如果審計數(shù)據(jù)過于復雜,就無法簡單的假設(shè),那么可以使用多維分析技術(shù)進行準確的分析。

所以,審計人員運用數(shù)據(jù)挖掘分析和計算審計數(shù)據(jù),并找出數(shù)據(jù)的規(guī)律和特點,然后通過相關(guān)方法,將這些數(shù)據(jù)整理成圖形或報表展示出來,根據(jù)這些內(nèi)容總結(jié)審計經(jīng)驗,建立審計經(jīng)驗庫,或是得出新的審計經(jīng)驗,并對這種經(jīng)驗的合理性和準確性進行判斷。審計人員應(yīng)根據(jù)審計經(jīng)驗進行適當?shù)母⒅安粔驕蚀_的審計經(jīng)驗,重新挖掘和分析,進行總結(jié)歸納,由此可以得出,數(shù)據(jù)挖掘技術(shù)的工作可能是一個不斷重復的過程,并且是對目前計算機審計的一種補充。

篇5

文獻標識碼:A

doi:10.19311/ki.1672-3198.2016.29.119

隨著高校教學信息化的不斷進步,教學管理過程中積累了大量的數(shù)據(jù)。但這些數(shù)據(jù)只是簡單的業(yè)務(wù)統(tǒng)計,并未進行整理和分析。教學評價是教學質(zhì)量監(jiān)控體系的重要內(nèi)容之一,如何把握其內(nèi)涵以及最終的目的,是教學實踐過程中的難點之一。充分應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠?qū)虒W評價過程中的大量數(shù)據(jù)進行加工處理,從而為教學管理人員提供正確的決策,促進教學質(zhì)量的提升。教學評價的科學性對于教學質(zhì)量的提高具有重要意義,因此利用數(shù)據(jù)挖掘技術(shù)對教學評價的數(shù)據(jù)進行分析,能夠有效提高高職院校的教學質(zhì)量。

1 高職院校教學評價現(xiàn)狀

高職院校教學評價主要是教務(wù)處對每個學期教師的教學質(zhì)量進行評估,一方面教務(wù)處將評價表發(fā)放給學生或是網(wǎng)絡(luò)評價,學生根據(jù)教學質(zhì)量評價表中的內(nèi)容給教師評分;另一方面教學督導和同行聽課后給出相應(yīng)的評價,最終形成教師的教學評價最后得分。教務(wù)處將教師的得分進行排名,并確定考核的等級。這種傳統(tǒng)的教學評價對于教學質(zhì)量的提高具有一定的作用,但是仍然存在諸多弊端,影響評價的準確性。近年來高職院校越來越重視對教學的評價,但教學評價缺乏一定的科學性。

1.1 對教學評價的認識模糊

近年來,高職院校雖然越來越重視對教學的評價,但是對教學評價的意義、教學評價在教學管理中的作用認識仍比較模糊。當前部分高職院校的教學評價還停留在初級階段,沒有意識到科學的教學評價在教學管理中的重要性,因此教學評價指標的科學性有待進一步完善。

1.2 教學評價理論薄弱

很多教學管理者對教學評價的理論知識比較薄弱,同時高職院校與專業(yè)的研究機構(gòu)缺乏足夠的合作,致使教學評價理論缺乏系統(tǒng)性,教學評價理論難以發(fā)揮應(yīng)有的作用。很多高職院校教學評價工作人員并未接受過專業(yè)的評價理論培訓,導致教學評價只是停留在表面,難以向深層次推進。

1.3 教學評價手段比較落后

高職院校目前采用的教學評價手段比較單一,評價技術(shù)相對落后。雖然很多院校開始采用模糊數(shù)學的方法進行評價,也取得了長足的進步,但是教學評價還是沿用現(xiàn)成的技術(shù),并沒有根據(jù)自身的特點進行創(chuàng)新和改進。

2 數(shù)據(jù)挖掘的分類與算法

2.1 數(shù)據(jù)挖掘技術(shù)的分類

2.1.1 根據(jù)任務(wù)分類

根據(jù)數(shù)據(jù)挖掘技術(shù)的任務(wù)進行分類,主要包括分類模型數(shù)據(jù)挖掘、總結(jié)、聚類、關(guān)聯(lián)規(guī)則、序列發(fā)現(xiàn)以及依賴模型和異常發(fā)現(xiàn)等。

2.1.2 根據(jù)方法分類

根據(jù)數(shù)據(jù)挖掘技術(shù)的方法進行分類,主要分為分類算法、關(guān)聯(lián)規(guī)則算法、最近距離算法和支撐向量機算法。

決策樹分類法是應(yīng)用最為廣泛的算法,采用自上而下的歸納方法來總結(jié)數(shù)據(jù)規(guī)律,決策樹的數(shù)據(jù)總結(jié)清晰明了,并且每個節(jié)點都使用信息增益度量來選擇測試屬性。簡單講,這種方法就是以樹形結(jié)構(gòu)來體現(xiàn)大數(shù)據(jù)的特點和挖掘結(jié)果。決策樹具有多種算法,較早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。決策樹算法將數(shù)據(jù)有原則的進行分類,剔除無用或者用處不大的信息,從而實現(xiàn)大數(shù)據(jù)整理的高效性,在預測模型中應(yīng)用廣泛。所謂關(guān)聯(lián)規(guī)則算法是通過數(shù)據(jù)之間的關(guān)聯(lián)性建立一張關(guān)系網(wǎng),從而找到解決某一問題的重要數(shù)據(jù)和條件,也就是通過對某種現(xiàn)象的檢測來獲得結(jié)果。關(guān)聯(lián)規(guī)則算法使大數(shù)據(jù)清晰化,能夠顯示有用結(jié)果,減少統(tǒng)計時間。同時,該方法支持間接的數(shù)據(jù)挖掘和對變長數(shù)據(jù)進行處理,它計算的消耗量是可以預見的。最近距離法(KNN)的原理是以空間中的某個向量為樣本,與其相鄰的空間內(nèi)與其相似的向量的統(tǒng)計就可以用相同的方法來統(tǒng)一。該方法的優(yōu)勢在于避免了其它方法的樣本不平衡狀態(tài)。由于該方法主要是依靠周邊鄰近的樣本,樣本數(shù)量有限,不能通過由判別類域的方法來確定類別,所以常用于樣本之間重疊或交叉較多的空間。支撐向量法是建立在統(tǒng)計學理論的基礎(chǔ)上的,靠機器來完成,是現(xiàn)代智能化統(tǒng)計的雛形。其原理在于將給定的有限的數(shù)理訓練樣本進行準確無誤的折衷,從而提高的推廣能力。

2.2 數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘其實就是不斷的反饋,其重要包括數(shù)據(jù)準備階段、數(shù)據(jù)挖掘階段以及評估和表示階段。

2.2.1 數(shù)據(jù)準備階段

數(shù)據(jù)挖掘技術(shù)應(yīng)用的前提是準備數(shù)據(jù),教師教學質(zhì)量評價的所有數(shù)據(jù)均來自于系統(tǒng)數(shù)據(jù)庫,所需數(shù)據(jù)主要有學生評價數(shù)據(jù)、同行評價數(shù)據(jù)、教師自評數(shù)據(jù)和專家評價數(shù)據(jù)等,這些數(shù)據(jù)的獲取可以直接提取數(shù)據(jù)庫表的內(nèi)容。另外,還要綜合調(diào)查問卷的數(shù)據(jù)。數(shù)據(jù)準備完成后,需要對全部數(shù)據(jù)進行預處理,使其滿足數(shù)據(jù)挖掘格式。

2.2.2 數(shù)據(jù)挖掘階段

依據(jù)數(shù)據(jù)的具體性質(zhì),選擇合適的處理技術(shù),常用的技術(shù)有聚類分析、歸納技術(shù)、關(guān)聯(lián)技術(shù)以及神經(jīng)元網(wǎng)絡(luò)等技術(shù),常用的算法有BP算法、ID3算法等。然后使用選擇的技術(shù)和算法對數(shù)據(jù)進行挖掘。

2.2.3 評估和表示階段

將教學評價的原始數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)換為更加容易理解、關(guān)系明確的形式,采用統(tǒng)計學方法評價數(shù)據(jù)分析的結(jié)果,進而獲得最佳的模式,同時還要預測可能發(fā)生的多種情況,為決策者提供多個方案。

3 數(shù)據(jù)挖掘技術(shù)在高職院校教學評價中的應(yīng)用

教學評價的任務(wù)就是通過科學的手段,構(gòu)建數(shù)據(jù)挖掘的模型,并將模型應(yīng)用到高職院校的教學管理中。教學評價模型要盡量降低人為因素的干擾,重新調(diào)整教學評價中的屬性權(quán)重。決策樹算法在商業(yè)領(lǐng)域應(yīng)用范圍較廣,并且成效明顯,但是目前在教學評價中的應(yīng)用還比較少,我們主要對決策樹算法的應(yīng)用進行分析,構(gòu)建決策樹模型,將其具體應(yīng)用到高職院校的教學評價中。決策樹模型能夠在海量的數(shù)據(jù)中分析出可能影響學生、同行、專家評價結(jié)果的重要因素,能夠建立教師的教學行為和教學質(zhì)量之間的關(guān)系,進而發(fā)現(xiàn)相應(yīng)的規(guī)律,為以后的教學評價服務(wù)。

3.1 數(shù)據(jù)挖掘技術(shù)在教學業(yè)績評價中的應(yīng)用

高職院校對于教學質(zhì)量的評價一直缺乏科學的評價方法,因此教學評價的結(jié)果缺乏合理性,教學評價的效果較差。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠構(gòu)建科學的、合理的教學質(zhì)量評價體系,并由專門的部門負責測評,這樣教師教學質(zhì)量的評定就有了準確性,進而可以將教學等級作為評價的硬性指標,教師的晉級就有了理論依據(jù)。我們將其具體的應(yīng)用分析如下:

(1)在成績方面,多數(shù)高職院校是以期末成績和平時成績來評價學生,獎勵結(jié)果多以獎學金的形式出現(xiàn)。采用傳統(tǒng)的方式進行評價,只能單方面的靠成績的數(shù)字來評價學生,而應(yīng)用數(shù)據(jù)挖掘技術(shù)可以挖掘成績背后的影響因素,實現(xiàn)對比分析和全面分析。從而對學生的學習成績做出正確的評價,并且在教學環(huán)節(jié)中采用必要對策。(2)在考試試題的出題中,數(shù)據(jù)挖掘技術(shù)能夠剖析學生的特點,從而針對性的出題,幫助學生發(fā)現(xiàn)學習中存在的問題。(3)教學評價。這是我們研究的重點,在這一過程中,教學評價源于教師,但是評價對象卻是學生。在傳統(tǒng)的評價中,我們往往忽視了對學生這一主體的作用,使用數(shù)據(jù)挖掘技術(shù)之后,評價的主體為學生,結(jié)合多種因素進行評價,從而根據(jù)學生的需求進行教學方法與課程設(shè)置的改革。使學生的學習過程循序漸進,更容易進入角色,提高學生學習的自信心。對影響學生的學習因素每個學期都要進行分析,利用管理系統(tǒng)并結(jié)合數(shù)據(jù)挖掘技術(shù),就能更自如地完成教學改革,促進教學質(zhì)量的提高。

3.2 數(shù)據(jù)挖掘技術(shù)在教學診斷中的應(yīng)用

教學評價能夠使教師明確自身教學目標的合理性,教學方法和教學手段選擇是否科學合理,教學內(nèi)容的重點和難點是否清晰,進而根據(jù)實際情況合理調(diào)整自身的教學策略,不斷改進與完善教學方法。數(shù)據(jù)挖掘的結(jié)果可以使教師有針對性的解決教學中的問題,教學評價不僅僅要為教師的教學狀況進行判斷,同時對于教學改革的方向也提出了明確的要求,其能夠引導教師樹立科學的教學觀和正確的質(zhì)量觀,使教師可以清楚自身的不足和今后的努力方向,督促教師不斷轉(zhuǎn)變教學思想,對教學的過程進行改革,發(fā)揮教師自身的主觀能動性和創(chuàng)新精神,最終實現(xiàn)有效的教學改革。

3.3 數(shù)據(jù)挖掘技術(shù)在教學管理中的應(yīng)用

教師教學質(zhì)量的評價主要由教學主管部門完成,因此教學主管部門要利用數(shù)據(jù)挖掘技術(shù)科學的收集數(shù)據(jù),并選擇合適的算法進行分析和處理,通過數(shù)據(jù)庫資料分析出提升教學質(zhì)量的關(guān)鍵因素,然后將這些因素反饋給高職院校管理層。教學管理人員根據(jù)數(shù)據(jù)挖掘分析的結(jié)果可以及時制定正確的改進措施,進而發(fā)揮教學管理的功能。教學評價結(jié)果對其他教師具有良好的借鑒作用,有利于不斷提高教學質(zhì)量。

4 總結(jié)

教學評價是高職院校教學管理的重要組成部分,對我國高職院校教學質(zhì)量的提高具有十分重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化發(fā)展的產(chǎn)物,它能夠處理海量的數(shù)據(jù)信息,提取出信息之間的關(guān)聯(lián),發(fā)現(xiàn)相應(yīng)的規(guī)律,以此來服務(wù)于教學評價。數(shù)據(jù)挖掘技術(shù)通過不同的算法,可以找出影響教學質(zhì)量的因素,進而使決策者可以指定正確的決策,提升高職院校的教學質(zhì)量。因此高職院校在教學評價工作中,要加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,使教學評價能夠更好的為提升教學質(zhì)量服務(wù)。

參考文獻

[1]董琳.數(shù)據(jù)挖掘技術(shù)在高職院教學評價中的應(yīng)用研究[J].電腦知識與技術(shù),2013,(4).

[2]江敏,徐艷.數(shù)據(jù)挖掘技術(shù)在高校教學管理中的應(yīng)用[J].電腦知識與技術(shù),2012,(8).

[3]呂慎敏.基于數(shù)據(jù)挖掘的高校教學管理決策支持系統(tǒng)研究[D].濟南:山東師范大學,2012,(6).

篇6

一、數(shù)據(jù)挖掘的一般流程分析

數(shù)據(jù)挖掘是一個動態(tài)的過程,就目前的分析來看,數(shù)據(jù)挖掘需要經(jīng)歷三個基本的步驟:(1)數(shù)據(jù)的預處理。數(shù)據(jù)預處理是數(shù)據(jù)挖掘最基礎(chǔ)的部分,也是數(shù)據(jù)挖掘關(guān)鍵性的步驟,其主要包括四項基本的內(nèi)容,分別是原始數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)抽取和數(shù)據(jù)交換。通過數(shù)據(jù)的預處理,數(shù)據(jù)之間的邏輯關(guān)系會更加清晰,數(shù)據(jù)的具體利用價值會有明顯性提升。(2)數(shù)據(jù)挖掘。在數(shù)據(jù)預處理的基礎(chǔ)上進行數(shù)據(jù)挖掘需要經(jīng)過兩個步驟,其一是對挖掘的任務(wù)進行明確,具體包括數(shù)據(jù)的分類、數(shù)據(jù)總結(jié)等等。其二是對數(shù)據(jù)挖掘的算法進行確定,這樣,數(shù)據(jù)挖掘的效率性和質(zhì)量性會更好。(3)模式評估和知識表示。在數(shù)據(jù)挖掘中不同的模式有不同的效果,因此對當前確定的數(shù)據(jù)挖掘模式做有效性評估,這樣可以確定模式利用的最終價值。

二、軟件工程行業(yè)中的數(shù)據(jù)挖掘應(yīng)用

在軟件工程行業(yè),數(shù)據(jù)挖掘的應(yīng)用十分的廣泛,總結(jié)分析目前軟件工程行業(yè)中數(shù)據(jù)挖掘的主要應(yīng)用,這可以為數(shù)據(jù)挖掘的深入推廣提供可靠的參考。

(一)軟件版本信息挖掘

就當前軟件工程行業(yè)中數(shù)據(jù)挖掘的具體應(yīng)用分析來看,最為廣泛的對象之一便是軟件工程版型控制信息的挖掘。就現(xiàn)階段的分析來看,對軟件工程版本進行控制,其目的是對軟件工程開發(fā)人員在軟件工程開發(fā)過程中所編輯的信息進行統(tǒng)一化的管理,這樣,軟件開發(fā)過程中數(shù)據(jù)的更新進度可以更好的保持一致性。分析研究當前環(huán)境下的軟件工程系統(tǒng)版本信息控制,利用數(shù)據(jù)挖掘技術(shù)可以將軟件開發(fā)過程中的具體變更信息做更加全面的掌握,這樣,在探討同一軟件平臺不同程序模塊的聯(lián)系和差異方面,具體的信息分析結(jié)果會更加的準確,而利用具體的結(jié)果對軟件開發(fā)中需要解決的系統(tǒng)漏洞問題做處理,軟件的開發(fā)會更具完善性。簡言之,在軟件版本的更新設(shè)計中利用數(shù)據(jù)挖掘技術(shù),版本更新設(shè)計的整體質(zhì)量會更加突出。

(二)軟件漏洞檢測挖掘

在軟件工程行業(yè),數(shù)據(jù)挖掘的應(yīng)用還廣泛分布在軟件漏洞檢測方面。從軟件的具體應(yīng)用來看,漏洞的檢測和修復是軟件利用需要重點注意的內(nèi)容,因為這關(guān)系著軟件利用的綜合實效和安全性。就當前軟件漏洞具體檢測中的數(shù)據(jù)挖掘分析來看,其主要包括5個方面的內(nèi)容:(1)軟件漏洞檢測項目的明確,有了明確的檢測項目,具體的數(shù)據(jù)挖掘范圍也會得到確定,這樣,數(shù)據(jù)挖掘的效果會更突出。(2)對軟件功能漏洞檢測數(shù)據(jù)信息做深入獲取,并就獲取的信息做清理和轉(zhuǎn)換工作,這樣可以提煉更多有用的知識和信息。(3)對軟件工程合適的數(shù)據(jù)挖掘信息做科學合理的選擇,這樣可以使數(shù)據(jù)信息的驗證效果更加突出。(4)對軟件工程中存在的系統(tǒng)平臺缺陷和漏洞做科學劃分并予以描述和定位。(5)基于挖掘的信息數(shù)據(jù)進行系統(tǒng)測試工作。

(三)開源軟件代碼挖掘

軟件工程行業(yè)中的數(shù)據(jù)挖掘應(yīng)用還體現(xiàn)在開源軟件代碼挖掘中。從現(xiàn)階段的分析來看,開源軟件代碼挖掘可歸結(jié)為對象挖掘類型,其應(yīng)用最為廣泛的是代碼的克隆檢測,而克隆檢測工程在軟件代碼以及系統(tǒng)應(yīng)用數(shù)據(jù)的復制和拷貝中進行使用。通過系統(tǒng)中具體的代碼源檢測操作能夠?qū)④浖こ讨写嬖诘拇a漏洞問題做有效解決,這樣軟件工程在后期的運行維護方面效果會有極大的提升。

(四)軟件執(zhí)行記錄挖掘

數(shù)據(jù)挖掘在軟件工程行業(yè)中的突出利用還體現(xiàn)在軟件執(zhí)行記錄的挖掘方面。在軟件執(zhí)行記錄當中使用數(shù)據(jù)挖掘技術(shù),可以借助對軟件執(zhí)行的記錄做有效的大數(shù)據(jù)分析,這樣,不同的軟件或者是相同的軟件在不同模塊代碼間的關(guān)聯(lián)關(guān)系會得到全面性的分析,基于此分析,數(shù)據(jù)執(zhí)行的路徑等可以得到跟蹤,逆向建模的最終效果會更加的突出。簡言之,在軟件執(zhí)行記錄中利用數(shù)據(jù)挖掘會對軟件的系統(tǒng)代碼維護等起到突出的作用,這樣,軟件工程的穩(wěn)定性效果會更加突出。

三、結(jié)束語

綜上所述,在軟件工程行業(yè)中,具體的軟件開發(fā)需要對多方面的數(shù)據(jù)進行利用,更要對各方面數(shù)據(jù)表現(xiàn)出來的關(guān)聯(lián)性以及數(shù)據(jù)應(yīng)用結(jié)果做分析,這樣,軟件最終開發(fā)需要考慮的內(nèi)容和避免的問題會更加的清楚。文章就軟件工程行業(yè)中數(shù)據(jù)挖掘的一般步驟和具體內(nèi)容做分析,最終的目的是為軟件工程行業(yè)的實踐活動開展提供幫助,從而提升軟件開發(fā)的綜合性,提高軟件在具體生活實踐中的利用價值和效果,達到軟件開發(fā)的最終目的。

參考文獻

[1]呂品,于文兵,汪鑫等.數(shù)據(jù)挖掘挑戰(zhàn)賽驅(qū)動的本科生大數(shù)據(jù)分析能力培養(yǎng)——以上海電機學院軟件工程專業(yè)學生為例[J].計算機教育,2017(11):36-39.

篇7

一、數(shù)據(jù)挖掘技術(shù)涵義

(一)數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘是一種數(shù)據(jù)處理技術(shù),一般是指在大量數(shù)據(jù)中,通過算法發(fā)現(xiàn)數(shù)據(jù)中隱藏信息的過程,從屬于數(shù)據(jù)庫的知識發(fā)現(xiàn)。數(shù)據(jù)庫利用統(tǒng)計、情報檢索、專家系統(tǒng)、在線分析處理、機器學習等方法與工具,對繁雜的數(shù)據(jù)進行分析、歸納與總結(jié),通過搜索數(shù)據(jù)的內(nèi)部信息,為高校的教務(wù)管理提供決策依據(jù)。

(二)數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘過程是一個需要循環(huán)往復的過程,要做到精益求精,如果經(jīng)過一次的數(shù)據(jù)挖掘沒有得到有效的信息,就要重新進行數(shù)據(jù)的選擇和處理,直到得出對我們有用的信息為止。一般情況下數(shù)據(jù)挖掘分為五個階段:一是了解數(shù)據(jù)挖掘的概念,明確其目的;二是做好數(shù)據(jù)挖掘的準備工作;三是數(shù)據(jù)挖掘有很多種方法,依據(jù)實際情況選擇合適的算法,對要處理的數(shù)據(jù)進行數(shù)據(jù)挖掘;四是對數(shù)據(jù)挖掘得出的信息進行分析,給予用戶能夠接受的知識;五是將通過數(shù)據(jù)挖掘得到的信息運用到對應(yīng)的領(lǐng)域中,發(fā)揮數(shù)據(jù)挖掘的指導與參考作用。

(三)數(shù)據(jù)挖掘常用的方法

聚類分析法、統(tǒng)計分析法、模糊集方法、關(guān)聯(lián)規(guī)則方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法、覆蓋正例排斥反例法、粗集理論方法等。

二、成績分析中應(yīng)用數(shù)據(jù)挖掘的方法

(一)關(guān)聯(lián)規(guī)則算法

1.應(yīng)用關(guān)聯(lián)規(guī)則算法的內(nèi)容。關(guān)聯(lián)規(guī)則的算法是指在大量的待處理數(shù)據(jù)中找到各事物之間的聯(lián)系,是數(shù)據(jù)挖掘中的重要課題。關(guān)聯(lián)是指在兩個事物或者兩個以上事物之間必然存在著某些規(guī)律性,運用關(guān)聯(lián)規(guī)則就是要獲取數(shù)據(jù)之間隱藏的重要信息。在成績分析中運用關(guān)聯(lián)規(guī)則,查找影響成績的因素,針對試卷得分情況,對學生的成績進行總結(jié),分析得分情況與課程之間的相關(guān)性。

2.運用關(guān)聯(lián)規(guī)則算法的挖掘過程。一是對數(shù)據(jù)庫中的內(nèi)容進行分析與識別,在進行數(shù)據(jù)挖掘之前,首先要定義最小的支持度,在最小支持度的基礎(chǔ)上進行原始數(shù)據(jù)的挖掘,得到的項集應(yīng)不小于最小支持度;二是產(chǎn)生強關(guān)聯(lián)規(guī)則,利用頻繁項集產(chǎn)生規(guī)則,得到的規(guī)則的置信度與最小置信度相比,要比最小置信度大或者與最小置信度相等。

3.關(guān)聯(lián)規(guī)則的具體應(yīng)用,下表為應(yīng)用關(guān)聯(lián)規(guī)則中某專業(yè)成績不及格的挖掘規(guī)則。

依據(jù)上表得出如果最小的支持度為0.55,最小的置信度為0.35,那么1、2、4、5就為強關(guān)聯(lián)規(guī)則,在課程1不及格時,課程3與6不及格的概率就會高,這就說明課程一影響課程3與課程6;課程4也受到課程2的較大影響;課程2受到課程5的影響。

4. Apriori算法的數(shù)據(jù)挖掘。Apriori算法是一種頻繁項集算法,用來發(fā)掘相關(guān)規(guī)則。Apriori算法應(yīng)用的非常廣泛,核心思想是在候選集生成與情節(jié)向下的封閉檢測的階段下,進行頻繁項集的挖掘。具體內(nèi)容包括:一是依據(jù)數(shù)據(jù)挖掘的要求,建立相應(yīng)的事物數(shù)據(jù)表,對于優(yōu)秀成績進行保留,其他的做刪除處理;二是建立頻繁項集數(shù)據(jù)表,用A、B表示項目名稱并做相應(yīng)的記錄;三是刪除表中支持度的計數(shù)小于最小的支持度記錄,從而得到最終的頻繁1項集;四是計算后幾個頻繁項目集的結(jié)果;五是刪除最終的頻繁項集中比最小的置信度閾值小的記錄,進而得到最終的規(guī)則信息。

關(guān)聯(lián)規(guī)則數(shù)據(jù)見下表:

通過置信度的計算,刪除小于最小置信度閾值的記錄,得到最終的關(guān)聯(lián)規(guī)則,見下表。

(二)決策樹算法

應(yīng)用決策樹算法是將預測的內(nèi)容用樹的模型表現(xiàn)出來,樹的根節(jié)點作為數(shù)據(jù)的結(jié)合空間,樹的分支表現(xiàn)每一個分類問題,作為單一的屬性測試存在,樹的葉子節(jié)點是數(shù)據(jù)分割的分類,從根節(jié)點到葉子節(jié)點的路徑就是相應(yīng)的類別預測。

應(yīng)用決策樹算法要收集學生的基本個人資料、學生出勤情況,以及對課程的喜愛程度、上機練習情況與基礎(chǔ)程度等,再結(jié)合學生的成績進行分析,得到的數(shù)據(jù)用來指導教學工作,以提高教學質(zhì)量。

高校中影響學生成績的因素的決策樹如下圖:

依據(jù)決策樹得到:上機情況最為影響學生的成績,造成學生低下。教師可以決策樹得出的結(jié)論為參考,加強學生管理工作,在上機情況上加以重視,重點解決成績不理想的問題。

三、成績分析中應(yīng)用數(shù)據(jù)挖掘的優(yōu)勢

在學生的成績分析中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以有效指導教學,提高對教學有益的信息,具體內(nèi)容包括:

(一)幫助學校全面掌握學生的學習情況,通過數(shù)據(jù)挖掘?qū)W生的成績進行深層次的分析,了解學生對課程內(nèi)容的實際掌握情況,便于對學生整體情況的掌握。

(二)有助于對課程相關(guān)性的分析,通過分析不同專業(yè)的核心課程,掌握學生對課程的理解程度、得分情況,進而得到課程之間存在的聯(lián)系,便于學校合理地安排課程。

(三)通過數(shù)據(jù)挖掘得到學生入學時的成績,再依據(jù)學生現(xiàn)在的成績,將二者結(jié)合進行分析,得到學生這一學年的學習狀況,得出課程對學生的影響,便于更好地指導學生學習。

四、結(jié)語

隨著高校的不斷發(fā)展,學生的成績數(shù)據(jù)逐年增多,運用數(shù)據(jù)挖掘技術(shù)分析學生的學習成績非常有必要。通過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)相關(guān)數(shù)據(jù)間的聯(lián)系,從而提高分析成績效率,也在一定程度上使成績的分析結(jié)果更準確更具科學性。在實際工作中,要將數(shù)據(jù)挖掘的眾多方法結(jié)合起來運用,便于發(fā)現(xiàn)數(shù)據(jù)中的隱藏信息。高校要加強對學生成績的分析,提高教學質(zhì)量,保證教學目標的實現(xiàn)。

參考文獻:

[1]朱明.數(shù)據(jù)挖掘?qū)д揫M].合肥:中國科學技術(shù)大學出版社,2012.

[2]鄭巖.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:清華大學出版社,2011.

篇8

Key words: data mining technology;anti-money laundering procedures;application

中圖分類號:TP39 文獻標識碼:A文章編號:1006-4311(2010)21-0031-01

1反洗錢基本程序

1.1 定義目前關(guān)于洗錢的定義有很多種,國際上并沒有一個統(tǒng)一的定義。但洗錢的本質(zhì)就是利用資產(chǎn)、資金轉(zhuǎn)換(轉(zhuǎn)移)過程中所造成的信息缺失、信息隱蔽、信息不完整、信息不真實、信息復雜而使犯罪所得收益的原始來源和性質(zhì)無法識別或追溯,從而掩蓋和隱瞞其真實信息。

1.2 基本程序我國的反洗錢基本程序分為采集、監(jiān)測分析和移交三個步驟:第一步,大額和可疑交易報告的收集。第二步,大額和可疑交易報告的分析和甄別。第三步,可疑交易線索移送。

1.3 反洗錢工作的主要問題①巨量數(shù)據(jù)報表和高誤報率。②預設(shè)標準易于被洗錢分子規(guī)避。③無法自動適應(yīng)洗錢形勢變化。

2數(shù)據(jù)挖掘技術(shù)

2.1 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘(Date Mining),是指從大量的、不完全的、模糊的、隨機數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價值的信息和知識的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領(lǐng)域的理論和技術(shù),是幫助發(fā)現(xiàn)隱藏在數(shù)據(jù)中知識和信息的有力工具。

2.2 數(shù)據(jù)挖掘任務(wù)①數(shù)據(jù)總結(jié)。②分類。③關(guān)聯(lián)分析。④聚類。

2.3 數(shù)據(jù)挖掘流程引入數(shù)據(jù)挖掘技術(shù)應(yīng)用于反洗錢系統(tǒng)中,完成從大量數(shù)據(jù)中自動提取出模型的過程。在建立攻擊檢測系統(tǒng)過程中消除人為因素和特定因素,為其開發(fā)一個更加系統(tǒng)化的方法,即開發(fā)一套能從各種審計數(shù)據(jù)中產(chǎn)生攻擊檢測模型的自動工具。我們應(yīng)用關(guān)聯(lián)分析和序列模式分析等算法,發(fā)現(xiàn)特征之間的關(guān)聯(lián)和與時序有關(guān)的聯(lián)系,從而完成對用戶數(shù)據(jù)的收集與特征選擇過程。

2.4 常用的數(shù)據(jù)挖掘算法①決策樹。首先,通過一批已知的訓練數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹對數(shù)據(jù)進行預測。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因而可以認為,決策樹實現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。在反洗錢領(lǐng)域,決策樹算法可以按照事前已經(jīng)制定的決策模式對各種報告數(shù)據(jù)進行分類,最終以一種類似樹狀的決策結(jié)構(gòu)顯示出來,為分析者提供一個推力框架,幫助其摸清整個洗錢活動的過程并了解某一具體的洗錢操作在整個洗錢鏈條中的作用。決策樹方法精確度較高,容易理解,效率也比較高,因而比較常用。②神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)系統(tǒng)由一系列類似于人腦神經(jīng)元的處理單元組成,這些單元被稱為節(jié)點。節(jié)點通過網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,他們可以進行確定數(shù)據(jù)模式的工作。神經(jīng)元網(wǎng)絡(luò)可以通過本身所包含的無數(shù)個神經(jīng)元持續(xù)不斷地對報告數(shù)據(jù)進行反復計算,對某項資金流動是否牽涉洗錢活動進行認定,自動發(fā)現(xiàn)洗錢線索,并能通過自動學習制定出最為有利的反洗錢整體分析方案,提高數(shù)據(jù)分析效率。③相關(guān)規(guī)則。這是一種簡單卻實用的關(guān)聯(lián)分析規(guī)則,它描述了一個事務(wù)中某些屬性同時出現(xiàn)的規(guī)律和模式,依據(jù)一定的可信度、支持度、期望可信度、作用度建立相關(guān)規(guī)則。④K-nearest鄰居。鄰居就是彼此距離很緊的數(shù)據(jù)。該方法認為相鄰數(shù)據(jù)必然有相同的屬性或行為。因此,可以通過K個鄰居的平均數(shù)據(jù)來預測該特定數(shù)據(jù)的某個屬性后行為。⑤遺傳算法。在反洗錢領(lǐng)域,遺傳算法可以在發(fā)現(xiàn)可疑洗錢活動后沿最優(yōu)路徑追蹤洗錢的各步操作,幫助分析人員總結(jié)大額可疑交易數(shù)據(jù)中所隱藏的洗錢疑點或疑點組合的發(fā)現(xiàn)規(guī)律,保證分析時能夠發(fā)現(xiàn)某項洗錢活動的最重要線索,方便后期調(diào)查工作的順利開展。⑥聯(lián)機分析處理。其典型的應(yīng)用有對銀行信用卡風險的分析與預測、市場營銷策略制定等,主要是進行大量查詢操作。

3數(shù)據(jù)挖掘技術(shù)在反洗錢系統(tǒng)中的應(yīng)用

3.1 系統(tǒng)的整體設(shè)計反洗錢系統(tǒng)本身應(yīng)用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環(huán)境適應(yīng)性。到目前為止,研究人員已經(jīng)提出實現(xiàn)了許多方法,但沒有一種模型能夠滿足完全檢測的要求。由于系統(tǒng)的設(shè)計和實現(xiàn)都取決于設(shè)計人員自身的知識儲備和其對已知反洗錢形式的了解程度,因而系統(tǒng)的效率和環(huán)境性都受到了限制。

基于數(shù)據(jù)挖掘技術(shù)的智能反洗錢系統(tǒng)的核心就是從事件序列數(shù)據(jù)(訓練數(shù)據(jù))中挖掘正常和異常行為規(guī)則,構(gòu)建規(guī)則庫,在此基礎(chǔ)上,再根據(jù)發(fā)現(xiàn)的證據(jù)進行反洗錢識別。

我們采用數(shù)據(jù)挖掘方法實現(xiàn)整個過程,并將它劃分為三個過程。

①特征提取。②規(guī)則發(fā)現(xiàn),對不同類型的數(shù)據(jù),采用不同的數(shù)據(jù)挖掘算法發(fā)現(xiàn)其中的規(guī)則。③建立好規(guī)則庫后,對每一次發(fā)現(xiàn)的證據(jù),就可以根據(jù)規(guī)則來判斷是否屬于反洗錢行為。

3.2 基于數(shù)據(jù)挖掘的智能反洗錢模型的設(shè)計根據(jù)上面介紹的體系結(jié)構(gòu)、數(shù)據(jù)挖掘方法和智能檢測體系,我們設(shè)計了一種基于數(shù)據(jù)挖掘的智能反洗錢系統(tǒng)。其系統(tǒng)結(jié)構(gòu)包括如下組件:數(shù)據(jù)處理、審計數(shù)據(jù)庫、數(shù)據(jù)挖掘引擎、特征提取器、數(shù)據(jù)挖掘引擎、規(guī)則庫、數(shù)據(jù)檢測引擎和決策響應(yīng)中心。

自適應(yīng)數(shù)據(jù)挖掘反洗錢系統(tǒng)的工作原理如下:①活動監(jiān)測Agent采集來自外部網(wǎng)絡(luò)環(huán)境的各種數(shù)據(jù),并把這些數(shù)據(jù)傳送給協(xié)同Agent,協(xié)同Agent對從活動監(jiān)測Agent來的數(shù)據(jù)進行過濾、格式轉(zhuǎn)換等預處理,然后將數(shù)據(jù)存入審計數(shù)據(jù)庫中;②審計數(shù)據(jù)庫組件存儲數(shù)據(jù),并利用數(shù)據(jù)庫查詢技術(shù)產(chǎn)生訓練數(shù)據(jù)集,同時特征提取器采用數(shù)據(jù)挖掘技術(shù)對當前用戶行為進行分析,從中提取出當前用戶行為特征;③數(shù)據(jù)挖掘引擎利用數(shù)據(jù)挖掘技術(shù)對審計數(shù)據(jù)庫中的數(shù)據(jù)和提取出的特征進行學習,從中提取出有關(guān)行為特征和規(guī)則,建立異常模式和正常行為輪廓,從而建立檢測模型,并存入規(guī)則庫中;④數(shù)據(jù)檢測引擎接受來自特征提取器的數(shù)據(jù)特征和數(shù)據(jù)挖掘引擎建造的模型與來自規(guī)則庫中的正常規(guī)則進行分析,將分析結(jié)果送給決策中心;⑤決策中心分析判斷結(jié)果以決定是否報警或更新規(guī)則庫。

來自多個地方的數(shù)據(jù),主要通過如下方式進行處理和轉(zhuǎn)換。

篇9

所謂數(shù)據(jù)挖掘,就是將那些隱含的在數(shù)據(jù)中的、不能先知以及包含潛在價值的大量信息,從數(shù)據(jù)中提煉出來以供技術(shù)人員參考分析。通過數(shù)據(jù)挖掘理論所得到的信息,可以為地理信息的測繪提供依據(jù),并且還具有預測和決策的功能。為了能夠得到更加精確的信息,我們建立了數(shù)據(jù)采集平臺。數(shù)據(jù)采集平臺側(cè)重于數(shù)據(jù)的收集,將大量的數(shù)據(jù)進行有效的匯總,使之轉(zhuǎn)化成有助于測繪地理信息管理和決策的有效信息。我們在實際工作中,常常可以看到,由于對數(shù)據(jù)沒有進行系統(tǒng)科學的分析,使得一些潛在的威脅留在了我們要做的工程中,甚至會為此喪失掉很多利益。如果我們不能夠盡力把威脅清除掉,后果可能不堪設(shè)想,數(shù)據(jù)表面,看不出東西(即其隱藏的信息量),絕對是關(guān)鍵所在。因此,我們不僅要做好數(shù)據(jù)采集工作,更要有效的利用好數(shù)據(jù)挖掘理論,做好數(shù)據(jù)分析工作,充分挖掘出這些數(shù)據(jù)背后所帶來的意義。

1數(shù)據(jù)挖掘的功能

在測繪地理信息技術(shù)領(lǐng)域,數(shù)據(jù)挖掘理論能夠?qū)⒉杉臄?shù)據(jù)轉(zhuǎn)化為我們需要的知識。下面就數(shù)據(jù)挖掘的功能,并結(jié)合其在數(shù)據(jù)采集中的運用,我概括了幾點,主要功能有以下幾點:1)聚類功能。即按照數(shù)據(jù)內(nèi)在的規(guī)則,把數(shù)據(jù)聚合分類;2)關(guān)聯(lián)分析功能。關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。當建立在多次檢測的基礎(chǔ)上的某兩個或多個數(shù)據(jù)之間算出來的數(shù)據(jù)相似,差異極小的時候, 那么我們就說這些事件之間存在著某種關(guān)聯(lián), 能夠建立起這些關(guān)聯(lián)項的關(guān)聯(lián)規(guī)則;3)分類功能。將不同數(shù)據(jù)按照不同的分類標準進行分類組合;4)偏差檢測功能。對那些不常見,極端的特例進行歸檔分析, 并揭示其發(fā)生偏差的原因,以便以后好做調(diào)整;5)預測功能。通過數(shù)據(jù)信息所顯示的一些潛在的知識,我們能夠做好對未來測繪數(shù)據(jù)的預測。實踐證明,事物的聯(lián)系是普遍存在的,即數(shù)據(jù)挖掘的各項功能協(xié)調(diào)組合,以便發(fā)揮更大的作用。數(shù)據(jù)挖掘通過對數(shù)據(jù)的總結(jié)、分類、聚類和關(guān)聯(lián)等分析, 對采集的數(shù)據(jù)進行深層次的剖析,把那些潛在的東西給挖掘出來,便于技術(shù)人員的管理與預測。

2 “數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的應(yīng)用基礎(chǔ)

2.1數(shù)據(jù)采集平臺的建立

由于科技發(fā)展的需要,數(shù)據(jù)采集平臺應(yīng)勢而生。數(shù)據(jù)采集平臺,是一個擁有大量數(shù)據(jù)的數(shù)據(jù)庫。據(jù)最新的統(tǒng)計數(shù)據(jù)顯示,整個平臺采集一次便可產(chǎn)生多達50萬以上的數(shù)據(jù)量。數(shù)據(jù)采集平臺最大的作用就是能夠產(chǎn)生巨大的數(shù)據(jù)。

我們知道數(shù)據(jù)本身就是數(shù)據(jù)而已,不能夠得到對我們有幫助的東西。而數(shù)據(jù)挖掘理論,基于相應(yīng)的知識,做出極具準確性的預測性,能夠把單純的數(shù)據(jù),通過總結(jié)、分類、聚類、偏差檢測和關(guān)聯(lián)等功能可以把那些分散在數(shù)據(jù)庫里面的各種數(shù)據(jù),進行綜合分析整合。數(shù)據(jù)挖掘理論,是以對數(shù)據(jù)的分析作為基礎(chǔ)的,其功能與分析方法對數(shù)據(jù)采集平臺管理和運用,有著不可估量的作用和意義。

2.2“數(shù)據(jù)挖掘”理論應(yīng)用基礎(chǔ)

由于科技的不斷發(fā)展,數(shù)據(jù)庫不斷充實,數(shù)據(jù)采集平臺也在不斷的完善和發(fā)展中。在國家政策,和科技不斷發(fā)展的趨勢下,數(shù)據(jù)采集平臺近幾年來,其結(jié)構(gòu)和采集信息量上也發(fā)生了翻天覆地的改變。主要表現(xiàn)在版本、匯總部分字段以及采集字段上。即:版本不斷的更新,由原先的“08c版”一直發(fā)展到現(xiàn)在的“10a001版”; 匯總部分字段和采集字段的增加,使得數(shù)據(jù)庫里的數(shù)據(jù)成海量的增長,甚至多達數(shù)十萬。這樣使得數(shù)據(jù)采集平臺更加規(guī)模化,同時也加強了數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這也使得采集的數(shù)據(jù)成了 “數(shù)據(jù)挖掘”的數(shù)據(jù)基礎(chǔ),給了“數(shù)據(jù)挖掘”一個更好的平臺。也為技術(shù)人員運用數(shù)據(jù)挖掘理論提供了數(shù)據(jù)來源。

3 “數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的實際應(yīng)用

在上面我籠統(tǒng)的介紹了數(shù)據(jù)挖掘的基本功能,即分類、估計、關(guān)聯(lián)、聚類、偏差檢測和預測。在這里我具體的介紹一下“關(guān)聯(lián)規(guī)則挖掘” 理論。通過“關(guān)聯(lián)規(guī)則挖掘”理論,我們知道,如果僅僅是單獨、孤立的數(shù)據(jù),那是形成不了重要信息的,但是,如果我們將那些相互關(guān)聯(lián)的數(shù)據(jù)集中起來,并從不同的角度,不同的方面去分析這些數(shù)據(jù),那么潛伏在這些數(shù)據(jù)表面以下的部分就會浮出表面,這樣我們就能看到事物的全部。這對我們做決策有著重要的意義。所以我們要可以通過“關(guān)聯(lián)規(guī)則挖掘”理論辨證的去分析事物內(nèi)部所蘊含的關(guān)系。相反,如果只是盲目的看到表面的數(shù)據(jù),甚至割裂地、孤立地去看待數(shù)據(jù),這樣不僅找不到數(shù)據(jù)與數(shù)據(jù)之間關(guān)聯(lián)關(guān)系,更不能通過聚合這些相互關(guān)聯(lián)的數(shù)據(jù),這不能做出科學有效的決策。在測繪地理信息的時候,“關(guān)聯(lián)規(guī)則挖掘”的理論,為我們提供了更廣闊的分析方法和思維模式,為我們做出正確合理的決策提供了理論依據(jù)。在實際操作中,我們感覺到任何一個重要問題的分析,我們都要依賴“關(guān)聯(lián)規(guī)則挖掘”理論,對具體的數(shù)據(jù)進行科學分析,以呈現(xiàn)其數(shù)據(jù)和事物之間的關(guān)聯(lián)性。

4 結(jié)論

結(jié)合個人的工作經(jīng)驗和實際操作,就數(shù)據(jù)挖掘理論在數(shù)據(jù)采集中的應(yīng)用展開了探討和研究。介紹了數(shù)據(jù)挖掘的功能;“數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的應(yīng)用基礎(chǔ):數(shù)據(jù)采集平臺的建立和“數(shù)據(jù)挖掘”理論應(yīng)用基礎(chǔ);以及“數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的實際應(yīng)用。但是由于自身學識和理解的局限性,說的不是很全面,只是希望大家可以關(guān)注一下數(shù)據(jù)挖掘理論在數(shù)據(jù)采集中的應(yīng)用,并能在你所在的領(lǐng)域內(nèi)有所應(yīng)用。

參考文獻

[1]譚廣宇.數(shù)據(jù)挖掘理論在狀態(tài)數(shù)據(jù)采集平臺上的應(yīng)用[J].廣西教育,2011(6).

[2]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實踐[J].圖書,2011(8).

篇10

數(shù)據(jù)挖掘是在信息的海洋中從統(tǒng)計學的角度分析發(fā)現(xiàn)有用的知識,并且能夠充分利用這些信息,發(fā)揮其巨大的作用,從而創(chuàng)造價值,為社會生產(chǎn)服務(wù)。數(shù)據(jù)挖掘工具能夠掃描整個數(shù)據(jù)庫,并且識別潛在的以往未知的模式。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是與計算機科學相關(guān),包括人工智能、數(shù)據(jù)庫知識、機器學習、神經(jīng)計算和統(tǒng)計分析等多學科領(lǐng)域和方法的交叉學科,是從大量信息中提取人們還不清楚的但具有對于潛在決策過程有用的信息和知識的過程[1]。數(shù)據(jù)挖掘能夠自動對數(shù)據(jù)進行分析,并歸納總結(jié),推理,分析數(shù)據(jù),從而幫助決策者對信息預測和決策其作用[2]。

對比數(shù)據(jù)挖掘及傳統(tǒng)數(shù)據(jù)分析(例如查詢、報表),其本質(zhì)區(qū)別在于:前者在沒有明確假設(shè)的前提下通過挖掘信息,提取有用的資料,并提升到知識層面,從而幫助提供決策支持。所以數(shù)據(jù)挖掘又稱為知識挖掘或者知識發(fā)現(xiàn)。數(shù)據(jù)挖掘通過統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)、機器學習和模式識別等諸多方法來實現(xiàn)叢大量數(shù)據(jù)中自動搜索隱藏在其中的有著特殊關(guān)聯(lián)性的信息[3]。

2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘有許多挖掘分析工具,可以在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系,常用數(shù)據(jù)挖掘技術(shù)包括:聚類分析和分類分析,偏差分析等。

分類分析和聚類分析的主要區(qū)別在于前者是已知要處理的數(shù)據(jù)對象的類,后者不清楚處理的數(shù)據(jù)對象的類。聚類是對記錄分組,把相似的記錄在一個聚集里,聚集不依賴于預先定義好的類,不需要訓練集。分類分析是預先假定有給定的類,并假定數(shù)據(jù)庫中的每個對象歸屬于這個類,并把數(shù)據(jù)分配到這個給定類中。通過分析訓練集中的數(shù)據(jù),準確描述每個類別,并進行建模、挖掘分類規(guī)則,并依據(jù)該分類規(guī)則,劃分其他數(shù)據(jù)庫中的數(shù)據(jù)類別。聚類分析是非監(jiān)督學習,不依靠預先定義的類和帶類標號的訓練數(shù)據(jù)集,實體對象集合依照某種相似性度量原則,歸納為若干個類似實體對象組成的多個類或簇的過程,不同類中的數(shù)據(jù)盡可能存在差異,同類中的數(shù)據(jù)之間各個數(shù)據(jù)盡可能相似。

存在大量數(shù)據(jù)的數(shù)據(jù)庫中,數(shù)據(jù)中存在著偏差,而在偏差中也包括了大量的知識。偏差分析是當數(shù)據(jù)庫中存在異常行為,就顯示出要采取預防措施;否則,正常的變化,則需要更新數(shù)據(jù)庫中的記錄[4]。

3 數(shù)據(jù)挖掘方法

要的數(shù)據(jù)挖掘方法包括決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、近鄰算法和規(guī)則推導等。通過描述和可視化來對數(shù)據(jù)挖掘結(jié)果進行表示。

決策樹是以實例為基礎(chǔ)的歸納學習算法。著決策集的樹形結(jié)構(gòu)代表決策樹,樹型結(jié)構(gòu)表示分類或決策集合。決策樹是采用自頂向下的遞歸方式,樹的非終端節(jié)點表示屬性,葉節(jié)點表示所屬的不同類別。

遺傳算法是基于種群“多樣性”和“優(yōu)勝劣汰”原則等進化理論,模擬生物進化過程的全局優(yōu)化方法,將群體中將較劣的初始解通過復制、交叉和變異3個基本算子優(yōu)化求解的技術(shù),在求解空間隨機和定向搜索特征的多次迭代過程,直到求得問題的最優(yōu)解[5]。

人工神經(jīng)網(wǎng)絡(luò)對人腦神經(jīng)元進行模擬,依據(jù)其非線形預測模型,通過模式識別的方式展開,獲取的知識需要存儲在網(wǎng)絡(luò)各單元之間的連接權(quán)中。人工神經(jīng)網(wǎng)絡(luò)能夠完成分類和聚類等挖掘[5]。

關(guān)聯(lián)規(guī)則是進行數(shù)據(jù)挖掘的重要的可悲發(fā)現(xiàn)的知識,對于兩個或多個變量的取值之間存在某種規(guī)律性,并對其進行可信度的分析,挖掘其中的關(guān)聯(lián)關(guān)系。這對于發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,發(fā)現(xiàn)其數(shù)據(jù)模式和特征,然后發(fā)現(xiàn)目標行為具有重要意義。

4 數(shù)據(jù)挖掘的應(yīng)用

在醫(yī)學領(lǐng)域,科學家從異構(gòu)和分布式基因數(shù)據(jù)發(fā)現(xiàn)的基因序列的識別、發(fā)現(xiàn)基因表達譜數(shù)據(jù)中的差異表達基因,疾病不同階段的致病基因等,運用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、發(fā)展規(guī)律,總結(jié)治療效果這對疾病的診斷、治療和醫(yī)學研究都是很有價值的。在零售業(yè)/市場營銷,通過對顧客購物籃的分析,把顧客經(jīng)常同時買的商品放在一起,幫助如何擺放貨架上的商品,挖掘購買商品的關(guān)聯(lián)關(guān)系,規(guī)劃如何相互搭配進貨,促銷產(chǎn)品組合等商業(yè)活動[6]。

數(shù)據(jù)挖掘在生物信息學中有著廣泛的應(yīng)用。生物信息學就是通過對生物學實驗產(chǎn)生的海量數(shù)據(jù),進行分類、處理、分析和存儲,達到深入理解生命科學中基于分子水平的生物信息的生物學意義。如差異基因表達檢測的基因芯片,就是具有高通量的特點,并同時能夠產(chǎn)生許多生物學數(shù)據(jù),在其中蘊含著豐富的生物學意義。分析和挖掘基因芯片數(shù)據(jù),檢測差異表達基因在不同環(huán)境條件的異常表達值,能夠生層次的了解生物學知識,提高對生命科學研究的科學性和效率。對癌癥差異基因的分析結(jié)果分析,能夠更好的檢測有關(guān)疾病,并根據(jù)相關(guān)疾病的基因特性,就能有針對性的進行個體化治療,開發(fā)個體化的新藥。

進入2013年,有許多媒體都在稱之為“大數(shù)據(jù)元年”。大數(shù)據(jù)也就是擁有龐大的數(shù)據(jù)信息,事務(wù)數(shù)據(jù)量大規(guī)模增長,而且大數(shù)據(jù)是要處理大量的非規(guī)范化數(shù)據(jù),數(shù)據(jù)挖掘和分析是必不可少的。爆炸性的大數(shù)據(jù)的產(chǎn)生,可能會改變?nèi)藗兊乃伎挤绞剑仓厮芰巳祟惤涣鞯姆绞絒7]。

5 結(jié)語

數(shù)據(jù)挖掘技術(shù)能自動分析數(shù)據(jù),廣泛應(yīng)用于各個企事業(yè)單位,分析調(diào)查大量數(shù)據(jù),分析企業(yè)經(jīng)營對社會,經(jīng)濟和環(huán)境的綜合影響,并預測企業(yè)未來的發(fā)展趨勢,從數(shù)據(jù)倉庫中揭示出數(shù)據(jù)之間的潛在價值的規(guī)律性,形成知識發(fā)現(xiàn),為決策管理提供依據(jù)。

參考文獻

[1] 孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計算機應(yīng)用與軟件,2004(8).

[2] 丁樣武,楊瑩.數(shù)據(jù)挖掘在醫(yī)學上的應(yīng)川[J].鄖陽醫(yī)學院學報,1999(3):130-132.

[3] 黃曉霞,蕭蘊詩.數(shù)據(jù)挖掘集成技術(shù)研究[J].計算機應(yīng)用研究,2003(4):37.39.

[4] 王陽,張春華.數(shù)據(jù)挖掘技術(shù)、應(yīng)用及發(fā)展趨勢[J].信息化與網(wǎng)絡(luò)建設(shè),2003(4).

篇11

數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對數(shù)據(jù)進行事先標定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對數(shù)據(jù)的相異度來分析評估數(shù)據(jù),可以作為其他對發(fā)現(xiàn)的簇運行的數(shù)據(jù)挖掘算法的預處理步驟。各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡單,便于理解,且很擅長處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點,結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點,故作重點分析。

三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點如下:統(tǒng)計旅游興趣;購物消費趨向;推薦其感興趣的旅游景點;在后臺管理中,通過決策樹算法對游客數(shù)量、平均年齡、景點收費、游客來自地區(qū)等進行分析總結(jié),為旅游消費者和旅游管理者提供服務(wù):為消費者提供吃住行購娛樂天氣各方面信息查詢、機票、車船票、酒店、景區(qū)門票、餐飲等方面的預定與現(xiàn)金支付、第三方支付、消費者評價、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點管理、特色服務(wù)管理、機票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)

旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個子模塊。根據(jù)系統(tǒng)日常運行出現(xiàn)的問題及時對系統(tǒng)進行維護,如添加或者刪除某個模塊功能,系統(tǒng)整體運行速度的更近等。系統(tǒng)運用數(shù)據(jù)庫層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu),主要利用ID3算法達到旅游數(shù)據(jù)信息的快速、準確分類。考慮了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點之間的關(guān)系、游客與機票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計。程序之間的獨立性增加,易于擴展,規(guī)范化得到保證的同時提高了系統(tǒng)的安全性。詳細功能設(shè)計包括:用戶登錄、用戶查詢、預定及支付、后臺管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運用Java語言就行邏輯上的處理。系統(tǒng)主要使用Struts2和Hibernate這兩個框架來進行整個系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實現(xiàn)酒店推薦實現(xiàn)、景點推薦實現(xiàn)、天氣預報實現(xiàn)、旅游線路實現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報表數(shù)據(jù)獲取、景區(qū)客流量變化分析實現(xiàn)等。需要進行后臺信息管理等功能測試以及時間測試、數(shù)據(jù)測試等性能測試。

篇12

Based on Data Mining Technology Customer Relationship Management System

LIU Ying

(The Xinjiang Uygur Autonomous Region Youth Corps Committee School, Urumqi 830002, China)

Abstract: This paper introduces the data mining technology and customer relationship management (CRM) of the meaning and the core work, inspected the data mining for customer relationship management of commercial value and application in pharmaceutical company, and function of CRM to elaborate use of customer groups of data mining technology management processes.

Key words: data mining; CRM

數(shù)據(jù)挖掘技術(shù)是信息爆炸推動下的新興產(chǎn)物,已經(jīng)在很多領(lǐng)域得到應(yīng)用并取得了非同尋常的效果,數(shù)據(jù)挖掘技術(shù)的應(yīng)用具有廣闊的前景。數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。

目前,數(shù)據(jù)挖掘技術(shù)在企業(yè)客戶關(guān)系管理中得到了比較普遍的應(yīng)用,以醫(yī)藥公司客戶關(guān)系管理為例。醫(yī)藥公司在經(jīng)營過程中已經(jīng)積累了大量的客戶資料數(shù)據(jù),在這些數(shù)據(jù)中蘊涵了豐富的信息,隨著公司所占市場份額及客戶群體的不斷擴大,公司迫切需要一種科學管理工具,能夠從大量資料數(shù)據(jù)中挖掘出對公司至關(guān)重要的因素以不斷提高公司市場競爭力和經(jīng)濟效益,為公司帶來更多的利潤。

本文闡述的就是利用數(shù)據(jù)挖掘技術(shù)對醫(yī)藥公司客戶群進行有用管理的過程。

1 什么是數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(DW)已成為數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支,也是一個多學科交叉的領(lǐng)域,隨著計算機中收集的數(shù)據(jù)的增多,人們已不滿足僅對數(shù)據(jù)進行簡單的查詢,而是希望計算機能幫助分析數(shù)據(jù)、理解數(shù)據(jù)和做出決策等。數(shù)據(jù)挖掘技術(shù)的一個經(jīng)典案例:“啤酒與尿布”,使各商家企業(yè)受了很大的啟發(fā),得到了更大的價值。

隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的知識成為當務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生發(fā)展起來的數(shù)據(jù)處理技術(shù)。是知識發(fā)現(xiàn)的關(guān)鍵步驟。

2 數(shù)據(jù)挖掘的任務(wù)

2.1 數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。

2.2 關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal首先提出的。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。例如:在購買面包和黃油的顧客中,有90%的人同時也買了牛奶(面包+黃油(牛奶)。

2.3 聚類分析

聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。

2.4 分類

分類在數(shù)據(jù)挖掘中是一項非常重要的任務(wù)。分類是利用訓練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則,分類可被用于規(guī)則描述和預測,預測的目的是從利用歷史數(shù)據(jù)紀錄中自動推導出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。

3 數(shù)據(jù)挖掘在醫(yī)藥領(lǐng)域中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在醫(yī)藥領(lǐng)域有非常重要的作用,這是因為醫(yī)藥領(lǐng)域積累了大量的供貨、銷售渠道等歷史記錄,其數(shù)據(jù)量在不斷地迅速膨脹。數(shù)據(jù)挖掘可有助于識別購買行為,發(fā)現(xiàn)購買模式和趨勢,改進服務(wù)質(zhì)量,取得更好的客戶保持力和滿意程度。以下給出幾種數(shù)據(jù)挖掘的幾個重要方面:

1) 基于數(shù)據(jù)挖掘的數(shù)據(jù)倉庫的設(shè)計與構(gòu)造:由于醫(yī)藥公司銷售數(shù)據(jù)覆蓋面廣(包括銷售、客戶、員工等),所以有許多設(shè)計數(shù)據(jù)倉庫的方式,所包含的細節(jié)級別可以變化很大。

2) 銷售、客戶、產(chǎn)品的多維分析:考慮到客戶的需求,產(chǎn)品的銷售,趨勢,以及藥品的質(zhì)量、價格等,醫(yī)藥公司需要的是適時的信息。因此提供強有力的多維分析和可視化工具是十分重要的一件事情。

3) 促銷活動的有效性分析:醫(yī)藥公司常常通過廣告、優(yōu)惠等方式搞促銷活動,以促銷產(chǎn)品并吸引新老客戶。認真分析促銷活動的有效性,有助于提高企業(yè)利潤。多維分析可滿足這方面分析的要求,方法是通過比較促銷期間的銷售量和交易數(shù)量與促銷活動前后的有關(guān)情況。

4) 客戶保持力和忠誠度分析:通過銷售數(shù)據(jù),可以記錄客戶的購買序列,將同一客戶在不同時期購買的商品進行分組形成序列,運用序列模式分析客戶的消費或忠誠的變化,按系統(tǒng)的方法對客戶的忠誠和購買趨勢加以分析,據(jù)此對價格和藥品的種類加以調(diào)整,以便留住老客戶,吸引新客戶。

5) 購買推薦和藥品參照:通過從銷售記錄中挖掘關(guān)聯(lián)信息,可以發(fā)現(xiàn)購買某一品牌藥品的客戶很可能購買其他一些藥品。這類信息可用于形成一定的購買推薦。購買推薦可在廣告、宣傳單、收據(jù)上宣傳,以便改進服務(wù),幫助客戶選擇藥品,增加銷售額。

4 客戶關(guān)系管理(CRM)含義

客戶關(guān)系管理(Customer Relationship Management,CRM)是以客戶為核心的企業(yè)營銷的技術(shù)實現(xiàn)和管理實現(xiàn),它可以幫助企業(yè)充分利用以客戶為主的外部商業(yè)關(guān)系資源,使企業(yè)的外部資源主要是客戶資源得以合理利用,不斷擴展企業(yè)新的市場和業(yè)務(wù)渠道,提高客戶的滿意度和企業(yè)的贏利能力。對醫(yī)藥公司而言,注重公司的客戶群體發(fā)展,提高客戶滿意度及穩(wěn)定率,無疑有著非常重要的實際意義。

基于以上的論述,我們可以把醫(yī)藥公司CRM系統(tǒng)歸結(jié)為就是公司與客戶之間建立關(guān)系維持關(guān)系增進關(guān)系的過程,也是公司持續(xù)改進的吸引客戶留住客戶升級客戶的營銷策略。

5 對醫(yī)藥公司CRM數(shù)據(jù)進行數(shù)據(jù)挖掘的意義

1) 客戶獲取

在醫(yī)藥公司CRM系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)可以幫助公司對潛在客戶群進行篩選,再通過市場人員把由數(shù)據(jù)挖掘技術(shù)得出的潛在客戶名單和這些客戶感興趣的優(yōu)惠措施系統(tǒng)地結(jié)合起來,以達到實施正確的市場決策的目的。

2) 交叉營銷

在醫(yī)藥公司CRM系統(tǒng)實現(xiàn)中,數(shù)據(jù)挖掘技術(shù)可以幫助公司在所有可能對客戶提供的銷售服務(wù)中找出最佳的一種服務(wù),從而形成更加穩(wěn)定的客戶關(guān)系,為企業(yè)帶來持續(xù)的經(jīng)濟效益。

3) 客戶保持

通過對醫(yī)藥公司已有經(jīng)營業(yè)務(wù)數(shù)據(jù)的分析發(fā)現(xiàn),吸引并使一個新客戶簽約的開支要遠遠大于保留一個舊客戶的開支,因為對舊客戶的保持可能只是一次有關(guān)懷的拜訪。

醫(yī)藥公司有大約30000名客戶,利用CRM系統(tǒng)和數(shù)據(jù)挖掘技術(shù)進行有效的客戶關(guān)系管理,對數(shù)據(jù)挖掘的結(jié)果進行分析和預測,進而指導公司的業(yè)務(wù)經(jīng)營過程是十分必要的。

6 如何對醫(yī)藥公司CRM數(shù)據(jù)進行數(shù)據(jù)挖掘

開展有益的數(shù)據(jù)挖掘工作可從以下幾個方面開始:

第一步,準備數(shù)據(jù)基礎(chǔ)。

醫(yī)藥公司建立起的客戶流失預測模型主要考慮終端患者用戶。基于這個條件,在用來分析的客戶群里包含了25000名左右的終端患者客戶數(shù)據(jù)。

第二步,定義預測目標。

用2008年上半年的數(shù)據(jù)來建立預測分析模型,用以預測2009年上半年客戶的變動情況。這里的變動情況是指使用或停止醫(yī)藥公司的業(yè)務(wù)。

第三步,選擇數(shù)據(jù)挖掘工具。

目前我們使用了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法實現(xiàn),輸出的結(jié)果包含不同藥品銷售過程中關(guān)聯(lián)關(guān)系,公司下一步的市場活動可以直接根據(jù)這些分析結(jié)果選擇有針對性的藥品銷售,從而實現(xiàn)了對實際工作的指導。

第四步,結(jié)果分析運用數(shù)據(jù)挖掘技術(shù)得出挖掘結(jié)果,結(jié)合實際業(yè)務(wù)進行科學分析、定義,最終達到為企業(yè)經(jīng)營管理過程提供參考的目的。

7 醫(yī)藥公司CRM系統(tǒng)框架結(jié)構(gòu)

在CRM中企業(yè)和客戶是關(guān)系維系的兩極。企業(yè)通過制定科學有效的營銷策略來滿足客戶需求、發(fā)展忠誠客戶,為完成此目的,我們需要收集大量的客戶資料,并登記在不同的卡上,形成公司的客戶資料卡。客戶資料卡為企業(yè)了解客戶信息、與客戶建立關(guān)系提供了方便。同時它也是客戶和企業(yè)聯(lián)系的紐帶。接下來要利用數(shù)據(jù)挖掘技術(shù)進行分析,得出正確結(jié)論。通過數(shù)據(jù)挖掘,可以了解現(xiàn)有客戶的需求,分析客戶流失的原因和滿意的原因來檢討營銷策略,并制定新的策略來提高客戶滿意水平和客戶忠誠度,同時數(shù)據(jù)挖掘還可以剖析現(xiàn)有的目標市場和不滿意客戶的構(gòu)成,制定新的營銷策略來吸引客戶。根據(jù)上述工作過程,我們可以將CRM系統(tǒng)框架表示如圖1所示。

總之,數(shù)據(jù)挖掘是實施客戶關(guān)系管理、制定營銷策略的核心工具,營銷策略是提高客戶滿意水平的手段,滿意水平提高帶動客戶忠誠度進而客戶關(guān)系價值增加,最終提高盈利能力。

參考文獻:

[1] 毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2007.

[2] 吳亮.基于數(shù)據(jù)挖掘技術(shù)的客戶價值管理[D].貴州:貴州大學,2006.

[3] 魏娟,梁靜國.基于數(shù)據(jù)挖掘技術(shù)的企業(yè)客戶關(guān)系管理(CRM)[J].商業(yè)研究,2005(7):14-18.

篇13

數(shù)據(jù)挖掘又稱為知識發(fā)現(xiàn)、商業(yè)智能,是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又潛在有用信息和知識的過程,這些知識具有新穎性、可用性和可理解性。[1]挖掘的任務(wù)有六種:分類、預測、關(guān)聯(lián)分析、序列分析、聚類分析和偏差分析。數(shù)據(jù)挖掘使用的方法包括:歸納學習、集合論方法、統(tǒng)計方法、仿生物計算(神經(jīng)網(wǎng)絡(luò)、遺傳算法、免疫算法)等。

在電子政務(wù)中數(shù)據(jù)挖掘的常用方法主要有決策樹方法、統(tǒng)計的方法、歸納法、神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、粗糙集方法、人工智能、模糊集方法等。[2]電子政務(wù)中的數(shù)據(jù)挖掘是指為政府各種業(yè)務(wù)活動、工作、決策尋找知識,一般電子政務(wù)中數(shù)據(jù)挖掘的過程應(yīng)該包括數(shù)據(jù)準備、挖掘處理、知識表達與解釋三個階段。

根據(jù)數(shù)據(jù)挖掘過程的幾個階段,一般數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括數(shù)據(jù)載體、服務(wù)器、數(shù)據(jù)挖掘引擎、知識庫、模式評估模塊、用戶界面等幾個主要組成部分。[3]圖1是一個典型的數(shù)據(jù)挖掘系統(tǒng)模型。從整體上看,一般數(shù)據(jù)挖掘的框架可以應(yīng)用于電子政務(wù)數(shù)據(jù)挖掘,但是,必須根據(jù)挖掘目的需要對具體方面進行細化,針對電子政務(wù)中數(shù)據(jù)的特點,添加相應(yīng)的模塊。[4]圖2是一個面向電子政務(wù)數(shù)據(jù)挖掘系統(tǒng)的基本框架,整個系統(tǒng)將用戶界面、數(shù)據(jù)預處理模塊、數(shù)據(jù)挖掘模塊、數(shù)據(jù)庫和外部文件緊密地結(jié)合在一起,構(gòu)成了一個層次結(jié)構(gòu)。

二、數(shù)據(jù)挖掘技術(shù)在電子政務(wù)中的應(yīng)用體現(xiàn)

(一)實現(xiàn)電子政務(wù)中典型空間信息的自動提取

數(shù)據(jù)挖掘可以實現(xiàn)電子政務(wù)中典型空間信息的自動提取。對幾個待選地點的遙感圖像進行典型信啟、自動提取,分析各個地點的地形地貌等特點,找出最合適的建筑地點。[5]可以對數(shù)字城市中的各種資源分布進行狀態(tài)分析,為城市各種資源在空間上的優(yōu)化配置、在時間上的合理利用,宏觀、全局地制定城市規(guī)劃和發(fā)展戰(zhàn)略,減少資源浪費,為實現(xiàn)可持續(xù)發(fā)展提供科學決策的依據(jù)。

(二)降低成本、減少財政支出

電子政務(wù)系統(tǒng)的建設(shè)帶來的直接的經(jīng)濟效益,就是打破了各級政府之間文件傳遞的繁瑣性,用最快捷的電子方式在政府上下級之間傳遞信息,這不僅降低了政府辦公用品及相關(guān)開銷,而且無形中也減少了大量的額外開支。 通過數(shù)據(jù)挖掘可以了解各個部門的費用開支狀況,并提供可行的減少開支的方案。

(三)分析和決策的需求

數(shù)據(jù)挖掘是電子政務(wù)輔助決策系統(tǒng)的重要技術(shù)手段。電子政務(wù)數(shù)據(jù)挖掘?qū)φ?wù)系統(tǒng)中的海量數(shù)據(jù)進行開采、挖掘和分析,從中識別和抽取隱含的信息,并利用這些信息為政府部門重大政策、法規(guī)的制定提供決策依據(jù)。例如在輔助決策系統(tǒng)中通過對各種經(jīng)濟資源的挖掘確定未來經(jīng)濟的走勢,從而制定出相應(yīng)的經(jīng)濟策略。

(四)實時有效信息的需求

政府部門要充分發(fā)揮政府的職能,進行有效地監(jiān)控和管理,同時為了增強民眾和政府之間溝通的時效性,及時掌握有效的信息,就必須建立一個可以有效的收集、監(jiān)測和分析所獲得的大量數(shù)據(jù)的系統(tǒng)。

(五)政府的電子貿(mào)易

為了發(fā)現(xiàn)政務(wù)系統(tǒng)中用戶的訪問模式及行為模式,可以利用數(shù)據(jù)挖掘技術(shù)對系統(tǒng)服務(wù)器以及瀏覽器上日志記錄中的數(shù)據(jù)進行挖掘操作,從中發(fā)現(xiàn)信息并對其進行預測分析。[6]例如,通過對用戶對某些信息資源瀏覽所花費的時間進行挖掘,可以判斷出用戶對哪些信息資源感興趣,從而進行個性化服務(wù)。

(六)優(yōu)化網(wǎng)站設(shè)計

數(shù)據(jù)挖掘可以優(yōu)化政府網(wǎng)站設(shè)計。通過對網(wǎng)站內(nèi)容的挖掘,可以有效組織網(wǎng)站信息,把握用戶興趣,吸引更多的用戶。為了有效地組織政府網(wǎng)站信息,可以通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘操作。例如,可以利用聚類技術(shù)對網(wǎng)站文本的內(nèi)容進行自動劃分類別,從而實現(xiàn)網(wǎng)站信息的層次性組織和便于文本內(nèi)容的分類瀏覽與檢索。

(七)提高對各種突發(fā)事件的快速響應(yīng)能力

數(shù)據(jù)挖掘可以提高政府對各種突發(fā)事件的快速響應(yīng)能力。利用數(shù)據(jù)挖掘工具,對歷史記載來的突發(fā)事件進行挖掘,從中提取、總結(jié)、升華相關(guān)經(jīng)驗教訓,得到今后應(yīng)對突發(fā)事件的各種知識,制定出有效高效的措施,提高政府的快速響應(yīng)能力。

三、總結(jié)

數(shù)據(jù)挖掘是電子政務(wù)一項重要的應(yīng)用技術(shù)和支持技術(shù),可以為各級政府的決策提供科學的依據(jù),提高各項政策制訂的科學性和合理性。在工作過程中,政府部門建立了龐大的信息收集系統(tǒng)并積累了大量政務(wù)數(shù)據(jù),這些政務(wù)數(shù)據(jù)的開發(fā)利用對于政府科學決策非常重要。電子政務(wù)數(shù)據(jù)挖掘能夠有效地對政府部門海量的數(shù)據(jù)資源進行整合和利用,打破了政府部門之間對公共信息資源的壟斷和封閉,加大了政府機構(gòu)之間、政府與企業(yè)、政府與公眾之間信息資源的共享和利用。今后應(yīng)注重于面向電子政務(wù)的研究,重點研究實用的數(shù)據(jù)挖掘算法,開發(fā)業(yè)務(wù)型數(shù)據(jù)挖掘平臺和工具,實現(xiàn)其與電子政務(wù)系統(tǒng)的集成,促進電子政務(wù)向智能化分析的發(fā)展。

參考文獻: