引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘技術(shù)論文范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。
篇1
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實驗計劃進行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進行。
(一)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數(shù)據(jù)載入
點擊Explorer進入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進行移除,只將學(xué)歷、職稱、論文等級、學(xué)術(shù)著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關(guān)聯(lián)挖掘與結(jié)果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項中選擇lift選項,將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。
三、挖掘結(jié)果與應(yīng)用
以上是針對教師基本情況和科研各項總分進行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進行匯總。以下列出了幾項作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。
1、科研立項得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應(yīng)該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動整個學(xué)??蒲泄ぷ鞯倪M展。
篇2
一、客戶關(guān)系管理(CRM)
CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實現(xiàn)提高客戶獲取、客戶保留、客戶忠誠和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時能提高員工的生產(chǎn)能力。
二、數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘(DataMining,簡稱DM),簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識。例如,某商場通過關(guān)聯(lián)分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發(fā)現(xiàn)數(shù)據(jù)庫中不同商品的聯(lián)系,進而反映客戶的購買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發(fā)現(xiàn)客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對給定用戶進行信用風(fēng)險分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對象之間所存在的有價值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5)孤立點分析。孤立點是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點分析發(fā)現(xiàn)電話盜用等。
三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
1.進行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進行客戶分類,針對不同類別的客戶,提供個性化的服務(wù)來提高客戶的滿意度,提高現(xiàn)有客戶的價值。細致而可行的客戶分類對企業(yè)的經(jīng)營策略有很大益處。例如,保險公司在長期的保險服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對客戶的服務(wù)歷史、對客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計學(xué)資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險理念,提供有針對性的服務(wù),提高保險公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。
2.進行客戶識別和保留
(1)在CRM中,首先應(yīng)識別潛在客戶,然后將他們轉(zhuǎn)化為客戶
這時可以采用DM中的分類方法。首先是通過對數(shù)據(jù)庫中各數(shù)據(jù)進行分析,從而建立一個描述已知數(shù)據(jù)集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測類別做比較,如果一個學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫,給潛在顧客發(fā)送用于促銷的新書宣傳冊。該數(shù)據(jù)庫內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購習(xí)慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊。
(2)在客戶保留中的應(yīng)用
客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對企業(yè)來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識,沒有實際的技能,在就業(yè)市場上找工作很難。針對這種情況,學(xué)校應(yīng)果斷的抽取資金,購買先進的、有針對性的實驗實訓(xùn)設(shè)備,同時修改教學(xué)計劃,加大實驗實訓(xùn)課時和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。
(3)對客戶忠誠度進行分析
客戶的忠誠意味著客戶不斷地購買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩(wěn)定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標(biāo)對數(shù)據(jù)進行分析,可以預(yù)測出顧客忠誠度的變化,據(jù)此對價格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
(4)對客戶盈利能力分析和預(yù)測
對于一個企業(yè)而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業(yè)而言,其價值是不同的。研究表明,一個企業(yè)的80%的利潤是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價值的優(yōu)質(zhì)客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進而改進客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測不同市場活動情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場策略。商業(yè)銀行一般會利用數(shù)據(jù)挖掘技術(shù)對客戶的資料進行分析,找出對提高企業(yè)盈利能力最重要的客戶,進而進行針對性的服務(wù)和營銷。
(5)交叉銷售和增量銷售
交叉銷售是促使客戶購買尚未使用的產(chǎn)品和服務(wù)的營銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級的銷售活動,目的在于增強企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測性模型來預(yù)測什么時間會發(fā)生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經(jīng)購買某險種的客戶推薦其它保險產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。
四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟
1.需求分析
只有確定需求,才有分析和預(yù)測的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實施過程也是圍繞著這個目標(biāo)進行的。在確定用戶的需求后,應(yīng)該明確所要解決的問題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測,還是其他應(yīng)用。應(yīng)對現(xiàn)有資源如已有的歷史數(shù)據(jù)進行評估,確定是否能夠通過數(shù)據(jù)挖掘技術(shù)來解決用戶的需求,然后將進一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計劃。
2.建立數(shù)據(jù)庫
這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進行數(shù)據(jù)收集和集成,其次,要對數(shù)據(jù)進行描述和整合。數(shù)據(jù)主要有四個方面的來源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉庫,并通過OLAP和報表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫用戶。
3.選擇合適的數(shù)據(jù)挖掘工具
如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測,關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。
4.建立模型
建立模型是選擇合適的方法和算法對數(shù)據(jù)進行分析,得到一個數(shù)據(jù)挖掘模型的過程。一個好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對未來的數(shù)據(jù)應(yīng)有較好的預(yù)測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或?qū)ο髿w類。回歸是通過具有已知值的變量來預(yù)測其它變量的值。時間序列是用變量過去的值來預(yù)測未來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個反復(fù)進行的過程,它需要不斷地改進或更換算法以尋找對目標(biāo)分析作用最明顯的模型,最后得到一個最合理、最適用的模型。
5.模型評估
為了驗證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對模型進行評估。我們可以將數(shù)據(jù)中的一部分用于模型評估,來測試模型的準(zhǔn)確性,模型是否容易被理解模型的運行速度、輸入結(jié)果的速度、實現(xiàn)代價、復(fù)雜度等。模型的建立和檢驗是一個反復(fù)的過程,通過這個階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。
6.部署和應(yīng)用
將數(shù)據(jù)挖掘的知識歸檔和報告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識采取必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。
參考文獻:
[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國經(jīng)濟出版社,2002
[2]馬剛:客戶關(guān)系管理[M]大連:東北財經(jīng)大學(xué)出版社,2008
[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)
篇3
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標(biāo)的特征向量,并計算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點的網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對感興趣的內(nèi)容進行定制,構(gòu)造數(shù)據(jù)挖掘的先驗知識,然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個性化服務(wù)頁面,并提供用戶對站內(nèi)信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個性化服務(wù)。
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠?qū)π畔⑦M行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網(wǎng)絡(luò)信息資源的一種浪費。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進一步進行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對數(shù)字圖書關(guān)注中的信息進行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對信息資源采集的改進,讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計劃。通過Web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質(zhì)、服務(wù)對象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應(yīng)該購進的文獻沒有買,不應(yīng)該買的文獻卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報告和預(yù)測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應(yīng)該及時的進行補充,哪些文獻應(yīng)該進行剔除,對館藏機構(gòu)進行優(yōu)化,真正的為高校里的師生提供所需要的文獻和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個性化服務(wù)
篇4
通常,數(shù)據(jù)挖掘過程包括4個步驟,即選擇數(shù)據(jù)、預(yù)處理、實施挖掘以及吸收數(shù)據(jù)。數(shù)據(jù)挖掘整個過程具有交互性,有時數(shù)據(jù)需要重新選擇,有時也要對數(shù)據(jù)預(yù)處理進行改進,也可能出現(xiàn)算法反復(fù)被調(diào)整現(xiàn)象,基于這種特征,數(shù)據(jù)挖掘時要設(shè)置反饋環(huán)。挖掘數(shù)據(jù)第1步是將管理和目標(biāo)反映到1個(或多個)挖掘任務(wù)中,整個過程可主要劃分成為六種:1)評估、預(yù)測。評估包括對軟件產(chǎn)品、過程以及資源的屬性進行相應(yīng)檢查就是整個評估過程,同時也需要根據(jù)這些屬性,賦值給未知屬性,當(dāng)然這些未知屬性需要進行量化。評估工作完成后,要對屬性值進行預(yù)測。2)分類。檢查1個特定實體屬性,根據(jù)結(jié)果將其劃分到另1個類別或范疇(事先定義好)中。3)關(guān)聯(lián)發(fā)現(xiàn)。關(guān)聯(lián)發(fā)現(xiàn)能夠識別出特定內(nèi)容中互相存在關(guān)聯(lián)某些屬性。如,可將找出在軟件開發(fā)屬性和產(chǎn)品屬性相互關(guān)聯(lián)的內(nèi)容找出來。4)聚類。將1個結(jié)構(gòu)不相同的群體劃分到另1個具有相同結(jié)構(gòu)的子群集合中,這個過程叫做聚類,它的劃分依據(jù)是成員之間具有高度相似性。5)數(shù)據(jù)可視化。數(shù)據(jù)可視化是利用可視化描述方法來定義復(fù)雜信息。6)可視數(shù)據(jù)探察。可視化數(shù)據(jù)探察是對描述工作的相應(yīng)拓展,可利用數(shù)據(jù)可視化交互控制來分析和檢視海量數(shù)據(jù)[3]。它應(yīng)用具有可視化功能和數(shù)據(jù)挖掘技術(shù)來對數(shù)據(jù)進行處理。
3挖掘技術(shù)在軟件工程中應(yīng)用
上文提及到軟件工程度量,部分可利用信息已在海量數(shù)據(jù)中被提取出來,但普遍認為更為有效且數(shù)量眾多的數(shù)據(jù)依然在軟件工程相關(guān)數(shù)據(jù)庫中隱藏,而沒有被發(fā)現(xiàn)。實際上,數(shù)據(jù)挖掘就是1種被公認為提升軟件工程度量的技術(shù)。圖1為數(shù)據(jù)挖掘在軟件工程中的應(yīng)用。
3.1數(shù)據(jù)挖掘繁榮原因1)計算機硬件系統(tǒng)和軟件系統(tǒng)的基礎(chǔ)設(shè)施建立具備發(fā)現(xiàn)驅(qū)動、分析數(shù)據(jù)等功能;2)每種技術(shù)都在實際應(yīng)用中不斷得到改進,其使用能力不斷提升。如,模式識別、神經(jīng)網(wǎng)絡(luò)等有明顯進步趨勢;3)數(shù)據(jù)存儲、貯藏、集成成本不高,海量數(shù)據(jù)可輕松獲得。數(shù)據(jù)挖掘技術(shù)被人們認識,并在實踐中逐漸被重視,同時也給研究和進一步提高數(shù)據(jù)挖掘技術(shù)提供了便利條件。
3.2面臨挑戰(zhàn)軟件工程自身存在很多數(shù)據(jù)上的特殊性,給數(shù)據(jù)挖掘領(lǐng)域研究工作帶來制約和影響,主要表現(xiàn)在以下三個方面:1)數(shù)據(jù)復(fù)雜。軟件工程數(shù)據(jù)主要分為兩個組成部分,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括缺陷報告、版本信息等內(nèi)容,而非結(jié)構(gòu)化數(shù)據(jù)則包含數(shù)據(jù)代碼、相應(yīng)注釋以及文檔等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并不能同時適用一種算法,而且兩種數(shù)據(jù)間還存在對應(yīng)聯(lián)系。如,1個缺陷報告中往往包括缺陷代碼段。而結(jié)構(gòu)化數(shù)據(jù)里常常涵蓋部分非結(jié)構(gòu)化信息,非結(jié)構(gòu)化數(shù)據(jù)中亦是如此,這也是今后工作中需要重點解決的問題之一。2)非傳統(tǒng)分析存在局限。數(shù)據(jù)挖掘最終想實現(xiàn)的目標(biāo)就是將轉(zhuǎn)化而來的信息傳達給用戶,實現(xiàn)信息共享。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在使用過程中,信息手段比較單一,如文字、圖表等表達形式。其實,軟件開發(fā)商對信息的要求很高,1個統(tǒng)計結(jié)果根本不能滿足其工作需求。為促進軟件開發(fā)不斷向上發(fā)展,開發(fā)人員需要相關(guān)信息作為參考依據(jù),包括開發(fā)實際案例、編程所需模板、系統(tǒng)缺陷定位以及軟件結(jié)構(gòu)設(shè)計等。研究數(shù)據(jù)挖掘技術(shù),提升其實際使用功能,需要不斷提交新信息、新知識,并改進相應(yīng)手方法。3)挖掘結(jié)果評價標(biāo)準(zhǔn)不夠具體。軟件工程數(shù)據(jù)挖掘尚未形成完善的結(jié)果表示體系,其評價體系也有待加強。人員在軟件開發(fā)過程中需要大量信心,這些信息非常具體且復(fù)雜,表示方法不盡相同,互相之間難以做出對比,也很難用定量方法去分析挖掘結(jié)果。
篇5
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標(biāo)的特征向量,并計算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態(tài)的web頁面,最后再獲取這些被訪問站點的網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,然后生成www資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠?qū)π畔⑦M行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網(wǎng)絡(luò)信息資源的一種浪費。而通過web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進一步進行處理,得到更為有用和精確的信息。通過web數(shù)據(jù)挖掘技術(shù)科研對數(shù)字圖書關(guān)注中的信息進行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對信息資源采集的改進,讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計劃。通過web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質(zhì)、服務(wù)對象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應(yīng)該購進的文獻沒有買,不應(yīng)該買的文獻卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報告和預(yù)測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應(yīng)該及時的進行補充,哪些文獻應(yīng)該進行剔除,對館藏機構(gòu)進行優(yōu)化,真正的為高校里的師生提供所需要的文獻和資料。
4、使用web數(shù)據(jù)挖掘技術(shù)提供個性化服務(wù)
篇6
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識發(fā)現(xiàn)領(lǐng)域的一個重要技術(shù),它是指一個從隨機的大量而不完整的模糊的實際數(shù)據(jù)中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測分析等等,涉及到的高級技術(shù)領(lǐng)域有統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、人工智能等方面。
2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問題和時代的挑戰(zhàn),同時,也為數(shù)據(jù)挖掘提供了新的計算平臺和發(fā)展機遇?;谠朴嬎愕臄?shù)據(jù)挖掘系統(tǒng)平臺的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業(yè)計算模式,是網(wǎng)格計算與并行計算及分布式計算在一定程度上的商業(yè)實現(xiàn),其動態(tài)、可伸縮的計算基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計算是一種在互聯(lián)網(wǎng)時代中應(yīng)運而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動態(tài)處理的特點,在社會的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價值。將云計算應(yīng)用于數(shù)據(jù)挖掘平臺的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會中越來越海量的數(shù)據(jù)挖掘提供一個高效率的技術(shù)平臺。本文將結(jié)合云計算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對數(shù)據(jù)挖掘的平臺構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡要的分析探討。摘要能力使得進行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠。同時,云計算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢。
2.1數(shù)據(jù)挖掘平臺構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會的數(shù)據(jù)處理問題。而云計算的分布式存儲與計算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時代的云計算數(shù)據(jù)挖掘平臺構(gòu)架的形成。其包含了面向組件的設(shè)計理念和分層設(shè)計的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數(shù)據(jù)挖掘平臺的基礎(chǔ)處理平臺,其主要具有的功能是對分布式文件存儲與數(shù)據(jù)庫提供資源存儲,以及實行對數(shù)據(jù)的有關(guān)處理和計算功能。數(shù)據(jù)挖掘能力層:該平臺結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺,并對數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫,亦支持第三方的數(shù)據(jù)挖掘算法工具的進入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對外提供數(shù)據(jù)挖掘操作的云服務(wù),同時也能提供基于結(jié)構(gòu)化查詢的語言語句訪問,提供相關(guān)的解析引擎,以便于自動調(diào)用云服務(wù)。對外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡單對象訪問協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時候,云服務(wù)層的各個業(yè)務(wù)系統(tǒng)可以進行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的關(guān)鍵技術(shù)探討
基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的形成,離不開現(xiàn)代先進的科技技術(shù),其中幾項關(guān)鍵的技術(shù)應(yīng)用將在這里進行簡要的闡述:
3.1云計算技術(shù)
3.1.1分布式儲存技術(shù)
通過采用分布式存儲的方式來存儲數(shù)據(jù),是云計算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟性的重要保證。用可靠的軟件來彌補硬件的不足,是分布式存儲技術(shù)提供廉價而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計算的環(huán)境下,數(shù)據(jù)挖掘能實現(xiàn)對大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運行戰(zhàn)略。云計算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來源數(shù)據(jù)進行IT資源匯合,動態(tài)地實現(xiàn)對用戶的虛擬化資源的供給,從而以高效率、海量動態(tài)的特點完成服務(wù)任務(wù)。
3.1.3并行云計算技術(shù)
并行云計算技術(shù)是一種對于高效執(zhí)行數(shù)據(jù)挖掘計算任務(wù)極其重要的技術(shù),并且它對云計算的某些技術(shù)細節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯和系統(tǒng)容錯以及數(shù)據(jù)分布等。該功能代替了用戶對這些細節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對不同類型的數(shù)據(jù)進行匯集。它實現(xiàn)了對接入該云計算數(shù)據(jù)挖掘平臺的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對于基于云計算的數(shù)據(jù)挖掘平臺,為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計算平臺,必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務(wù)。服務(wù)管理功能要實現(xiàn)統(tǒng)一的服務(wù)注冊與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地擴展平臺的服務(wù)能力。
篇7
大數(shù)據(jù)是指數(shù)據(jù)量很大(一般是TB到PB數(shù)量級)的巨量資料,無法通過主流軟件工具,在合理時間內(nèi)完成數(shù)據(jù)處理并獲取有價值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)具有4V特點:Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對比。
3數(shù)據(jù)挖據(jù)流程和模型選取
3.1數(shù)據(jù)挖掘的主要流程
數(shù)據(jù)挖掘主要包括以下6大步驟。
(1)商業(yè)理解:確定挖掘目標(biāo)以及產(chǎn)生一個項目計劃。
(2)數(shù)據(jù)理解:知曉有哪些數(shù)據(jù),以及數(shù)據(jù)的特征是什么。
(3)數(shù)據(jù)準(zhǔn)備:對數(shù)據(jù)作出轉(zhuǎn)換、清洗、選擇、合并等工作。
(4)建模:根據(jù)挖掘目標(biāo)確定適合的模型,建模并對模型進行評估。
(5)模型評估:評估建模效果,對效果較差的結(jié)果我們需要分析原因。
(6)結(jié)果部署:用所建挖掘模型去解決實際問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。
3.2垃圾短信治理指標(biāo)體系設(shè)計
垃圾短信用戶識別建模數(shù)據(jù)主要從信令監(jiān)測系統(tǒng)、經(jīng)營分析系統(tǒng)獲取,所獲取的用戶行為數(shù)據(jù)主要包括用戶通信行為信息、用戶基礎(chǔ)業(yè)務(wù)屬性、用戶通信業(yè)務(wù)信息等7個維度。其中,用戶通信行為信息包括活動軌跡、終端IMEI和數(shù)據(jù)業(yè)務(wù)訪問等信息。
3.3模型的選取
對白名單用戶的識別可以利用社交網(wǎng)絡(luò)模型與業(yè)務(wù)規(guī)則相結(jié)合的方法。利用社交網(wǎng)絡(luò)進行白名單用戶識別,重點考慮用戶之間發(fā)生的通信行為、增值業(yè)務(wù)交互行為等群體行為,通過對用戶之間關(guān)系的辨識。本文建模的重點著眼于垃圾短信用戶的識別及其治理。
3.3.1現(xiàn)有垃圾短信識別模型的優(yōu)勢與不足
識別垃圾短信用戶是數(shù)據(jù)挖掘中的分類問題,數(shù)據(jù)挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)等算法。其中,神經(jīng)網(wǎng)絡(luò)因本身算法的復(fù)雜性,造成模型結(jié)果解釋性較差,模型落地較困難而很少在實際項目中使用。目前識別垃圾短信的數(shù)據(jù)挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優(yōu)勢:模型非常直觀,容易讓人理解和應(yīng)用;決策樹搭建和應(yīng)用的速度比較快;決策樹對于數(shù)據(jù)分布沒有嚴(yán)格要求;受缺失值和極端值對模型的影響很小。但是,使用決策樹作為垃圾短信用戶識別模型主要存在以下不足。
(1)決策樹最大缺點是其原理中的貪心算法。貪心算法總是做出在當(dāng)前看來最好的選擇,卻不從整體上思考最優(yōu)的劃分,因此,它所做的選擇只能是某種意義上的局部最優(yōu)選擇。
(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標(biāo)和評價方法。
(3)容易出現(xiàn)過擬合。當(dāng)某些自變量的類別數(shù)量比較多,或者自變量是區(qū)間型時,決策樹過擬合的危險性會增加。
(4)決策樹算法對區(qū)間型自變量進行分箱操作時,無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當(dāng)分箱前的區(qū)間變量與目標(biāo)變量有明顯的線性關(guān)系時,這種分箱操作造成的信息損失更為明顯。
相比于數(shù)據(jù)挖掘建模常用的其它算法如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機等,邏輯回歸技術(shù)是最成熟,得到廣泛應(yīng)用,邏輯回歸模型主要存在以下不足。
(1)變量之間的多重共線性會對模型造成影響。
(2)應(yīng)刪除異常值,否則它會給模型帶來很大干擾。
(3)邏輯回歸模型本身不能處理缺失值,所以應(yīng)用邏輯回歸算法時,要注意針對缺失值進行適當(dāng)處理,或者賦值,或者替換,或者刪除。
3.3.2垃圾短信識別預(yù)測模型選取
鑒于目前研究者對垃圾短信識別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進行改進,力求得到更加科學(xué)合理的垃圾短信識別預(yù)測模型。本文使用的數(shù)據(jù)挖掘模型為隨機森林模型。
3.3.2.1模型簡介
隨機森林(RandomForest)算法是一種專門為決策樹分類器設(shè)計的優(yōu)化方法。它綜合了多棵決策樹模型的預(yù)測結(jié)果,其中的每棵樹都是基于隨機樣本的一個獨立集合的值產(chǎn)生的。隨機森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產(chǎn)生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時候沒有進行更多的干預(yù)。而隨機森林也是進行許多次自助法放回抽樣,所得到的樣本數(shù)目及由此建立的決策樹數(shù)量要大大多于Bagging的樣本數(shù)目。隨機森林與Bagging的關(guān)鍵區(qū)別在于,在生成每棵樹的時候,每個節(jié)點變量都僅僅在隨機選出的少數(shù)變量中產(chǎn)生。因此,不但樣本是隨機的,就連每個節(jié)點變量產(chǎn)生都有相當(dāng)大的隨機性。隨機森林讓每棵樹盡可能生長,而不進行修剪。隨機森林算法主要包括決策樹的生長和投票過程。隨機森林中單棵樹的生長可概括為以下幾步。
(1)使用Bagging方法形成個別的訓(xùn)練集:假設(shè)原始訓(xùn)練集中的樣本數(shù)為N,從中有放回地隨機選取N個樣本形成一個新的訓(xùn)練集,以此生成一棵分類樹。
(2)隨機選擇特征(指評估指標(biāo),以下同)對分類樹的節(jié)點進行分裂:假設(shè)共有M個特征,指定一個正整數(shù)m<M,在每個內(nèi)部節(jié)點,從M個特征中隨機抽取m個特征作為候選特征,選擇這m個特征上最好的分裂方式對節(jié)點進行分裂。在整個森林的生長過程中,m的值保持不變。
(3)每棵樹任其生長,不進行剪枝。Bagging方法形成新的訓(xùn)練集和隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關(guān)性;單棵樹不剪枝能得到低偏差的分類樹,同時保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數(shù)據(jù)的分類準(zhǔn)確率。
3.3.2.2隨機森林分類預(yù)測模型的主要優(yōu)勢
(1)隨機森林的預(yù)測精度高,它可以產(chǎn)生高準(zhǔn)確度的分類器。
(2)可以處理相當(dāng)多的輸入變量。隨機森林不懼怕很大的維數(shù),即使有數(shù)千個變量,也不必刪除,它也會給出分類中各個變量的重要性。
(3)當(dāng)在構(gòu)建隨機森林模型時候,對GenerlizationError估計是無偏估計。
(4)隨機森林在設(shè)計上具有很快訓(xùn)練速度,訓(xùn)練出結(jié)果模型不必花費大量時間。
(5)對缺失值和極端值具有很強容忍能力,即使有較多缺失數(shù)據(jù)仍可以維持準(zhǔn)確度。
(6)當(dāng)遇到分類數(shù)據(jù)不平衡時,可以較好地平衡誤差。
(7)隨機森林算法并不會導(dǎo)致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關(guān)度的均值,則隨機森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當(dāng)隨機森林有相當(dāng)多的分類樹時,隨機森林的泛化誤差幾乎處處收斂于一個有限值。因此,隨著森林中分類樹數(shù)目的增長,隨機森林算法并不會導(dǎo)致過擬合。
(8)隨機森林在模型訓(xùn)練過程中,能夠?qū)μ卣髦g的相互影響行為做出檢測。隨機森林算法具有以上優(yōu)勢,在垃圾短信治理預(yù)測中具有應(yīng)用的優(yōu)勢,本文采用隨機森林模型作為垃圾短信用戶的分類預(yù)測。綜上所述,隨機森林模型主要在不會出現(xiàn)過擬合、訓(xùn)練精度高、能處理大量輸入變量并輸出變量重要性3個方面優(yōu)越于決策樹模型;在容忍缺失值和極端值方面明顯優(yōu)越于邏輯回歸模型。隨機森林模型在算法設(shè)計上有效彌補了決策樹和邏輯回歸模型的不足之處,在垃圾短信識別分類預(yù)測中具有較好的應(yīng)用價值。
3.3.2.3垃圾短信數(shù)據(jù)挖掘模型構(gòu)建
通過前述的商業(yè)理解確定了垃圾短信識別業(yè)務(wù)需求,并進行數(shù)據(jù)理解構(gòu)建了垃圾短信識別指標(biāo)體系,再抽取需要的數(shù)據(jù),并進行數(shù)據(jù)清洗、轉(zhuǎn)換、衍生變量計算等步驟,具備了建模的目標(biāo)數(shù)據(jù),接下來的任務(wù)就是通過隨機森林模型構(gòu)建垃圾短信分類預(yù)測模型,對垃圾短信用戶進行識別。
3.4用戶分類治理策略
通過隨機森林模型的識別,根據(jù)用戶是垃圾短信發(fā)送者的可能性評估,制定不同的治理策略,如圖3所示。實際的執(zhí)行過程中,需要根據(jù)清單的范圍大小,適當(dāng)?shù)恼{(diào)整預(yù)測概率門限,以保證策略執(zhí)行的效果,同時避免過多的正常用戶的業(yè)務(wù)感知受到影響。
4垃圾短信治理平臺的實現(xiàn)
4.1系統(tǒng)架構(gòu)
垃圾短信治理平臺的數(shù)據(jù)來源較多,需要處理的數(shù)據(jù)量也非常大,因此,數(shù)據(jù)采集和數(shù)據(jù)處理過程是相互影響的過程。垃圾短信治理平臺的系統(tǒng)架構(gòu)圖如圖4所示。
(1)數(shù)據(jù)采集層:是垃圾短信治理平臺與多個數(shù)據(jù)庫來源的安全訪問接口,通過數(shù)據(jù)采集層實現(xiàn)數(shù)據(jù)挖掘和分析所需要的基礎(chǔ)信息:用戶屬性信息、用戶卡號信息、用戶業(yè)務(wù)記錄、用戶的位置信息和消費記錄。
(2)數(shù)據(jù)處理層:需要根據(jù)數(shù)據(jù)挖掘的需求,將采集的基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)服務(wù)層可以使用的數(shù)據(jù),通過對基礎(chǔ)數(shù)據(jù)進行整形、清洗和預(yù)處理,為后續(xù)的數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。
(3)業(yè)務(wù)服務(wù)層:主要包括應(yīng)用和安全服務(wù)兩個部分,應(yīng)用包括數(shù)據(jù)查詢統(tǒng)計服務(wù)、用戶查詢服務(wù)和GIS應(yīng)用服務(wù),同時,補充報表服務(wù)和文件管理服務(wù)以方便日常的工作。通過外部接口服務(wù),可以部署相應(yīng)的權(quán)限管理、數(shù)據(jù)管理維護以及注冊服務(wù)等,降低系統(tǒng)的風(fēng)險,保證信息的安全傳遞。
(4)功能模塊:主要是根據(jù)客戶需求,定制開發(fā)的功能單元,功能模塊的個數(shù)以實際部署的情況為準(zhǔn)。以圖4垃圾短信治理平臺的系統(tǒng)架構(gòu)圖某省公司的定制模塊為例,主要包括指標(biāo)查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應(yīng)用模塊4個部分。
4.2效果展現(xiàn)
針對不同的部門或用戶,垃圾短信治理平臺展現(xiàn)不同的數(shù)據(jù),主要包括以下的結(jié)果展現(xiàn)方式。
(1)治理效果掌控:通過指標(biāo)查詢系統(tǒng),及時掌握垃圾短信的治理效果,發(fā)現(xiàn)工作的成果和風(fēng)險,達到及時發(fā)現(xiàn)問題并快速響應(yīng)的目的。
(2)治理效率提升:通過垃圾短信治理模塊,快速準(zhǔn)確識別垃圾短信源頭并定位區(qū)域,下發(fā)至地市公司快速處理,減小垃圾短信帶來的不良社會影響。
(3)實現(xiàn)預(yù)先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風(fēng)險終端進行監(jiān)控、通過外呼、資費信息等情況,提前發(fā)現(xiàn)和治理潛在垃圾短信源。
篇8
2.1采集有效數(shù)據(jù)
數(shù)據(jù)采集是動態(tài)取證重要的環(huán)節(jié)之一,只有做好數(shù)據(jù)采集工作,才能保證取證的質(zhì)量以及完整性,在當(dāng)前網(wǎng)絡(luò)患者下,為了保證數(shù)據(jù)庫中數(shù)據(jù)的充足性,需要提高數(shù)據(jù)采集的效率。在網(wǎng)絡(luò)數(shù)據(jù)獲取時,需要注意三點內(nèi)容,首先,要保證數(shù)據(jù)的完整性,在采集的過程中,不能對數(shù)據(jù)進行修改或者破壞;其次,數(shù)據(jù)采集系統(tǒng)不能受到網(wǎng)絡(luò)流量的影響;最后,數(shù)據(jù)采集獲取的過程中,要具有較高的透明度,要保證被檢測的網(wǎng)絡(luò)不會受到外界因素的影響。
2.2數(shù)據(jù)存儲
動態(tài)取證技術(shù)是公安部門應(yīng)用比較多的技術(shù),與NIDS技術(shù)相比,其不但可以對特殊文字以及詞匯進行摘錄,還可以對數(shù)據(jù)進行完整性記錄,通過對數(shù)據(jù)模塊的分析,可以追查到相關(guān)內(nèi)容。利用動態(tài)取證技術(shù),可以將需要的報文完整的保存起來,還可以對網(wǎng)絡(luò)流量進行詳細的記錄,可以確保系統(tǒng)不會丟失文件,另外,當(dāng)系統(tǒng)遭到黑客的入侵或者破壞后,動態(tài)取證技術(shù)還可以進行實時恢復(fù),所以,這項技術(shù)具有一定防御以及反擊作用。在應(yīng)用動態(tài)取證技術(shù)時,需要保證系統(tǒng)存儲空間的容量。
2.3數(shù)據(jù)分析
數(shù)據(jù)分析是動態(tài)取證中一項關(guān)鍵的環(huán)節(jié),通過分析可以辨識不良入侵,是保證數(shù)據(jù)庫安全的有效措施。在網(wǎng)絡(luò)還原或者重建的過程中,利用數(shù)據(jù)分析技術(shù)還可以將損失降到最低。網(wǎng)絡(luò)數(shù)據(jù)分析有兩種方式,一種是基本分析,另一種是深入分析,如果取證問題比較簡單,則利用基本分析方法就可以解決,但是如果取證比較復(fù)雜,并且要求比較高,則必須進行深入數(shù)據(jù)分析。深入分析需要對重組網(wǎng)絡(luò)數(shù)據(jù)以及來源進行分析,還需要對數(shù)據(jù)間的關(guān)聯(lián)性進行分析,通過數(shù)據(jù)分析還可以還原與模擬網(wǎng)絡(luò)事件現(xiàn)場。動態(tài)取證技術(shù)也具有一定缺點,在取證的過程中存在漏報或者誤報的情況。
3數(shù)據(jù)挖掘技術(shù)在動態(tài)取證系統(tǒng)中的應(yīng)用
基于數(shù)據(jù)挖掘的計算機動態(tài)取證技術(shù),與傳統(tǒng)的動態(tài)取證技術(shù)相比,有著較大的優(yōu)勢,其可以對海量收集的數(shù)據(jù)進行實時取證分析,而且準(zhǔn)確性比較高,其具有關(guān)聯(lián)分析的特點,可以對與案件有關(guān)的信息或者電子證據(jù)進行快速的查找。這一過程需要利用數(shù)據(jù)分析模塊,在對數(shù)據(jù)進行分析時,需要對犯罪證據(jù)進行篩選,動態(tài)分析最大的優(yōu)點是可以對實時數(shù)據(jù)進行獲取,在黑客對原始數(shù)據(jù)進行篡改或者刪除時,這項技術(shù)可以對這些犯罪過程詳細的記錄下來?;跀?shù)據(jù)挖掘的動態(tài)取證技術(shù)具有高效性以及可擴展性,利用數(shù)據(jù)挖掘技術(shù),可以對海量的、不完全或者模糊的數(shù)據(jù)進行潛在價值的分析?;跀?shù)據(jù)挖掘的計算機動態(tài)取證技術(shù)主要有:
3.1關(guān)聯(lián)分析
關(guān)聯(lián)分析是基于數(shù)據(jù)挖掘的計算機動態(tài)取證技術(shù)一大特征,利用關(guān)聯(lián)規(guī)則,可以對相關(guān)數(shù)據(jù)進行深層挖掘,通過關(guān)聯(lián)分析可以掌握犯罪行為的關(guān)聯(lián)性特征,這些特征有些已經(jīng)經(jīng)過了預(yù)處理,所以,相關(guān)工作這需要做好審查以及審計工作,要通過相關(guān)規(guī)則對用戶犯罪特征以及規(guī)律進行總結(jié)。為了保證數(shù)據(jù)動態(tài)取證的安全性,需要在系統(tǒng)中設(shè)置加密軟件,還要將入侵信息反饋到檢測系統(tǒng)中,這樣可以提高數(shù)據(jù)分析的效率,還可以實現(xiàn)實時動態(tài)取證。
3.2分類分析
分類分析就是通過對分析示例數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)進行分析,準(zhǔn)確描述出每個類別的特征,建立分析模型,挖掘出分類的規(guī)則,將其它數(shù)據(jù)庫中的記錄傳送到分類規(guī)則中,在動態(tài)取證系統(tǒng)的數(shù)據(jù)采集模塊收集了用戶或程序足夠數(shù)據(jù)后,在取證的數(shù)據(jù)分析階段,應(yīng)用分類的相關(guān)規(guī)則來判斷用戶或程序是否非法。應(yīng)用分類樣品數(shù)據(jù)來訓(xùn)練數(shù)據(jù)分析器的學(xué)習(xí),還預(yù)測一些未知的數(shù)據(jù)是否具有犯罪證據(jù)。
篇9
挑選中國知網(wǎng)數(shù)據(jù)庫,以“知識管理”為主題關(guān)鍵詞進行精確檢索,共找到 31,324 篇文獻,其中 2004 年至2014 年間共發(fā)表文獻 24,895 篇,近十年是知識管理領(lǐng)域研究的高峰期。以“高校知識管理”或“大學(xué)知識管理”為主題關(guān)鍵字進行精確檢索,得到 248 篇相關(guān)文獻,可發(fā)現(xiàn)針對高校的知識管理研究較少。針對結(jié)果進行二次檢索,增加主題關(guān)鍵詞“數(shù)據(jù)挖掘”得到相關(guān)文獻 3 篇,表明對高校知識管理與數(shù)據(jù)挖掘技術(shù)結(jié)合的研究較少,所得文獻主要觀點包括:1.數(shù)據(jù)挖掘技術(shù)可用于高校知識發(fā)現(xiàn);2.數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)有推動作用;3. 高校知識管理成果可通過數(shù)據(jù)挖掘技術(shù)進行評價。對國外學(xué)者的研究情況進行分析,挑選 Web ofScience 數(shù)據(jù)庫。以“knowledge management”為主題關(guān)鍵字進行檢索,共得到 62,474 篇文獻,以“knowledgemanagement of college”為主題關(guān)鍵字檢索,得到 647篇文獻,再結(jié)合關(guān)鍵詞“Data mining”,共得到文獻 5 篇。由此可見,國外相關(guān)研究比國內(nèi)多出近一倍,并且研究的程度深、范圍廣。但關(guān)于高校知識管理與具體信息技術(shù)結(jié)合應(yīng)用的文獻仍較少,且發(fā)表日期多為 2010 年后。
3、知識管理與數(shù)據(jù)挖掘結(jié)合的軟件要求
知識管理與數(shù)據(jù)挖掘技術(shù)的結(jié)合運用對高校相關(guān)設(shè)備提出了一定的要求,包括對服務(wù)器、客戶端計算機的硬件要求以及對知識管理平臺、數(shù)據(jù)挖掘工具的軟件要求,本文中將重點敘述軟件要求。
知識管理平臺要求
知識管理平臺是高校知識管理的實施基礎(chǔ),它為高校人員提供了可視化的操作界面,其應(yīng)實現(xiàn)的基本功能包括:1.數(shù)據(jù)接口;2.工具接口;3.數(shù)據(jù)挖掘(內(nèi)置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內(nèi)交流;8. 管理評價。一個知識管理平臺應(yīng)分為:表現(xiàn)層、服務(wù)層、處理層、存儲層。表現(xiàn)層是面向用戶的可視化界面,用于人機交互,接受用戶的任務(wù);服務(wù)層對任務(wù)進行調(diào)度、處理,直接執(zhí)行無需數(shù)據(jù)挖掘的任務(wù)并反饋至表現(xiàn)層,調(diào)度需要數(shù)據(jù)挖掘的任務(wù)至處理層;處理層負責(zé)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等功能;存儲層包括校方數(shù)據(jù)庫及知識倉庫。具體層次如圖 1 所示。根據(jù)高校組織的特征,知識管理平臺應(yīng)在實現(xiàn)基本功能的前提下具有以下特點:1. 接口質(zhì)量高。高校集行政、科研、社會服務(wù)等任務(wù)于一體,需要處理海量數(shù)據(jù),應(yīng)提供接口以使用專業(yè)處理工具處理復(fù)雜任務(wù),保證數(shù)據(jù)處理的效率與深度;2. 內(nèi)置數(shù)據(jù)挖掘功能。高校所含數(shù)據(jù)種類多、范圍廣,對結(jié)構(gòu)簡單、數(shù)據(jù)量小的數(shù)據(jù)可直接使用內(nèi)置數(shù)據(jù)挖掘功能處理,節(jié)省時間;3. 交流功能強。高校為知識密集型組織,其學(xué)科、職能間存在交叉,優(yōu)秀的交流功能保證了知識的共享及創(chuàng)新。4. 完善的激勵體系。激勵體系不僅體現(xiàn)在平臺的評價功能中,更體現(xiàn)在管理人員的管理中,通過提高人員的積極性促進知識管理進程的實施。
數(shù)據(jù)挖掘工具要求
高校所含知識從相關(guān)對象分類可分為兩類:1. 管理知識,指高校各部門(教學(xué)、后勤部門等)用于高校管理的知識;2. 科研知識,指各學(xué)科的專業(yè)知識。前者主要與高校行政、管理人員相關(guān),后者則與高校學(xué)者、教授關(guān)系更大。針對不同的用戶,知識管理與數(shù)據(jù)挖掘的結(jié)合運用對數(shù)據(jù)挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數(shù)據(jù)多來自高校各類信息系統(tǒng)的記錄,如:校園卡消費信息、機房上機信息,具有量大、范圍廣、結(jié)構(gòu)一致等特點。用于該類數(shù)據(jù)挖掘的挖掘工具可內(nèi)置于知識管理平臺中,便于數(shù)據(jù)存取,提高挖掘速度。常用功能為預(yù)測、分類、評價三項,主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結(jié)合使用者特點,該類挖掘工具應(yīng)提供獨立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結(jié)果應(yīng)具有較強可視性,提供圖、表界面,以便用戶理解。高校科研知識主要來自于學(xué)者、教授的科學(xué)研究,包括:實驗數(shù)據(jù)、主觀推測描述等,具有專業(yè)性強、層次深、結(jié)構(gòu)復(fù)雜等特點。針對挖掘要求較低的數(shù)據(jù),可使用知識管理平臺中的內(nèi)置挖掘工具,而針對挖掘要求高的數(shù)據(jù),可選用專業(yè)數(shù)據(jù)挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進行對接。
4、知識管理與數(shù)據(jù)挖掘結(jié)合的具體策略
知識管理的基本職能可概括為外化、內(nèi)化、中介、認知四大部分,其中前三項職能對信息技術(shù)的依賴較強,可用數(shù)據(jù)挖掘技術(shù)進行輔助。數(shù)據(jù)挖掘的過程分為條件匹配、選擇、激活、應(yīng)用四部分,即對數(shù)據(jù)進行預(yù)處理后,選擇相關(guān)數(shù)據(jù)記錄,根據(jù)用戶要求選擇相應(yīng)技術(shù)進行數(shù)據(jù)挖掘,得出并解釋數(shù)據(jù)挖掘結(jié)果,最終將這些記錄應(yīng)用于實踐中。兩者的具體結(jié)合策略如下:
輔助知識管理體系建設(shè)
知識管理本質(zhì)是一個周期性管理過程,在這一過程中實現(xiàn)組織知識共享、創(chuàng)新等,最終提升組織綜合實力,其中知識管理體系建設(shè)是實現(xiàn)知識管理的宏觀條件。知識管理體系建設(shè)是一個系統(tǒng)、全面的工程,包括組織結(jié)構(gòu)調(diào)整、確定激勵制度、知識管理文化培養(yǎng)、成效評估等任務(wù)。數(shù)據(jù)挖掘技術(shù),可以為知識管理體系建設(shè)提供依據(jù),保證相關(guān)決策的科學(xué)性。數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)的幫助主要體現(xiàn)在以知識主管為主的知識管理部門對高校的管理、決策當(dāng)中。知識管理部門收集并預(yù)處理外校、本校知識管理體系建設(shè)的相關(guān)數(shù)據(jù),完成輔助決策的數(shù)據(jù)倉庫的建設(shè)。管理人員可根據(jù)要求,從數(shù)據(jù)倉庫中選擇數(shù)據(jù),利用對應(yīng)模型完成挖掘,通過挖掘結(jié)果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關(guān)的數(shù)據(jù),如至少包含“部門”、“喜好”、“性別”字段,利用關(guān)聯(lián)算法對其進行計算,即可得出各部門工作人員的喜好,以此為據(jù)制定相應(yīng)激勵制度。
知識外化
知識外化是指組織從組織外部獲取與本組織相關(guān)的知識、發(fā)現(xiàn)歸集組織內(nèi)部存在的知識并進行存儲以備用的過程。完成知識外化的關(guān)鍵即知識發(fā)現(xiàn),其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學(xué)界中較為認可、使用較普遍的方法即數(shù)據(jù)知識發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),指從數(shù)據(jù)集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數(shù)據(jù)挖掘與知識管理結(jié)合應(yīng)用的最重要部分。同時,數(shù)據(jù)挖掘技術(shù)只給定挖掘目標(biāo),不給出假設(shè)、前提,因此在使用數(shù)據(jù)挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發(fā)現(xiàn)不能僅僅依靠信息技術(shù),更需要人員對挖掘結(jié)果進行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘?qū)ο笮柽M行預(yù)處理,并轉(zhuǎn)化成邏輯數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進行知識發(fā)現(xiàn)有多種可用方法:利用分類和聚類分析可提供知識索引和發(fā)現(xiàn)特殊情況下的離群值和孤立點,知識索引可細化知識所屬領(lǐng)域和確定挖掘范圍,離群值和孤立點可為挖掘人員提供歸納的線索,若其存在一定規(guī)律則可得出模型、規(guī)則;使用模糊技術(shù)、統(tǒng)計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發(fā)現(xiàn)中的主要特征,結(jié)合已有知識庫對不確定、不精準(zhǔn)的知識進行細化;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大量數(shù)據(jù)集各字段中潛在的聯(lián)系。以關(guān)聯(lián)規(guī)則的使用為例,選擇 Apriori 算法,挖掘目的是發(fā)現(xiàn)學(xué)生學(xué)習(xí)情況中的潛在知識。首先從數(shù)據(jù)倉庫中選出與學(xué)生課程成績相關(guān)的數(shù)據(jù)集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進行預(yù)處理,將字段中的取值轉(zhuǎn)化為邏輯值,代表不同語義,如:性別字段,男設(shè)值 1,女設(shè)值 2。操作人員設(shè)置最小支持度、置信度,通過數(shù)據(jù)挖掘工具進行挖掘,得出關(guān)聯(lián)規(guī)則并進行解釋。若結(jié)果顯示 XX 院系、男生、A 類別 => 成績優(yōu)秀構(gòu)成管理規(guī)則,則表示XX院系的男生對于A類別科目較感興趣,學(xué)習(xí)成績優(yōu)秀,可在歸納后存入知識倉庫。
知識內(nèi)化、中介
知識內(nèi)化是發(fā)現(xiàn)特定人員知識需求,并為其提供相應(yīng)知識的過程,內(nèi)化的關(guān)鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進行匹配,為兩者提供交流的途徑。數(shù)據(jù)挖掘在知識內(nèi)化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識后,通過知識管理平臺進行分類存儲、添加索引,作為備選。對高校人員數(shù)據(jù)庫中數(shù)據(jù)進行挖掘,可利用聚類分析、預(yù)測模型等,得出特定人員的特長領(lǐng)域、興趣愛好,從而根據(jù)先前設(shè)置的知識索引為其提供信息。若定期對人員特征數(shù)據(jù)進行挖掘,并根據(jù)結(jié)果為高校人員推送相關(guān)知識、信息,即可實現(xiàn)個性化推送,其推送內(nèi)容由人員特征數(shù)據(jù)決定。高校組織中擁有大量教授、學(xué)者,其所擁有的知識是一筆巨大財富,加強相關(guān)領(lǐng)域間人員的交流、溝通,可以促進知識共享、創(chuàng)新,提升組織綜合實力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學(xué)者特征進行挖掘后,對他們的研究方向進行聚類分析,由挖掘結(jié)果,為相關(guān)人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學(xué)者提供交流的途徑,進而促進知識的共享。
數(shù)據(jù)挖掘技術(shù)推動圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實施。目前,已有不少圖書館專家將數(shù)據(jù)挖掘技術(shù)引入圖書館管理,提出了針對圖書館的數(shù)據(jù)挖掘應(yīng)用理論。圖書館數(shù)據(jù)挖掘?qū)ο笾饕ㄈ齻€:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結(jié)果的綜合,可為圖書館資源建設(shè)、讀者服務(wù)、個性化服務(wù)提供幫助。根據(jù)挖掘結(jié)果分析,可做到客觀、合理引入資源,做到讓數(shù)據(jù)說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經(jīng)費發(fā)揮最大效用;提升讀者服務(wù)質(zhì)量,在讀者進行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數(shù)據(jù)挖掘為用戶提供主動的信息推送;提供個性化服務(wù),以挖掘結(jié)果為依據(jù),針對不同用戶提供不同服務(wù),比如不同的圖書館系統(tǒng)管理界面。
充分發(fā)揮管理職能
知識管理是一個系統(tǒng)工程,包含平臺開發(fā)、體系構(gòu)建、文化培養(yǎng)等,其在實踐中設(shè)計大量的數(shù)據(jù)操作。數(shù)據(jù)挖掘技術(shù)可在知識管理的實踐過程中為各項信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數(shù)據(jù)挖掘技術(shù)相結(jié)合可有效促進知識管理具體操作中的工作效率。兩者的結(jié)合對高校人員管理具有積極作用,數(shù)據(jù)挖掘與知識管理在實踐中相互影響,提升操作人員素養(yǎng)。數(shù)據(jù)挖掘需要專業(yè)人員進行操作,操作人員的綜合素養(yǎng)將決定挖掘成果的質(zhì)量。知識管理可有效促進數(shù)據(jù)挖掘人員對知識的認知,使操作人員對不同要求所對應(yīng)的挖掘技術(shù)、模型的選擇更為準(zhǔn)確,提升挖掘成果的質(zhì)量,使知識更加清晰、獨立、可接受。
篇10
1 概述
在面對海量的情報信息資源時,如何高效、準(zhǔn)確的開展分析工作,為管理決策人員提供支持,已成為當(dāng)今科技工作的重要組成部分??梢哉f,情報分析方法和相關(guān)工具的合理使用決定了情報獲取的準(zhǔn)確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學(xué)性。
技術(shù)情報分析系統(tǒng)主要進行與技術(shù)相關(guān)科技論文、專利、互聯(lián)網(wǎng)情報數(shù)據(jù)的分析,實現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報告自動生成等技術(shù)。該情報分析系統(tǒng)除了基本的維度統(tǒng)計分析外,更多的側(cè)重于利用知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進行情報數(shù)據(jù)的深度處理與分析。通過情報分析系統(tǒng)開發(fā)設(shè)計,結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報信息。
2 系統(tǒng)的設(shè)計與功能描述
2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計
2.3.1數(shù)據(jù)文本特征表示
在進行文本挖掘時,對文本特征進行處理,實現(xiàn)對非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進行文本的表示,并利用倒排文檔頻率TFIDF進行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎(chǔ)。
2.3.2關(guān)聯(lián)算法
在挖掘論文專利作者之間、機構(gòu)之間、國家之間的研究內(nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過對技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計算來識別、確定一組文獻內(nèi)部所包含的技術(shù)組(群)。
2.3.3 層次結(jié)構(gòu)可視化算法
情報分析系統(tǒng)中關(guān)于論文和專利的引證分析、專利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結(jié)構(gòu)在雙曲空間進行布局,然后映射到歐式空間的龐萊卡圓盤進行顯示。歐式空間中兩個相同大小的區(qū)域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越小;反之,雙曲空間中兩個大小相同的區(qū)域離原點越近在龐萊卡圓盤中所占用的空間越大。
4 結(jié)論
本文提出運用數(shù)據(jù)挖掘方法實現(xiàn)對大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報機構(gòu)和人員提高綜合情報分析能力和決策的質(zhì)量。同時,該方法可按照不同需要進行功能拓展,實現(xiàn)向更多的技術(shù)情報領(lǐng)域延伸。
參考文獻
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議(PAKDD),IOS Press出版, 2007.
[2]樂明揚.公安情報分析中的數(shù)據(jù)挖掘應(yīng)用研究.信息與電腦.2012(8).
篇11
一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義
數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡稱為DM),簡單來說,就是一種把隱藏在大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中所需要的有用信息提取出來的新技術(shù),這是一個對數(shù)據(jù)庫進行研究的非常有價值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進行決策時提供重要的支持。
客戶關(guān)系管理(Customer Relationship Management可以簡稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進行分類,并依據(jù)分類情況來對企業(yè)的資源進行有效的組織,進而企業(yè)的業(yè)務(wù)流程實施以及經(jīng)營活動都要以客戶為核心來進行,以此來提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤;二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個在企業(yè)的營銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進行管理的過程,或者說技術(shù)。
二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
隨著社會經(jīng)濟的不斷發(fā)展,市場競爭力也在逐步的增大,商家想要獲得最好的利益,就必須對市場的變化迅速的做出反應(yīng),能夠引起市場變化的重要因素就是客戶需求的變化,也就是說,企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進行管理。在企業(yè)管理客戶信息的過程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。
數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對現(xiàn)有的客戶信息和市場環(huán)境進行統(tǒng)計總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場目標(biāo)。因為數(shù)據(jù)挖掘技術(shù)具有統(tǒng)計、聚類和關(guān)聯(lián)的作用,比如說,數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫中發(fā)現(xiàn)了這樣一個信息“某客戶在購買A商品之后,過了一段時間又購買了B商品,最后還購買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會通過次序關(guān)聯(lián),把這個信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶?,F(xiàn)在社會競爭相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對每個企業(yè)來說就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對數(shù)據(jù)庫中的流失客戶信息進行分析,并且對流失客戶的特征進行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對整個數(shù)據(jù)庫中的消費客戶信息進行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來進行挽留。(3)可以提升客戶價值。目前提升現(xiàn)有客戶的價值的方式有兩個:一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購買趨勢的客戶。
三、加強客戶關(guān)系管理中數(shù)據(jù)挖掘的意義
應(yīng)用數(shù)據(jù)挖掘技術(shù)對客戶關(guān)系進行管理,可以有效的提高企業(yè)的核心競爭力,現(xiàn)代社會的激烈競爭,也就是對客戶的競爭,數(shù)據(jù)挖掘技術(shù)對企業(yè)的客戶關(guān)系進行詳細的分析,并為企業(yè)提供有價值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進而有力的提高了企業(yè)的核心競爭力;可以有力的增強企業(yè)的執(zhí)行力,利用信息技術(shù)對客戶關(guān)系進行管理,降低成本,并簡化執(zhí)行任務(wù),有效的實現(xiàn)了資源共享,大力的提高了企業(yè)的自動化水平,企業(yè)職工的執(zhí)行能力也進一步得到了提高,也就是增強了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對現(xiàn)今的市場環(huán)境進行分析,可以預(yù)測到每個業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個業(yè)務(wù)與發(fā)生過的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來的發(fā)展戰(zhàn)略,并且可以制定與市場環(huán)境相適應(yīng)的營銷策略。
綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場需求,可以為企業(yè)制定完全適應(yīng)于市場的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠客戶,并利用企業(yè)有限的資源,對這些客戶提供最好的服務(wù),促進企業(yè)的不斷發(fā)展。
參考文獻:
篇12
隨著科學(xué)技術(shù)的突飛猛進,社會信息化的快速發(fā)展, 以信息技術(shù)為主要標(biāo)志的高新技術(shù)革命已經(jīng)引起了社會各個領(lǐng)域的深刻變革,網(wǎng)絡(luò)已經(jīng)成為社會生活不可分割的一部分。每天有數(shù)以億計的網(wǎng)民在互聯(lián)網(wǎng)上瀏覽、信息,互聯(lián)網(wǎng)已經(jīng)成為信息時代最為重要的信息集散地。對于邊防情報部門而言,研究如何通過互聯(lián)網(wǎng)和公安網(wǎng)快速高效地進行情報收集,使各項工作都圍繞收集、運用情報而展開,已經(jīng)成為當(dāng)務(wù)之急。Web數(shù)據(jù)挖掘技術(shù)的興起,為邊防情報部門開展工作提供了高效的工具與手段。
一、Web數(shù)據(jù)挖掘技術(shù)
Web數(shù)據(jù)挖掘技術(shù)是由傳統(tǒng)數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數(shù)據(jù)中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過程;它是從數(shù)據(jù)倉庫中提取出可信的、新穎的、有效的,并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代,它不僅面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進行深入的統(tǒng)計、分析和推理,發(fā)掘數(shù)據(jù)間的相互關(guān)系,完成從業(yè)務(wù)數(shù)據(jù)到?jīng)Q策信息的轉(zhuǎn)換。數(shù)據(jù)挖掘技術(shù)把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢提高到為決策者提供決策支持。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點發(fā)展出了新的理論與方法,演變成為Web數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指從與WWW有關(guān)的資源和行為中抽取人們感興趣的、有用的模式和隱含信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。Web數(shù)據(jù)挖掘已經(jīng)成為對互聯(lián)網(wǎng)信息進行深度分析、開發(fā)與利用的重要手段。
二、Web數(shù)據(jù)挖掘的分類
(一)Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從互聯(lián)網(wǎng)上檢索資源,從相關(guān)文件內(nèi)容及描述信息中獲取有價值的潛在信息。根據(jù)處理對象的不同,Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。網(wǎng)上信息形式多以文本信息的形式存在。文本可以被看作是一種順序數(shù)據(jù),目前有許多適合于順序數(shù)據(jù)的挖掘方法。Web文本信息挖掘的主要任務(wù)一般限定在文本特征的表示、文本的總結(jié),以及文本的分類和聚類等方面?;ヂ?lián)網(wǎng)現(xiàn)有大量多媒體信息。對該類信息進行分析挖掘,找出合適的描述模式,闡述并理解其中的意義,可提高該類信息的識別度及檢索效率,也是Web多媒體挖掘的目標(biāo)。論文大全。目前此方面應(yīng)用的技術(shù)手段主要是語音信息的理解及識別、圖形圖像信息的理解及識別,以及信息檢索等。
(二) Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu),目的在于揭示蘊涵于文檔結(jié)構(gòu)中的信息,主要方法是通過對Web站點的結(jié)構(gòu)進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。對Web頁的鏈接結(jié)構(gòu)進行分類,可以識別判斷頁面與文檔間的各種屬性關(guān)系。由于Web頁的內(nèi)外部存在具有各種屬性關(guān)系的結(jié)構(gòu)信息,通過研究Web結(jié)構(gòu)信息,可得到相關(guān)主題、相關(guān)分類的頁面集合,生成關(guān)于某個Web站點的結(jié)構(gòu)和頁面結(jié)構(gòu)的概括信息。因此,結(jié)構(gòu)挖掘的重點在于鏈接信息。
(三) Web日志挖掘
Web日志挖掘是從服務(wù)器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,并盡可能預(yù)測用戶的行為。通過對用戶所訪問頁面、文檔等的技術(shù)分析,Web日志挖掘可以找出相關(guān)主題間、相關(guān)內(nèi)容間的聯(lián)系規(guī)律。訪問分析又稱使用分析,主要使用用戶基本信息如IP、ID、URL、日期、時間等進行處理。由于Web服務(wù)器的Log日志存在完整的結(jié)構(gòu),當(dāng)用戶訪問Web站點時,相關(guān)的頁面、文檔、鏈接等信息在日志中都做了相應(yīng)的記錄。Web日志挖掘不僅要找出用戶經(jīng)常訪問的URL路徑,而且也要找出用戶有可能要訪問的相關(guān)站點的鏈接。利用這種方法,可以獲知互聯(lián)網(wǎng)使用者的行為偏好。
三、Web數(shù)據(jù)挖掘的主要方法
(一)統(tǒng)計分析方法
統(tǒng)計分析(statistical)方法是通過對總體中的樣本數(shù)據(jù)進行分析,從而描述和推斷能夠揭示總體中的內(nèi)部規(guī)律的信息和知識的方法。為了適應(yīng)復(fù)雜信息的挖掘需求,往往依賴有明確目標(biāo)和任務(wù)的概率模型。數(shù)據(jù)挖掘的統(tǒng)計模型要適合于所要提取的對象。利用統(tǒng)計分析技術(shù)可以對我們感興趣的內(nèi)容進行蘊含信息的挖掘。如對互聯(lián)網(wǎng)日志進行統(tǒng)計可以獲得有關(guān)站點使用的基本信息,包括頁面訪問次數(shù)、日平均訪問人數(shù)、最受用戶歡迎的頁面等。除此以外,還可以進行錯誤分析,如非法用戶登錄等。這些統(tǒng)計數(shù)據(jù)都是基于用戶瀏覽頁面的時間、用戶的瀏覽路徑和路徑長度等信息。這些統(tǒng)計數(shù)據(jù)對于提高系統(tǒng)的性能、安全性以及優(yōu)化站點結(jié)構(gòu)大有幫助。目前已有許多互聯(lián)網(wǎng)流量分析工具實現(xiàn)了這些基本的統(tǒng)計功能。
(二)關(guān)聯(lián)分析方法
關(guān)聯(lián)分析(associationanalysis)用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,所謂關(guān)聯(lián)規(guī)則是指在大量的數(shù)據(jù)中所隱含的項集之間的關(guān)系以及項集的頻繁模式。用戶在瀏覽網(wǎng)頁時,經(jīng)常會在同一次訪問中瀏覽一些無順序關(guān)系的頁面集合,挖掘發(fā)現(xiàn)的這些頁面之間內(nèi)在的聯(lián)系,就是就表現(xiàn)為它們之間存在一定的關(guān)聯(lián)。如果關(guān)聯(lián)規(guī)則中的頁面之間沒有超鏈接,則應(yīng)該引起我們的特別關(guān)注。通常使用可信度、支持度、期望可信度和作用度這四個參數(shù)來描述關(guān)聯(lián)規(guī)則。
(三)分類方法
分類(classification)是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。分類不同于聚類,聚類無須事先制定標(biāo)準(zhǔn),而能從信息本身出發(fā),利用算法自動分類;而分類的準(zhǔn)則是事先定好的。在Web數(shù)據(jù)挖掘中,分類主要是將用戶配置文件歸屬到既定的用戶類別,網(wǎng)頁根據(jù)內(nèi)容的屬性分類等。分類技術(shù)要求抽取關(guān)鍵屬性描述已知的信息,可以通過指導(dǎo)性歸納學(xué)習(xí)算法進行分類,主要包括決策樹分類法、貝葉斯分類法、最近鄰分類法等。
(四)聚類分析方法
聚類(clustering)就是將數(shù)據(jù)對象分組成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類分析能夠?qū)⒁慌鷶?shù)據(jù)按照它們在性質(zhì)上的親密程度,在沒有先驗知識的情況下自動進行分類,每一類都是大量具有相似性個體的集合,不同類之間具有明顯的區(qū)別。聚類分析是一種探索性分析,在分類過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從信息本身出發(fā),自動進行分類。例如在Web日志挖掘中,聚類分析主要集中于用戶聚類和頁面聚類。用戶聚類將具有相似瀏覽行為的用戶歸類;頁面聚類則是將內(nèi)容相關(guān)的頁面歸類,搜索引擎可以利用這些信息為某個查詢提供用戶感興趣的相關(guān)超鏈接。
四、Web數(shù)據(jù)挖掘在邊防情報工作中的應(yīng)用模式
(一)Web數(shù)據(jù)挖掘在建立公安網(wǎng)搜索引擎中的應(yīng)用
目前,邊防情報部門所需的公開信息大部分來源于互聯(lián)網(wǎng)和公安網(wǎng),情報人員通過使用搜索引擎來快速查詢需要的信息,然而公安網(wǎng)的搜索引擎存在較大局限性,搜索出來的結(jié)果存在大量冗余信息,不能滿足情報人員的需求。因此,在搜索引擎中通過借鑒Web數(shù)據(jù)挖掘技術(shù)可以有效地提高查準(zhǔn)率和查全率,從而給情報人員提供較有準(zhǔn)確的信息。具體應(yīng)用方法如下:
1.根據(jù)公安網(wǎng)的頁面內(nèi)容,自動形成摘要
目前,使用公安網(wǎng)搜索引擎進行檢索,檢索的結(jié)果文檔是以簡單摘要形式出現(xiàn)的,它表現(xiàn)為機械地提取網(wǎng)頁內(nèi)容取前幾句為摘要,這種僅通過位置進行自動摘要是很難真正反映出網(wǎng)頁中的信息內(nèi)容。論文大全。在文本挖掘中的文本抽取技術(shù)是指從文檔中抽取出關(guān)鍵信息,然后以簡潔的形式對文檔的信息進行摘要或描述,即文本抽取技術(shù)是根據(jù)Web文檔本身的內(nèi)容,從Web頁中提煉出重要信息形成文檔摘要,而不是根據(jù)位置來進行文本內(nèi)容的概括,因此它更能夠反映出Web文檔中的真正信息。論文大全。這樣,情報人員通過瀏覽關(guān)鍵詞就可以了解網(wǎng)頁的大致內(nèi)容,從而決定是否使用該信息。
2.根據(jù)檢索結(jié)果,自動進行文檔聚類
文本聚類是文本分類的逆向過程,是指將文檔集中的文檔分為更小的簇,要求同一簇內(nèi)文檔之間的相似性盡可能大,而簇與簇之間的關(guān)系盡可能小,這些簇相當(dāng)于分類表中的類目。情報人員在使用搜索引擎時,會得到大量的返回信息組成的線性表,而其中很大一部分是與其查詢請求不相關(guān)的,于是通過對檢索結(jié)果的文檔集合進行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔集中在一起,并遠離那些不相關(guān)的文檔。再將處理以后的信息以超鏈接結(jié)構(gòu)組織的層次方式可視化地提供給情報人員,從而大大減短瀏覽時間。
(二)Web數(shù)據(jù)挖掘在建立公安網(wǎng)站中的應(yīng)用
公安網(wǎng)網(wǎng)站是公安網(wǎng)信息的容納處,我們可以利用Web數(shù)據(jù)挖掘技術(shù)有效地組織網(wǎng)站信息,建立一個資源優(yōu)化的網(wǎng)站,也就是說通過對網(wǎng)站內(nèi)容的數(shù)據(jù)挖掘,主要是對文本內(nèi)容的挖掘,如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;以及結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,開展網(wǎng)站信息推送服務(wù)。
1.采用自動歸類技術(shù),實現(xiàn)公安網(wǎng)網(wǎng)站信息層次化
一般而言,網(wǎng)站提供給訪問者的信息和服務(wù)應(yīng)該是按優(yōu)先次序進行排列,網(wǎng)站維護人員應(yīng)該把重要的信息放在醒目的位置,因此在網(wǎng)站維護時,通過對網(wǎng)站內(nèi)容挖掘和Web日志挖掘,可以有效地組織網(wǎng)站信息。例如:采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息層次化;分析訪問者的訪問行為,可為用戶提供智能化、個性化服務(wù)。還可根據(jù)訪問者的訪問興趣、訪問頻度、訪問時間,動態(tài)地調(diào)整頁面結(jié)構(gòu)。
2.采用日志挖掘技術(shù),實現(xiàn)公安網(wǎng)網(wǎng)站信息推送服務(wù)
網(wǎng)站可以根據(jù)訪問者的瀏覽情況,發(fā)現(xiàn)訪問者的興趣,定期為注冊用戶提供相關(guān)信息,并且調(diào)整網(wǎng)站中網(wǎng)頁的鏈接結(jié)構(gòu)和內(nèi)容,為訪問者提供個人定制服務(wù)。具體步驟為:首先將日志文件中的數(shù)據(jù)經(jīng)過預(yù)處理,形成原始數(shù)據(jù)庫;然后獲取用戶的訪問模式,放入用戶訪問模式數(shù)據(jù)庫;再通過數(shù)據(jù)挖掘和模式分析形成知識數(shù)據(jù)庫,Web服務(wù)器自動更新知識數(shù)據(jù)庫,采用動態(tài)主頁設(shè)計方法,根據(jù)用戶的知識信息,提供相應(yīng)的個性化主頁。在數(shù)據(jù)預(yù)處理過程中會話識別是重要的一步,它取決于用戶訪問模式的有效性和準(zhǔn)確性。為提高準(zhǔn)確性,可采用Cookie法進行會話識別。在呈現(xiàn)個性化主頁時,利用用戶的IP地址和Cookie值查詢知識數(shù)據(jù)庫,發(fā)現(xiàn)用戶頻繁訪問的路徑,并自動形成相應(yīng)鏈接,根據(jù)相似用戶群和相關(guān)Web頁推薦給用戶。由于是經(jīng)過挖掘和分析后所產(chǎn)生的動態(tài)主頁,相對于一般的主頁,其針對性更強,更受用戶的歡迎。
參考文獻:
[1]葉鷹.情報學(xué)基礎(chǔ)教程[M].科學(xué)出版社,2006
[2]栗湘等.Web挖掘應(yīng)用研究[J]情報理論與實踐,2005,(6)
[3]曼麗春等.Web數(shù)據(jù)挖掘研究與探討[J].現(xiàn)在電子技術(shù),2006,(8)
篇13
計算機網(wǎng)絡(luò)技術(shù)的普及與應(yīng)用給人們的生活帶來了翻天覆地的變化,同時在網(wǎng)絡(luò)上產(chǎn)生了大量雜亂無章的數(shù)據(jù)。而網(wǎng)格技術(shù)、Web技術(shù)的發(fā)展,為人們從分布的網(wǎng)絡(luò)資源中尋找有價值的信息提供了新的技術(shù)支持,同時也產(chǎn)生了許多基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。而數(shù)據(jù)挖掘算法又是決定一個數(shù)據(jù)挖掘系統(tǒng)性能的主要衡量指標(biāo)。任何軟件系統(tǒng)的設(shè)計都離不開算法,數(shù)據(jù)挖掘技術(shù)的執(zhí)行效率也與數(shù)據(jù)挖掘算法有關(guān),隨著數(shù)據(jù)庫技術(shù)與數(shù)據(jù)挖掘技術(shù)的成熟與發(fā)展,像分類、聚類、決策樹、關(guān)聯(lián)等等數(shù)據(jù)挖掘算法已相當(dāng)成熟,可以研究借鑒現(xiàn)有數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘模式、數(shù)據(jù)挖掘流程,建立一個基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。筆者以眾多數(shù)據(jù)挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發(fā)工具包(Java Web Service Core))的數(shù)據(jù)挖掘算法的設(shè)計過程。
聚類分析(Clustering Analysis)是一個應(yīng)用比較廣泛的數(shù)據(jù)挖掘算法,算法的理論研究與實踐應(yīng)用都已經(jīng)很成熟,把這一成熟的理論應(yīng)用于基于網(wǎng)格的分布式系統(tǒng)中,會大大提高數(shù)據(jù)挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應(yīng)用于基于GT4數(shù)據(jù)挖掘系統(tǒng)中。
2.系統(tǒng)結(jié)構(gòu)設(shè)計
基于GT4數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)源是分布式數(shù)據(jù)源,分布式數(shù)據(jù)源是指在物理上分布而邏輯上集中的數(shù)據(jù)源系統(tǒng)。在該系統(tǒng)中,處在這個網(wǎng)格中的每臺計算機就是這個網(wǎng)格的一個節(jié)點,稱之為網(wǎng)格節(jié)點。在眾多的節(jié)點中,要有一個網(wǎng)格節(jié)點來控制和管理其他的節(jié)點,這個節(jié)點就叫做網(wǎng)格中心控制節(jié)點,決策支持都是由網(wǎng)格中心控制節(jié)點完成的。如果要完成某個數(shù)據(jù)挖掘任務(wù),則可以由空閑的網(wǎng)格節(jié)點先按挖掘需求來完成本節(jié)點的挖掘任務(wù),再由網(wǎng)格中心控制節(jié)點來匯總每個節(jié)點的數(shù)據(jù)挖掘情況。局部網(wǎng)格節(jié)點管理的信息具有局限性,涉及的范圍較小,主要完成單個節(jié)點數(shù)據(jù)的管理,對局部的數(shù)據(jù)挖掘結(jié)果進行匯總分析,但是這些局部節(jié)點的數(shù)據(jù)與全局節(jié)點的數(shù)據(jù)又是有一定關(guān)聯(lián)的。根據(jù)以上的分析可知,網(wǎng)格平臺下的數(shù)據(jù)挖掘任務(wù)由全局?jǐn)?shù)據(jù)挖掘與局部數(shù)據(jù)挖掘共同完成。
3.算法的Web Service設(shè)計
3.1 全局聚類算法的Web Service設(shè)計
網(wǎng)格環(huán)境下的全局控制網(wǎng)格節(jié)點與局部網(wǎng)格節(jié)點間的關(guān)系我們可以理解為上下層的關(guān)系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節(jié)點當(dāng)成是層次聚類的頂層。本課題全局聚類算法借鑒傳統(tǒng)的利用代表點聚類算法CURE。
CURE算法將層次方法與劃分方法結(jié)合到一起,選用有代表性的、固定數(shù)目的空間點來表示一個聚類。算法在開始時,每個點都是一個簇,然后將距離最近的簇結(jié)合,一直到簇的個數(shù)為要求的K。首先把每個數(shù)據(jù)點即局部網(wǎng)格節(jié)點看成一個聚類,然后再以一個特定的收縮因子向中心收縮它們。
CURE算法的主要執(zhí)行步驟如下:
(1)從數(shù)據(jù)源樣本對象中隨機抽取樣本集,生成一個樣本集合S;
(2)將樣本集合S分割為一組劃分,每個劃分大小為S/p;
(3)對每個劃分部分進行局部聚類;
(4)通過隨機采樣剔除聚類增長太慢的異常數(shù)據(jù);
(5)對局部聚類進行聚類,落在每個新形成的聚類中的代表性點,則根據(jù)用戶定義的收縮因子收縮或移向聚類中心;
(6)用相應(yīng)的標(biāo)記對聚類中的數(shù)據(jù)標(biāo)上聚類號。
有了數(shù)據(jù)挖掘算法,就可以完成數(shù)據(jù)挖掘任務(wù)了。全局聚類算法的主要功能是響應(yīng)用戶的數(shù)據(jù)挖掘請求,將對應(yīng)的請求發(fā)送給局部網(wǎng)格節(jié)點,將局部網(wǎng)格節(jié)點的挖掘結(jié)果整理輸出。全局聚類算法Web Service資源的結(jié)構(gòu)包括算法Web Service接口、算法資源屬性文檔、算法功能實現(xiàn)和算法功能四個部分。
利用傳統(tǒng)的聚類算法完成全局的數(shù)據(jù)的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設(shè)計要經(jīng)過過以下幾步:
第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數(shù)據(jù)挖掘服務(wù)接口,該服務(wù)接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉(zhuǎn)為WSDL文件。
第二步:用Java編寫全局聚類算法(CURE)代碼;
第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一個GAR文件;
第五步:向Web Service容器部署全局?jǐn)?shù)據(jù)挖掘服務(wù)。
3.2 局部聚類算法的Web Service設(shè)計
局部聚類算法的主要功能是完成局部網(wǎng)格節(jié)點的數(shù)據(jù)挖掘任務(wù),并把數(shù)據(jù)挖掘結(jié)果上傳到全局控制節(jié)點。局部網(wǎng)格節(jié)點的數(shù)據(jù)挖掘任務(wù)與傳統(tǒng)的單機數(shù)據(jù)挖掘任務(wù)類似,本課題局部聚類算法使用傳統(tǒng)的聚類算法K-平均方法,以K為參數(shù),把N個對象分為K個簇,簇內(nèi)具有較高的相似度,而簇間的相似度較低[34]。本論文的數(shù)據(jù)挖掘任務(wù)主要是由局部網(wǎng)格節(jié)點實現(xiàn)的,下面就詳細的介紹K-平均算法的主要執(zhí)行過程如下:
(1)從數(shù)據(jù)集中任意選擇K個對象作為各個簇的初始中心。
(2)根據(jù)現(xiàn)有的簇中心情況,利用距離公式計算其他對象到各個簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。
(3)根據(jù)所得各個對象的距離值,將對象分配給距離最近的中心所對應(yīng)的簇。
(4)重新生成各個簇的中心。
(5)判斷是否收斂。如果收斂,即簇不在發(fā)生變化,那么停止劃分,否則,重復(fù)(2)到(5)。
K-平均算法是一個經(jīng)典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設(shè)計,部署方法與全局算法相似。
4.結(jié)論
基于GT4的數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)挖掘服務(wù)資源有網(wǎng)格的中心控制節(jié)點(即全局節(jié)點)進行統(tǒng)一的管理,在局部網(wǎng)格節(jié)點挖掘過程中,根據(jù)其處理能力分配最佳的數(shù)據(jù)集給局部節(jié)點,從而使整個系統(tǒng)的計算負載相對均衡。其數(shù)據(jù)挖掘系統(tǒng)的規(guī)??呻S著服務(wù)的多少動態(tài)伸縮。當(dāng)系統(tǒng)要增加新的局部挖掘節(jié)點時,只需部署局部Web Service資源即可。將網(wǎng)格應(yīng)用到分布式數(shù)據(jù)挖掘系統(tǒng)中,建立一個基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng),必將使其在各個領(lǐng)域都得到廣泛的應(yīng)用。
參考文獻