日本免费精品视频,男人的天堂在线免费视频,成人久久久精品乱码一区二区三区,高清成人爽a毛片免费网站

在線客服

數(shù)據(jù)挖掘課程實(shí)用13篇

引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘課程范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時(shí)的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

數(shù)據(jù)挖掘課程

篇1

院大數(shù)據(jù);數(shù)據(jù)挖掘;教學(xué)方式;考核方式

大數(shù)據(jù)時(shí)代的到來,給人們的生產(chǎn)和生活帶來極大的變革,由此也引起了社會各界的廣泛關(guān)注。目前,大數(shù)據(jù)已經(jīng)與我們的日常生活息息相關(guān),對各行業(yè)的發(fā)展也產(chǎn)生了至關(guān)重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化的產(chǎn)物,也是現(xiàn)代企業(yè)生產(chǎn)和發(fā)展過程中需要用到的重要技術(shù)之一,因此對數(shù)據(jù)挖掘技術(shù)人才的需求越來越多,《數(shù)據(jù)挖掘》學(xué)科由此得到了快速的發(fā)展。本文將對《數(shù)據(jù)挖掘》課程的教學(xué)展開論述,希望能引起同行的共鳴。

1大數(shù)據(jù)介紹

1.1大數(shù)據(jù)含義大數(shù)據(jù)是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段出現(xiàn)的新興名詞,是指數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的集合,大數(shù)據(jù)是以云計(jì)算的共享平臺為基礎(chǔ),通過數(shù)據(jù)的交叉復(fù)用,形成新的智力資源和知識服務(wù)能力。大數(shù)據(jù)處理需要分布式計(jì)算機(jī)構(gòu)架才能完成,僅依靠單臺的計(jì)算機(jī)無法實(shí)現(xiàn)大數(shù)據(jù)處理,因此大數(shù)據(jù)處理就是借助云計(jì)算的分布式處理、分布式數(shù)據(jù)庫、虛擬存儲技術(shù)對大量數(shù)據(jù)進(jìn)行整合處理的過程。

1.2大數(shù)據(jù)特征大數(shù)據(jù)具有數(shù)量大(Volume)、類型多(Variety)、價(jià)值高(Value)和速度快(Velocity)的特點(diǎn),簡稱為“4V”。大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模不斷擴(kuò)大,已經(jīng)由GB、TB級擴(kuò)展到EB或ZB級,這是普通計(jì)算機(jī)硬盤容量所無法達(dá)到的;大數(shù)據(jù)對象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),存儲對象由傳統(tǒng)的文本內(nèi)容擴(kuò)展到了音頻數(shù)據(jù)、視頻數(shù)據(jù)、搜索引擎中關(guān)鍵詞等,其數(shù)據(jù)的類型繁多復(fù)雜;數(shù)據(jù)之間的關(guān)聯(lián)性不斷加強(qiáng),已經(jīng)對社會經(jīng)濟(jì)、系統(tǒng)、信息學(xué)、網(wǎng)絡(luò)學(xué)以及心理學(xué)等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響;大數(shù)據(jù)的產(chǎn)生形式以數(shù)據(jù)流為主,能瞬時(shí)產(chǎn)生,具有很強(qiáng)的動態(tài)性和時(shí)效性。

2數(shù)據(jù)挖掘曳課程教學(xué)探討

2.1教學(xué)內(nèi)容《數(shù)據(jù)挖掘》是一門綜合性的學(xué)科,學(xué)科內(nèi)涉及的主要內(nèi)容有數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、信息檢索、計(jì)算機(jī)技術(shù)以及可視化技術(shù)等,需要不同的學(xué)科交叉學(xué)習(xí),因此,該課程具有很高的理論性和實(shí)踐性。在教學(xué)過程中,不僅要注重基礎(chǔ)理論知識的培養(yǎng),還要加強(qiáng)對學(xué)生創(chuàng)新能力以及問題解決能力的培養(yǎng)。課程的知識結(jié)構(gòu)可按照表1所示組建。數(shù)據(jù)挖掘前需要進(jìn)行預(yù)處理,然后才能存入數(shù)據(jù)倉庫,再利用相關(guān)的挖掘工具和算法,按照挖掘流程進(jìn)行數(shù)據(jù)挖掘,最后將挖掘結(jié)果以可視化的形式展示出來。在整個(gè)教學(xué)過程中,教學(xué)重點(diǎn)是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關(guān)聯(lián)分析法、聚類法等10種方法。學(xué)生不僅要了解各類算法的相關(guān)概念,還要能利用算法對實(shí)例進(jìn)行分析。

2.2《數(shù)據(jù)挖掘》課程教學(xué)探索

2.2.1培養(yǎng)數(shù)據(jù)意識《數(shù)據(jù)挖掘》是以數(shù)據(jù)為驅(qū)動的理論分析和應(yīng)用課程,具有抽象性和具體性,抽象性是指數(shù)據(jù)挖掘過程中的理論、技術(shù)和方法具有很強(qiáng)的抽象性,學(xué)生在有限的時(shí)間內(nèi)無法理解和消化;具體性是指研究內(nèi)容比較客觀,具有一定的解釋性和理解性。針對以上特點(diǎn),教師在組織教學(xué)時(shí),應(yīng)先培養(yǎng)學(xué)生的學(xué)習(xí)興趣,使學(xué)生產(chǎn)生一定的數(shù)據(jù)意識。具體安排時(shí),可先安排2-4個(gè)學(xué)時(shí)講解數(shù)據(jù)及其主要應(yīng)用,讓學(xué)生對大數(shù)據(jù)的產(chǎn)生、影響和應(yīng)用等內(nèi)容做初步了解,使學(xué)生對該課程的學(xué)習(xí)目的和實(shí)際意義產(chǎn)生客觀認(rèn)識。

2.2.2深化基礎(chǔ),加強(qiáng)理論體系大數(shù)據(jù)特征對數(shù)據(jù)分析技術(shù)提出了更高的要求,現(xiàn)有的數(shù)據(jù)分析技術(shù)難以滿足實(shí)際需求,這就說明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用和發(fā)展將面臨更嚴(yán)峻的考驗(yàn)。數(shù)據(jù)挖掘技術(shù)涉及的知識內(nèi)容較多,在大學(xué)課程體系中難以全部開設(shè),給學(xué)生的學(xué)習(xí)帶來很大阻礙。為解決以上問題,開封大學(xué)采取措施:將《數(shù)據(jù)挖掘》課程授課對象設(shè)定為高年級學(xué)生,經(jīng)過兩年或三年基礎(chǔ)課程的學(xué)習(xí),學(xué)生已經(jīng)具備了一定的理論基礎(chǔ),在學(xué)習(xí)《數(shù)據(jù)挖掘》課程中,就可節(jié)約大量時(shí)間學(xué)習(xí)課程的核心內(nèi)容。

2.2.3教學(xué)方式多樣化理論來源于實(shí)踐,也可以指導(dǎo)實(shí)踐;實(shí)踐是檢驗(yàn)理論的唯一途徑。《數(shù)據(jù)挖掘》具有很強(qiáng)的抽象性,學(xué)生無法在有限的學(xué)習(xí)時(shí)間內(nèi)對眾多概念產(chǎn)生足夠清晰的認(rèn)識,只能借助實(shí)踐教學(xué)使學(xué)生明白課程內(nèi)容的原理及其實(shí)用價(jià)值。在講解基本概念、原理或者算法時(shí),可采取案例教學(xué)法、任務(wù)驅(qū)動教學(xué)法、項(xiàng)目教學(xué)法等,將理論與實(shí)踐相結(jié)合,提高學(xué)生的學(xué)習(xí)興趣和操作能力。因此教師應(yīng)在教學(xué)過程中注意教學(xué)方法的選擇和使用,充分體現(xiàn)出學(xué)生的主體地位和教師的主導(dǎo)作用,通過一系列理實(shí)一體化教學(xué)方式,提高教學(xué)效果。

2.3改革教學(xué)考核方式《數(shù)據(jù)挖掘》是一門融合多種學(xué)科的實(shí)踐課程,因此,課程的評價(jià)方式也應(yīng)做出一定的改進(jìn)。在考核時(shí),應(yīng)包括理論基礎(chǔ)和實(shí)踐部分考核,除考查學(xué)生對基本概念、挖掘流程等內(nèi)容的掌握情況外,還應(yīng)對學(xué)生的實(shí)踐操作技能進(jìn)行考核,采用多種方式對學(xué)生的學(xué)習(xí)進(jìn)行評價(jià),提高考核的有效性和公平性。

3結(jié)語

隨著信息化技術(shù)的不斷發(fā)展,現(xiàn)代企業(yè)生產(chǎn)運(yùn)行對信息化管理系統(tǒng)的依賴性越來越高,現(xiàn)代社會已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,在這種時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)得到了社會各界的廣泛重視,企業(yè)對該專業(yè)的人才需求也越來越多,這就為《數(shù)據(jù)挖掘》課程的發(fā)展提供了有利條件。高校及任課教師應(yīng)認(rèn)清形勢,積極調(diào)整教學(xué)理念,通過優(yōu)化課程內(nèi)容,改進(jìn)教學(xué)方式和考核方式,提高課程的教學(xué)效果,以培養(yǎng)高專業(yè)素養(yǎng)和高操作技能的復(fù)合型人才。

參考文獻(xiàn)

[1]范祺,朱昌杰,肖建于,沈龍鳳,李敏.以項(xiàng)目驅(qū)動的數(shù)據(jù)挖掘課程教學(xué)改革的研究[J].科技信息,2012(11):9-10.

篇2

一、前言

近年來,數(shù)據(jù)獲取和數(shù)據(jù)存儲技術(shù)快速發(fā)展,各種數(shù)據(jù)庫、數(shù)據(jù)倉庫中存儲的數(shù)據(jù)量飛速增長。人們關(guān)注的焦點(diǎn)要從噪聲、模糊的隨機(jī)數(shù)據(jù)中提取重要的信息、知識,數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識貧乏”問題的方法。

數(shù)據(jù)挖掘作為統(tǒng)計(jì)專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對案例進(jìn)行分析,學(xué)習(xí)案例所涉及的相關(guān)知識點(diǎn),從而會利用相關(guān)軟件工具對數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)間的知識。

二、數(shù)據(jù)挖掘中案例驅(qū)動教學(xué)的實(shí)施

(一)合理高職高專統(tǒng)計(jì)專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)

數(shù)據(jù)挖掘是集數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識別、可視化等學(xué)科的一個(gè)新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實(shí)踐性及綜合性較強(qiáng)的課程。其知識內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對師生都提出了嚴(yán)峻的挑戰(zhàn)。

高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門人才為根本任務(wù),以適應(yīng)社會行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計(jì)專業(yè)學(xué)生的專業(yè)技能特點(diǎn),我們將本門課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進(jìn)行知識“挖掘”;要根據(jù)實(shí)際情況制定合理完整的數(shù)據(jù)模型并進(jìn)行評估,這些評估要具有可視性,才能有效地解決問題,而使數(shù)據(jù)挖掘更具有合理性。

(二)如何驅(qū)動教學(xué)來設(shè)計(jì)數(shù)據(jù)挖掘案例

1.介紹案例驅(qū)動教學(xué)法。案例驅(qū)動法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個(gè)授課過程圍繞著同一個(gè)目標(biāo)和幾項(xiàng)任務(wù)“教授”,學(xué)生通過對課程的學(xué)習(xí)、資料的查找和知識的整合,通過充分思考和與實(shí)踐相結(jié)合,提高自身能力。這種案例驅(qū)動的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時(shí)能讓教師更好地發(fā)揮促進(jìn)學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。

案例驅(qū)動法是把教學(xué)內(nèi)容和目標(biāo)通過一個(gè)任務(wù)來體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個(gè)任務(wù)完成。

案例驅(qū)動法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動學(xué)習(xí)到主動學(xué)習(xí),真正愛上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實(shí)踐能力,同時(shí)要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進(jìn)、組織和控制,這樣可以增強(qiáng)同學(xué)間的協(xié)作精神和學(xué)生的獨(dú)立意識。通過學(xué)生的自主學(xué)習(xí)和探索,可以改變原來枯燥的學(xué)習(xí)方式。對于數(shù)據(jù)挖掘這門課程,內(nèi)容深奧,既要求學(xué)習(xí)一定的理論知識,又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動的教學(xué)方法。

2.數(shù)據(jù)挖掘案例教學(xué)的實(shí)施規(guī)劃。利用CLEMENTINE軟件工具進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過程,該過程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評估和方案實(shí)施六大部分。因此,在教學(xué)過程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場合,并會使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對學(xué)生進(jìn)行數(shù)據(jù)挖掘;將教學(xué)的亮點(diǎn)和重點(diǎn)放在案例分析和實(shí)際應(yīng)用上,要對學(xué)生進(jìn)行動手能力的訓(xùn)練。

在教學(xué)的過程中,最重要的是案例的選取。通過參考教學(xué)大綱和教學(xué)目標(biāo),對教學(xué)案例進(jìn)行精心設(shè)計(jì),可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問題和解決問題的能力,才能更好地將教案落實(shí),并形成具體的項(xiàng)目。根據(jù)數(shù)據(jù)挖掘課程的特點(diǎn)和具體內(nèi)容,我們通過某些小案例引入一些相關(guān)知識,并且采用學(xué)生能夠接受的一個(gè)大案例讓學(xué)生使用成績數(shù)據(jù)模型組織整個(gè)教學(xué)過程。

我們的課程內(nèi)容按數(shù)據(jù)挖掘過程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們設(shè)計(jì)了多個(gè)不同的小案例如下。

(1)藥物研究數(shù)據(jù)和學(xué)生參加社會活動數(shù)據(jù)案例:通過這兩個(gè)數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項(xiàng)卡的多種節(jié)點(diǎn)讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點(diǎn)、MERGE節(jié)點(diǎn)合并數(shù)據(jù)的方法。

(2)移動客戶數(shù)據(jù)案例:通過利用移動數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點(diǎn)進(jìn)行變量說明的方法,會使用該節(jié)點(diǎn)進(jìn)行有限變量值和無效值的調(diào)整,會使用DATA AUDIT節(jié)點(diǎn)對數(shù)據(jù)質(zhì)量進(jìn)行評估和調(diào)整;掌握數(shù)據(jù)中對離群點(diǎn)、極端值和缺失值的調(diào)整,對數(shù)據(jù)進(jìn)行質(zhì)量管理;會使用AGGREATE對數(shù)據(jù)進(jìn)行分類匯總;利用FILLER節(jié)點(diǎn)對變量值重新計(jì)算,會用RECLASSIFY節(jié)點(diǎn)實(shí)現(xiàn)變量值進(jìn)行調(diào)整;會對數(shù)據(jù)進(jìn)行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強(qiáng)弱的基本手段;利用壓縮樣本量、簡約變量值或變量降維等方法對樣本量龐大的數(shù)據(jù)進(jìn)行精簡。

(3)決策樹模型案例:了解C5.0決策樹算法,會建立決策樹模型,學(xué)會歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測模型,會分析結(jié)論,用于對未來新數(shù)據(jù)的預(yù)測。

(4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測分析結(jié)果。

(5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。

在設(shè)計(jì)小案例的同時(shí),我們還選擇學(xué)生既熟悉又感興趣的綜合項(xiàng)目案例選題:學(xué)生成績數(shù)據(jù)、圖書管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問題進(jìn)一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項(xiàng)目中遇到的問題。當(dāng)課程結(jié)束后,各項(xiàng)目組呈交項(xiàng)目數(shù)據(jù)模型和報(bào)告,且項(xiàng)目組長要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報(bào)告。

3.案例驅(qū)動教學(xué)的成效。圍繞案例進(jìn)行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動教學(xué)法,還要增加學(xué)生的實(shí)際訓(xùn)練能力,都取得了明顯的效果,從以下五個(gè)方面體現(xiàn):①學(xué)生要主動提出問題,同時(shí)積極主動地參與課堂教學(xué),才能提高學(xué)生分析和處理問題的能力;②增強(qiáng)學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過小組討論的形式和實(shí)際訓(xùn)練讓學(xué)生以積極主動的態(tài)度處理和解決一些技術(shù)問題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團(tuán)隊(duì)合作能力的,也要具有競爭意識;④課程學(xué)習(xí)結(jié)束后,普遍反映對利用CLEMENTIME軟件工具進(jìn)行數(shù)據(jù)挖掘的自信心提高,能夠進(jìn)一步提高對專業(yè)的認(rèn)知,獨(dú)立解決一些數(shù)據(jù)統(tǒng)計(jì)分析的問題。

三、結(jié)束語

數(shù)據(jù)挖掘是統(tǒng)計(jì)專業(yè)的專業(yè)課程,其內(nèi)容繁多、深奧,把基于案例驅(qū)動的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過程中,實(shí)現(xiàn)了整個(gè)數(shù)據(jù)挖掘的流程,在基于項(xiàng)目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識。學(xué)生要將所學(xué)的理論知識和實(shí)踐相結(jié)合,從而有效提高自己的操作技能和知識水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問題的應(yīng)用能力和創(chuàng)新實(shí)踐能力。

從教學(xué)效果來看,通過將理論教學(xué)和實(shí)踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動性,培養(yǎng)和提高學(xué)生的主觀能動性,同時(shí)增強(qiáng)學(xué)生分析和處理問題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗(yàn),使整個(gè)教學(xué)環(huán)節(jié)更加完善合理。

參考文獻(xiàn):

[1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,(26).

[2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會與創(chuàng)新[J].科技信息,2012,(10).

[3]李國榮.培養(yǎng)統(tǒng)計(jì)專業(yè)學(xué)生動手能力和創(chuàng)新能力的探索[J].統(tǒng)計(jì)教育,2007,(9).

[4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項(xiàng)目驅(qū)動的實(shí)踐教學(xué)改革[J].中國大學(xué)教學(xué),2011,(2).

篇3

Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

0 引言

近年來,傳統(tǒng)科學(xué)研究(如天文物理學(xué)、生物醫(yī)學(xué)等)、電子商務(wù)、網(wǎng)絡(luò)搜索引擎(如GOOGLE和百度等)和物聯(lián)網(wǎng)等產(chǎn)生的數(shù)據(jù)已經(jīng)以PB或ZB(10的21次方)來計(jì)算。以分布式數(shù)據(jù)倉庫、流計(jì)算的實(shí)時(shí)數(shù)據(jù)倉庫技術(shù)為代表的最新數(shù)據(jù)存儲技術(shù),讓全世界的數(shù)據(jù)存儲量越來越大,由人、機(jī)、物三元素高度融合構(gòu)成的信息化的社會引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)處理模式的高度復(fù)雜化,大數(shù)據(jù)(Big Data)時(shí)代已經(jīng)到來[1]。因此,數(shù)據(jù)具有越來越強(qiáng)的可視性、可操作性和可用性,能夠越來越細(xì)致、精準(zhǔn)、全面和及時(shí)地反映人的思維、行為和情感,以及事物的特性和發(fā)展規(guī)律,要想讓這些大數(shù)據(jù)以更加有效的方式為提升人類各方面的生產(chǎn)力和生活質(zhì)量服務(wù),離不開以非平凡的方法發(fā)現(xiàn)蘊(yùn)藏在大量數(shù)據(jù)集中的有用知識為根本目的數(shù)據(jù)挖掘技術(shù)的支撐。

市場上對于有大數(shù)據(jù)背景知識又懂?dāng)?shù)據(jù)挖掘技術(shù)的專業(yè)人才的需求也將越來越大,作為一名高校計(jì)算機(jī)專業(yè)教師,根據(jù)自己三年來研究生數(shù)據(jù)挖掘課程的授課經(jīng)歷,結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,對數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索。

1 明確大數(shù)據(jù)背景下學(xué)習(xí)數(shù)據(jù)挖掘知識的重要性

1.1 大數(shù)據(jù)的定義

“大數(shù)據(jù)”是最近幾年才出現(xiàn)的新名詞,尚無統(tǒng)一的概念,維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。

1.2 大數(shù)據(jù)的特征

大數(shù)據(jù)的特征可以總結(jié)為四方面,即4V。

⑴ 數(shù)據(jù)量浩大(Volume)――數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級,甚至開始以EB和ZB來計(jì)數(shù)。例如:1立方毫米電子顯微鏡重建出的大腦突觸網(wǎng)絡(luò)的圖像數(shù)據(jù)就超過1PB。

⑵ 模態(tài)繁多、異構(gòu)(Variety)――大數(shù)據(jù)面向的是一切計(jì)算機(jī)可以存儲的數(shù)據(jù)格式,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻、文檔、報(bào)表,以及搜索引擎中輸入的關(guān)鍵詞、社交網(wǎng)絡(luò)中的留言、喜好和各種傳感器自動收集的監(jiān)控結(jié)果等等。

⑶ 生成快速(Velocity)――大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,同時(shí),數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。

⑷ 價(jià)值巨大(Value)――數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在,將對信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的研究和應(yīng)用起到革命性的作用,價(jià)值巨大[2]。

Gartner、IBM和牛津大學(xué)2012年聯(lián)合的關(guān)于大數(shù)據(jù)的研究報(bào)告指出:交易數(shù)據(jù)、記錄數(shù)據(jù)、事件和電子郵件是四大主要數(shù)據(jù);數(shù)據(jù)挖掘,數(shù)據(jù)可視化,預(yù)測,建模與數(shù)據(jù)優(yōu)化是五大數(shù)據(jù)能力[3]。大數(shù)據(jù)的潛在價(jià)值只有通過數(shù)據(jù)挖掘才能顯現(xiàn),因此,國外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國內(nèi)的騰訊、百度、新浪、淘寶等知名企業(yè)已經(jīng)開始著眼大數(shù)據(jù),從不同角度進(jìn)行數(shù)據(jù)挖掘,以便改善自身服務(wù),創(chuàng)造更大的商業(yè)價(jià)值。所以,作為高校教師,首先要讓學(xué)生了解大數(shù)據(jù)的基本特點(diǎn),明確數(shù)據(jù)挖掘知識和技術(shù)對當(dāng)今社會的重要意義。

2 利用概念圖,構(gòu)建數(shù)據(jù)挖掘課程的知識體系結(jié)構(gòu)

在大學(xué)里,設(shè)置一門課程,不能只關(guān)注這門課程所含的內(nèi)容,更要考慮教育培養(yǎng)學(xué)生基本專業(yè)能力、可持續(xù)發(fā)展能力等本質(zhì)性的問題。

數(shù)據(jù)挖掘是一門結(jié)合數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多門學(xué)科知識的交叉學(xué)科[4]。而且,該課程既包括各種理論知識,又離不開相關(guān)的實(shí)踐技術(shù),整個(gè)教學(xué)過程是培養(yǎng)和提高學(xué)生的創(chuàng)新能力和綜合解決問題能力的重要途徑。因此,針對計(jì)算機(jī)專業(yè)的學(xué)生,教學(xué)的首要任務(wù)是構(gòu)建起整個(gè)課程的核心知識結(jié)構(gòu)(如圖1所示),同時(shí),簡單介紹相關(guān)的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等計(jì)算機(jī)專業(yè)學(xué)生不太了解的非專業(yè)知識。

課程核心知識結(jié)構(gòu)是教學(xué)的主線,是學(xué)生必須要掌握的。首先,讓學(xué)生明確數(shù)據(jù)挖掘前要先經(jīng)過預(yù)處理,再存入數(shù)據(jù)倉庫;其次,針對具體情況利用相關(guān)的挖掘工具和挖掘算法進(jìn)行挖掘;最后,挖掘結(jié)果以可視化的形式有效地展示給用戶。教學(xué)的重點(diǎn)是挖掘算法和挖掘工具。對于挖掘算法,以數(shù)據(jù)挖掘國際會議ICDM(the IEEE International Conference on Data Mining)的專家評選出的十大經(jīng)典算法(見表1)為主[5],結(jié)合相關(guān)實(shí)例給學(xué)生介紹各種算法的基本思想和相關(guān)概念,重點(diǎn)介紹使用較多的分類、聚類、關(guān)聯(lián)、序列和機(jī)器學(xué)習(xí)這幾種算法,先為學(xué)生打下良好的理論基礎(chǔ)。

3 以實(shí)例為切入點(diǎn),注重理論結(jié)合實(shí)踐

數(shù)據(jù)挖掘課程主要針對我校研究生開設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過程中要注重理論結(jié)合實(shí)踐,注意培養(yǎng)學(xué)生解決實(shí)際問題的能力。因此,在給學(xué)生介紹目前常用的數(shù)據(jù)挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎(chǔ)上,結(jié)合市場應(yīng)用需求,以實(shí)例為切入點(diǎn),分別分析數(shù)據(jù)挖掘在互聯(lián)網(wǎng)日志分析、電子郵件分析、互聯(lián)網(wǎng)廣告挖掘、電子商務(wù)、移動互聯(lián)網(wǎng)等各大領(lǐng)域中的實(shí)際應(yīng)用情況和成功案例(表2)。同時(shí),還可以從內(nèi)容挖掘、結(jié)構(gòu)挖掘和用戶訪問模式挖掘這三個(gè)方面簡單介紹WEB挖掘的基本知識[6]。這樣,課程本身就脫離了枯燥的理論,讓學(xué)生對數(shù)據(jù)挖掘有了感性認(rèn)識,激發(fā)學(xué)習(xí)興趣。

⑵ 過濾垃圾郵件。\&互聯(lián)網(wǎng)廣告\&⑴ 通過大數(shù)據(jù)挖掘,精準(zhǔn)定位各類客戶的廣告形式;

⑵ 準(zhǔn)確評估廣告效果。\&電子商務(wù)\&用數(shù)據(jù)提升整體營銷;通過日志挖掘做客戶分析;用序列算法分析商品上架時(shí)間;用聚類算法對商品分類、提升會員管理。\&移動互聯(lián)網(wǎng)\&⑴ 鎖定用戶的數(shù)據(jù)價(jià)值,通過地理位置信息挖掘出有價(jià)值的東西;

⑵ 文本挖掘。\&]

在教學(xué)過程中,貫穿以“能力培養(yǎng)為目標(biāo)”的實(shí)踐教學(xué)理念,提供有效的網(wǎng)絡(luò)資源,讓學(xué)生自己動手動腦,分析成功案例,完成教師給定的虛擬挖掘任務(wù),強(qiáng)化學(xué)生參與意識,教師在以學(xué)生為主體的教學(xué)過程中當(dāng)好指導(dǎo)者和激勵者,從而充分調(diào)動學(xué)生的主觀能動性,掌握不同應(yīng)用領(lǐng)域大數(shù)據(jù)的挖掘問題的基本解決方法,培養(yǎng)學(xué)生的創(chuàng)新能力。例如,給學(xué)生一個(gè)文本挖掘的分類題目,讓他們熟悉從原始數(shù)據(jù)的清洗、預(yù)處理、降維、建立模型、測試、得到結(jié)論等一系列環(huán)節(jié)。

4 改革教學(xué)評價(jià),實(shí)施分類化評價(jià)

數(shù)據(jù)挖掘課程是一門融合了多個(gè)學(xué)科的實(shí)踐性很強(qiáng)的課程,對應(yīng)的考核方式應(yīng)該與其他專業(yè)課程有所區(qū)別,應(yīng)該更重視學(xué)生學(xué)習(xí)過程中的表現(xiàn)和能力的提升。

理論知識的考核注重學(xué)生對數(shù)據(jù)挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數(shù)量比例,采用統(tǒng)一考核方式和評判標(biāo)準(zhǔn)。對于實(shí)踐技能的考核,主要強(qiáng)調(diào)的是學(xué)生對不同類型數(shù)據(jù)進(jìn)行挖掘時(shí)應(yīng)掌握的相關(guān)軟件使用技能的考查,考核時(shí)除了要體現(xiàn)學(xué)生對實(shí)驗(yàn)原理的掌握外,更重要的是要反映出學(xué)生在實(shí)驗(yàn)方法的掌握、設(shè)計(jì)、操作過程中的實(shí)際能力,我們?nèi)∠艘酝岩淮涡钥荚嚱Y(jié)果作為總成績的方法,而把學(xué)生平時(shí)課堂實(shí)驗(yàn)成績作為總成績的主要部分,考核成績占課程總成績一定比例。

教師教學(xué)質(zhì)量的評價(jià)與學(xué)生考核成績相對應(yīng),可采用單獨(dú)評價(jià)和統(tǒng)一評價(jià)兩種方式。單獨(dú)評價(jià)是指將社會實(shí)踐作為一個(gè)獨(dú)立的質(zhì)量評價(jià)過程對教師教學(xué)質(zhì)量進(jìn)行考核;統(tǒng)一評價(jià)是指將教師實(shí)踐教學(xué)與理論教學(xué)綜合起來統(tǒng)一考核,以一定比例計(jì)入教師總體評價(jià)。

無論是對學(xué)生,還是對教師,這種分類化的教學(xué)評價(jià)方式,不僅有利于學(xué)生實(shí)際能力的培養(yǎng),而且對教師的教學(xué)水平也是一種促進(jìn),有利于課程教學(xué)質(zhì)量的不斷提高。

5 結(jié)束語

大數(shù)據(jù)時(shí)代,誰能發(fā)掘出數(shù)據(jù)背后的巨大商業(yè)和社會價(jià)值,誰就能在激烈的市場競爭中處于優(yōu)勢。數(shù)據(jù)挖掘作為計(jì)算機(jī)應(yīng)用專業(yè)的研究生核心課程之一,也是學(xué)生今后就業(yè)必需的專業(yè)技能之一。以往的教學(xué)過程理論性強(qiáng),枯燥乏味,考核形式單一,學(xué)生學(xué)習(xí)熱情普遍不高,不利于學(xué)生專業(yè)能力的培養(yǎng)。本文結(jié)合當(dāng)前大數(shù)據(jù)的時(shí)代背景,在構(gòu)架課程核心知識體系的前提下,結(jié)合實(shí)際應(yīng)用領(lǐng)域和案例,分析數(shù)據(jù)挖掘常見算法和常用工具,強(qiáng)調(diào)學(xué)生的參與和主觀能動性的發(fā)揮,而采用分類化的教學(xué)評價(jià)又能比較客觀、公正地評價(jià)學(xué)生對課程知識和專業(yè)實(shí)踐技能的掌握情況以及教師的教學(xué)效果。課程開設(shè)三年來的教學(xué)實(shí)踐證明,學(xué)生綜合運(yùn)用計(jì)算機(jī)專業(yè)知識的能力得到提高,理論與實(shí)踐結(jié)合的創(chuàng)新能力得到鍛煉,教師在教學(xué)過程中不斷完善了自身的知識結(jié)構(gòu),提高了教學(xué)水平,實(shí)現(xiàn)了教學(xué)相長,得到了學(xué)生的好評。

參考文獻(xiàn):

[1] Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].人民郵電出版社,2012.

[2] 李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會通訊,2012.8:8-15

[3] Jiawei Han,Micheline Kamber,Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè)出版社,2012.

篇4

一、引言

大數(shù)據(jù)時(shí)代最為寶貴的資源是數(shù)據(jù),如何有效地分析利用海量數(shù)據(jù)將是數(shù)據(jù)挖掘需要解決的全新問題。數(shù)據(jù)挖掘的相關(guān)算法已非常成熟,并且在各個(gè)領(lǐng)域已取得了廣泛應(yīng)用。但是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘理論與算法需要針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、多媒體數(shù)據(jù)具有更加強(qiáng)大的運(yùn)算和處理能力。因此,數(shù)據(jù)挖掘技術(shù)及應(yīng)用等相關(guān)課程應(yīng)與時(shí)俱進(jìn)地適應(yīng)大數(shù)據(jù)的要求,對數(shù)據(jù)挖掘相關(guān)課程的教學(xué)內(nèi)容進(jìn)行變革。

二、大數(shù)據(jù)環(huán)境特征

Gartner認(rèn)為大數(shù)據(jù)是海量的、高增長率和多樣化的信息資產(chǎn),需要新的處理模式才能實(shí)現(xiàn)對其發(fā)現(xiàn)和優(yōu)化。維基百科認(rèn)為大數(shù)據(jù)所涉及的資料量規(guī)模巨大,以至于目前無法通過主流軟件工具,在一定合理的時(shí)間內(nèi)對其獲取、管理、處理并整理成為能起到?jīng)Q策支持作用的數(shù)據(jù)資源。大數(shù)據(jù)是包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù),麥肯錫認(rèn)為大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲、管理和分析的數(shù)據(jù)集合,因此需要通過數(shù)據(jù)挖掘?qū)崿F(xiàn)對大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集合進(jìn)行分析,以便提供有用的數(shù)據(jù)洞察。大數(shù)據(jù)一般具有四個(gè)主要特征:①數(shù)據(jù)體量巨大(Volume),隨著時(shí)間的推移,衡量數(shù)據(jù)體量的單位從G,T,P到E。②數(shù)據(jù)種類繁多(Variety),互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、傳感網(wǎng)的發(fā)展,使數(shù)據(jù)類型變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁、視頻、音頻、E-mail等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。③流動速度快(Velocity),面對快速動態(tài)變化的流式數(shù)據(jù),獲取、存儲及挖掘有效信息的速度都難以用傳統(tǒng)的系統(tǒng)進(jìn)行處理。④價(jià)值密度低(Value),數(shù)據(jù)量呈指數(shù)增長加大了獲取有用信息的難度,如何快速高效發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在有價(jià)值模式更加困難。

三、數(shù)據(jù)挖掘系統(tǒng)

數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、事先不知道,但又潛在有價(jià)值的信息和知識的過程。數(shù)據(jù)挖掘系統(tǒng)最初僅支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,發(fā)展為與數(shù)據(jù)庫和數(shù)據(jù)倉庫之間存在有效接口而支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,又能進(jìn)一步挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),而研究開發(fā)分布式、移動式的數(shù)據(jù)挖掘系統(tǒng)成為第四代數(shù)據(jù)挖掘系統(tǒng)的重要課題之一,使得數(shù)據(jù)挖掘系統(tǒng)與其他系統(tǒng)聯(lián)合提供決策支持的功能。根據(jù)數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫的耦合程度,可以將數(shù)據(jù)挖掘系統(tǒng)分為不耦合、松散耦合、半緊耦合和緊密耦合四種結(jié)構(gòu)。面對大數(shù)據(jù)環(huán)境,半緊密耦合和緊密耦合是在性能和效率方面比較理想的。半緊密耦合是指除了將數(shù)據(jù)挖掘系統(tǒng)連接到一個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)之外,一些基本的數(shù)據(jù)挖掘原語還可以在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中實(shí)現(xiàn),這種設(shè)計(jì)將提高數(shù)據(jù)挖掘系統(tǒng)的性能。緊密耦合系統(tǒng)是指將數(shù)據(jù)挖掘系統(tǒng)平滑地集成到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)挖掘子系統(tǒng)被視為信息系統(tǒng)的一個(gè)部分。根據(jù)數(shù)據(jù)挖掘的研究體系(如圖1所示),給出數(shù)據(jù)挖掘相關(guān)課程的主要講授內(nèi)容,包括:預(yù)測(Forecast),關(guān)聯(lián)規(guī)則(Association Rules),聚類分析(Clustering Analysis),粗糙集(Rough Sets),進(jìn)化計(jì)算(Evolutionary Computation,EC),灰色系統(tǒng)(Grey System),模糊邏輯(Fuzzy Logic),人工智能與機(jī)器學(xué)習(xí)(Artificial Intelligence,Machine Learning),決策樹(Decision Tree),統(tǒng)計(jì)分析(Statistical Analysis),知識獲取、知識表示、知識推理和知識搜索(Knowledge Acquisition,Representation,Reasoning and Search),決策與控制(Decision and Control),可視化技術(shù)(Visual Technology),并行計(jì)算(Parallel Computing)和海量存儲(Mass Storage)等。

四、大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘

大數(shù)據(jù)的“4V“特征表明對海量的數(shù)據(jù)分析將更加復(fù)雜、更追求速度、更注重實(shí)效。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘應(yīng)實(shí)現(xiàn)海量數(shù)據(jù)建模,通過數(shù)理模型對海量數(shù)據(jù)進(jìn)行整理與分析,發(fā)掘在海量數(shù)據(jù)之中隱藏的分析與決策所需的規(guī)律性知識。將數(shù)據(jù)挖掘作為大數(shù)據(jù)環(huán)境下重要的研究方法或發(fā)現(xiàn)新知識的技術(shù)工具,而不是把數(shù)據(jù)本身當(dāng)成研究目標(biāo),與傳統(tǒng)數(shù)據(jù)挖掘方法有密切聯(lián)系又有本質(zhì)區(qū)別。因此在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘相關(guān)課程教學(xué)中應(yīng)注意以下變化:①數(shù)據(jù)預(yù)處理:除利用數(shù)據(jù)倉庫加載傳統(tǒng)數(shù)據(jù),針對大數(shù)據(jù)分析所涉及到的非結(jié)構(gòu)化數(shù)據(jù),應(yīng)保證輸入數(shù)據(jù)的完整性和相關(guān)的ETL(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)流程的正確性。②數(shù)據(jù)存儲機(jī)制:通過多維立方體實(shí)現(xiàn)結(jié)構(gòu)化的多維數(shù)據(jù)組織與管理,多數(shù)是建立在關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫基礎(chǔ)之上。而需將非結(jié)構(gòu)化數(shù)據(jù)考慮進(jìn)大數(shù)據(jù)分析時(shí),應(yīng)采用分布式文件系統(tǒng),以流的形式訪問文件系統(tǒng)中的數(shù)據(jù),提供訪問擁有超大數(shù)據(jù)集的高傳輸率的應(yīng)用程序(如Hadoop和其他開源的分布式系統(tǒng)基礎(chǔ)架構(gòu))。③數(shù)據(jù)挖掘算法處理能力:面對數(shù)據(jù)規(guī)模的增大,需解決數(shù)據(jù)挖掘算法的效率問題,提高算法的有效性和可伸縮性。④數(shù)據(jù)挖掘算法處理效率:數(shù)據(jù)規(guī)模的不斷增大導(dǎo)致分析處理的時(shí)間相應(yīng)加長,而大數(shù)據(jù)條件下對信息處理的時(shí)效性要求越來越高,應(yīng)建立簡單有效的人工智能算法和新的問題求解方法。

五、小結(jié)

大數(shù)據(jù)時(shí)代的到來對數(shù)據(jù)挖掘的研究和教學(xué)都提出了新的挑戰(zhàn)。應(yīng)從數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲機(jī)制、數(shù)據(jù)挖掘算法處理能力和效率等多個(gè)方面進(jìn)行創(chuàng)新,以適應(yīng)大數(shù)據(jù)環(huán)境下知識管理與智能決策的需要。

參考文獻(xiàn):

[1]陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2011.

[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,(25):142-146.

篇5

文章編號:1672-5913(2007)14-0027-03

1引言

數(shù)據(jù)挖掘是一門綜合性的交叉學(xué)科,它融合了概率統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計(jì)算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險(xiǎn)業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來越廣泛深入地使用,同時(shí)在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢,特別是在客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站設(shè)計(jì)、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨(dú)特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計(jì)算機(jī)應(yīng)用的方式。

從最近計(jì)算機(jī)技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來看,對本校的應(yīng)用性本科生開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺就是“高深莫測”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點(diǎn)大學(xué)的研究生或高年級的本科生中開設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒有開設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門既有理論又有實(shí)踐價(jià)值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計(jì)算機(jī)專業(yè)的學(xué)生的畢業(yè)設(shè)計(jì)以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會從事電子商務(wù)類軟件的開發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺,面對的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對提高計(jì)算機(jī)素養(yǎng)很有必要。即使將來從事控制、通信、游戲、圖像處理等軟件開發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。

2數(shù)據(jù)挖掘課程開設(shè)的可行性分析

從計(jì)算機(jī)技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺得數(shù)據(jù)挖掘的思想、方法以及算法對應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門課程也是完全可能的。我校從1998年以來一直在高年級本科生中開設(shè)了“人工智能”課程,但從教學(xué)效果上來看,很不理想。“數(shù)據(jù)挖掘技術(shù)”這門課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過來的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個(gè)本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開始就是面向大量的、實(shí)際的數(shù)據(jù)庫信息,因此,具有極強(qiáng)的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫技術(shù)”課程的自然延伸,同時(shí)充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計(jì)等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實(shí)踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒有“人工智能”課程作為前導(dǎo)課程,沒有任何影響,因?yàn)椋瑪?shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡單、更加直接、更加面向應(yīng)用的方式。開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。

1) 必須深入學(xué)習(xí)一門程序設(shè)計(jì)語言,通過這門語言的學(xué)習(xí)可以掌握程序設(shè)計(jì)的基礎(chǔ)知識,并且掌握面向?qū)ο笏枷腴_發(fā)的精髓,能夠進(jìn)行可視化程序設(shè)計(jì)。學(xué)習(xí)程序設(shè)計(jì)絕不是記住程序設(shè)計(jì)語言的語法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦颉_@一點(diǎn)是計(jì)算機(jī)專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒有做好,其余的計(jì)算機(jī)專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫原理、編譯原理、軟件工程等就無法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計(jì)算機(jī)發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。

2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹的特點(diǎn)和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹主要以二叉樹為主,對于一般的樹,在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹轉(zhuǎn)化為二叉樹來進(jìn)行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹的應(yīng)用,并且大多都是不太規(guī)則的樹,在數(shù)據(jù)挖掘中,采用樹的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。

3) 掌握“數(shù)據(jù)庫技術(shù)”課程中數(shù)據(jù)庫操作的特點(diǎn)和應(yīng)用。數(shù)據(jù)挖掘的對象主要是數(shù)據(jù)庫中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉庫,或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫的次數(shù)。

4) 掌握“Web技術(shù)”。這是因?yàn)镮nternet已經(jīng)廣泛應(yīng)用并且深入人心,未來的軟件相當(dāng)多的都是基于Web平臺之上,因此,對于Web挖掘不僅重要,而且具有直接的應(yīng)用價(jià)值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價(jià)值的信息或提高了個(gè)性化能力,大大增強(qiáng)了企業(yè)的競爭力。因此,掌握“Web技術(shù)”課程對Web挖掘很有裨益。

5) 熟悉“概率統(tǒng)計(jì)”課程中的思維方式,對各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運(yùn)用了概率統(tǒng)計(jì)中的思想和方法。

從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實(shí)踐中明顯看出,主要需要以上幾門課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過對一些主要的挖掘算法的實(shí)現(xiàn),對“數(shù)據(jù)庫技術(shù)”、“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫技術(shù)”的自然延伸,是“程序設(shè)計(jì)語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”的綜合運(yùn)用得到良好效果。

3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置

一門課程的設(shè)置,不僅要根據(jù)當(dāng)前計(jì)算機(jī)技術(shù)的發(fā)展,同時(shí)也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點(diǎn)。兩年前,經(jīng)過多方面的考慮以及參考了各種國內(nèi)國外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時(shí)定為32課時(shí),講課22學(xué)時(shí),上機(jī)實(shí)驗(yàn)10學(xué)時(shí)。在這個(gè)總的學(xué)時(shí)定下來之后,就是對“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計(jì),這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點(diǎn)以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點(diǎn),要具有很強(qiáng)的針對性,重點(diǎn)要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:

1) 數(shù)據(jù)挖掘綜述2學(xué)時(shí)。本講側(cè)重于從兩、三個(gè)具體應(yīng)用領(lǐng)域進(jìn)行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識要點(diǎn)。

2) 數(shù)據(jù)挖掘過程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時(shí)。數(shù)據(jù)挖掘的過程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評估。本講重點(diǎn)講解挖掘的過程,強(qiáng)調(diào)數(shù)據(jù)預(yù)處理對挖掘的重要意義,對于缺省的值、殘缺的值等的處理方法。讓學(xué)生對數(shù)據(jù)挖掘的整體過程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。

3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時(shí)。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進(jìn)、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個(gè)算法需要2學(xué)時(shí),對每個(gè)算法要進(jìn)行徹底分析,不僅能夠理解算法的原理、思想以及過程,還要分析算法提出人為什么會提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及如何用Java或C++來編程實(shí)現(xiàn)該算法。最后,對多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個(gè)簡單介紹即可。

4) 分類技術(shù)4學(xué)時(shí)。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對于C4.5要求能夠從原理上把握整個(gè)算法,能夠進(jìn)行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢所在;對于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對于FP_TREE以及C4.5算法的實(shí)現(xiàn),需要用到不規(guī)則樹,提出用C++或Java解決這種不規(guī)則樹的方法。

5) 聚類技術(shù)4學(xué)時(shí)。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對于當(dāng)前重要的聚類STING和CLIQUE做個(gè)簡單介紹。最后,比較聚類和分類的不同之處。

6) Web挖掘與個(gè)性化推薦技術(shù)4學(xué)時(shí)。對于Web挖掘從內(nèi)容挖掘、訪問行為挖掘和結(jié)構(gòu)挖掘三個(gè)方面進(jìn)行講解,重點(diǎn)講解個(gè)性化技術(shù)。對基于最小關(guān)聯(lián)規(guī)則集的個(gè)性化推薦以及基于協(xié)作篩的個(gè)性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計(jì)中的重要意義。

7) 上機(jī)實(shí)驗(yàn)設(shè)計(jì)。精選五個(gè)上機(jī)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實(shí)現(xiàn),兩個(gè)任選一個(gè),如果選擇Apriori的話,需要采取一些效率改進(jìn)措施;第二個(gè)實(shí)驗(yàn)是序列模式挖掘中的AprioriSome算法;第三個(gè)實(shí)驗(yàn)是分類技術(shù)中的ID3或C4.5算法,這兩個(gè)算法的主體相同,任做一個(gè)即可;第四個(gè)實(shí)驗(yàn)是聚類中的PAM或DBSCAN算法,兩個(gè)任選一個(gè);第五個(gè)實(shí)驗(yàn)是利用協(xié)作篩進(jìn)行個(gè)性化網(wǎng)站的智能推薦。以上五個(gè)實(shí)驗(yàn)每個(gè)實(shí)驗(yàn)2學(xué)時(shí),建議編程語言采用Java或C++,最后挖掘結(jié)果具有可理解性。

當(dāng)然,以上的課程內(nèi)容設(shè)計(jì)會隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進(jìn)行微調(diào),以適應(yīng)不斷變化的計(jì)算機(jī)技術(shù)發(fā)展與社會需求。

4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實(shí)踐總結(jié)

兩年前,雖然已對“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開設(shè)這門課程的時(shí)候,很擔(dān)心這門“高深莫測”的課程的教學(xué)效果。但經(jīng)過兩年的教學(xué)實(shí)踐發(fā)現(xiàn),這門課程的教學(xué)效果比預(yù)想的還要好。通過對該門課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時(shí)對以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運(yùn)用有了非常深刻的認(rèn)識。更為重要的是,本課程的五個(gè)實(shí)驗(yàn)都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過對這些算法的編程實(shí)現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時(shí),這些數(shù)據(jù)挖掘算法實(shí)現(xiàn)的程序經(jīng)過不斷改進(jìn)、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實(shí)用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)常看到一些初學(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進(jìn)的程序源代碼作為免費(fèi)資源贈送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻(xiàn)了微薄之力。

5結(jié)束語

“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對的是本校應(yīng)用型計(jì)算機(jī)專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計(jì)算機(jī)專業(yè)學(xué)生才需要掌握的課程,對于我校通信系、電力系、自動化系等工科專業(yè),經(jīng)濟(jì)系、管理系甚至一些文科類的學(xué)生也很有價(jià)值,因此,怎樣在非計(jì)算機(jī)專業(yè)的應(yīng)用型本科生中開設(shè)好這門新興課程,甚至在高職高專學(xué)生中也開設(shè)好這門課程,則是需要作進(jìn)一步的探索和嘗試。

參考文獻(xiàn):

[1] 毛國君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.

[2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.

[3] 余力. 電子商務(wù)個(gè)性化[M]. 北京:清華大學(xué)出版社,2007.

A Test to Applied College Students on Teaching Data Mining

XU Jin-bao

(Dept. of Computer Engineering, Nanjing Institute of Technology,

Nanjing 211100,China)

篇6

隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,亟需對信息管理專業(yè)的本科生加強(qiáng)對相關(guān)知識的介紹,此時(shí)進(jìn)行課程改革,調(diào)整、增加授課學(xué)時(shí)和實(shí)踐環(huán)節(jié)有重要意義。數(shù)據(jù)挖掘是一門與多學(xué)科交叉的新興計(jì)算機(jī)專業(yè)課程,其課程內(nèi)容豐富、應(yīng)用范圍廣、實(shí)踐工具類型繁多。在有限授課時(shí)間內(nèi),如何選擇適合于信息管理專業(yè)的本科生的課程內(nèi)容、案例與軟件工具,選用何種有針對性的教學(xué)方法,是進(jìn)行數(shù)據(jù)挖掘課程設(shè)計(jì)需要解決的主要問題。

一、國內(nèi)外數(shù)據(jù)挖掘類課程建設(shè)研究分析

近年來,數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國外相關(guān)研究,尤其是ACM SIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設(shè)建議,對進(jìn)行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國計(jì)算機(jī)協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACM SIGKDD課程委員會連續(xù)多年多次更新其主要課程――數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學(xué)的計(jì)算機(jī)科學(xué)學(xué)院、商學(xué)院都開設(shè)了數(shù)據(jù)挖掘類課程并同時(shí)進(jìn)行相關(guān)研究。波士頓大學(xué)開設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國內(nèi)很多學(xué)校都開設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國大多數(shù)高校的課程大綱內(nèi)容與國外大致相同,只是在實(shí)踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開課學(xué)院和專業(yè)選擇合適的實(shí)例。

二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)

數(shù)據(jù)挖掘課程是一門綜合性很強(qiáng)的前沿學(xué)科,對計(jì)算機(jī)軟硬件、數(shù)據(jù)庫、人工智能技術(shù)、統(tǒng)計(jì)學(xué)算法、優(yōu)化算法等基礎(chǔ)知識都有較高的要求。因此該門課程開設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識的基礎(chǔ),又為大四做畢業(yè)設(shè)計(jì)提供了一種思路。信息管理專業(yè)是計(jì)算機(jī)與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問題中的應(yīng)用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開發(fā)。

三、基于模塊化方法的課程內(nèi)容分析

模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個(gè)人興趣和職業(yè)取向在不同模塊之間進(jìn)行選擇和搭配,從而實(shí)現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求[1,2]。模塊化教學(xué)本質(zhì)上是以知識點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究的。商務(wù)智能方法本身非常豐富,實(shí)踐應(yīng)用也是課程的主要特點(diǎn)之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點(diǎn)模塊管理分為兩個(gè)層次,一是從宏觀角度設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度針對較為復(fù)雜的教學(xué)內(nèi)容進(jìn)行的知識點(diǎn)劃分。

1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則、分類與預(yù)測、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實(shí)踐模塊既包含數(shù)據(jù)倉庫的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級主題之間。

2.復(fù)雜知識點(diǎn)的模塊化管理。從微觀角度對知識點(diǎn)進(jìn)行設(shè)計(jì)主要針對的是上述的高級主題、以及難度介于基礎(chǔ)內(nèi)容與高級主題之間的章節(jié),由于這些章節(jié)知識點(diǎn)在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎(chǔ)算法――決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進(jìn)行預(yù)測時(shí),還要分析預(yù)測準(zhǔn)確度;最終要將所學(xué)知識加以應(yīng)用。這樣就形成了一個(gè)結(jié)構(gòu)清晰、難度循序漸進(jìn)的知識點(diǎn)模塊的層次關(guān)系。在宏觀角度、微觀角度對教學(xué)內(nèi)容進(jìn)行分類的前提下進(jìn)行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。

四、授課與考核方法設(shè)計(jì)

對不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識點(diǎn)的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計(jì)時(shí)充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對于高級算法和實(shí)現(xiàn)部分,通常可以選擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個(gè)基本教學(xué)單元為專題,學(xué)生自主研究作為知識傳遞的基本形式,將多種靈活的教學(xué)方式綜合運(yùn)用到教學(xué)環(huán)節(jié)的教學(xué)方法[3]。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對學(xué)生調(diào)研的情況,實(shí)踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進(jìn)行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計(jì)綜合性實(shí)驗(yàn)。實(shí)驗(yàn)中給出部分操作步驟,并在實(shí)驗(yàn)后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計(jì)數(shù)據(jù)倉庫、進(jìn)行數(shù)據(jù)挖掘、并對挖掘結(jié)果進(jìn)行多種形式的展示。

五、結(jié)論

本文通過國內(nèi)外數(shù)據(jù)挖掘課程內(nèi)容、分類、教學(xué)方法的分析,針對信管專業(yè)本科生的培養(yǎng)要求,研究了數(shù)據(jù)挖掘課程建設(shè)的主要內(nèi)容,并針對知識點(diǎn)的不同模塊,實(shí)行不同的授課方式,使學(xué)生更加明確重點(diǎn)、難點(diǎn)和擴(kuò)展內(nèi)容,提高了學(xué)生的聽課效率,對教學(xué)內(nèi)容的模塊化分類、以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進(jìn)行更深入的研究和實(shí)踐。

參考文獻(xiàn):

[1]韋艷艷,張超群.模塊化教學(xué)與學(xué)習(xí)遷移[J].當(dāng)代教育論壇,2018,(5).

[2]鄭浩,陶虎,王曉輝.高校模塊化教學(xué)模式及其效果評價(jià)方法[J].科技信息,2012,(25).

篇7

關(guān)鍵詞:數(shù)據(jù)挖掘;理論創(chuàng)新;多元教學(xué);多梯度實(shí)驗(yàn)

0 引 言

在當(dāng)前大數(shù)據(jù)時(shí)代背景下,如何從海量數(shù)據(jù)中挖掘并提煉出對人們真正有用的知識,是大數(shù)據(jù)研究的難點(diǎn)問題,同時(shí)也是目前數(shù)據(jù)挖掘面臨的關(guān)鍵和核心問題[1]。數(shù)據(jù)挖掘作為當(dāng)前計(jì)算機(jī)專業(yè)的一個(gè)前沿課程,是一個(gè)綜合性的交叉課程,也是重要的學(xué)術(shù)研究方向,其內(nèi)容涉及多方面基礎(chǔ)理論學(xué)科和應(yīng)用性強(qiáng)的技術(shù)領(lǐng)域,是提高計(jì)算機(jī)專業(yè)學(xué)生應(yīng)用實(shí)踐能力和理論創(chuàng)新能力的載體課程,在整個(gè)計(jì)算機(jī)專業(yè)的學(xué)習(xí)中具有極為重要的地位。

1 教學(xué)現(xiàn)狀

數(shù)據(jù)挖掘作為一門同時(shí)具備應(yīng)用性和學(xué)術(shù)性的課程,早期屬于計(jì)算機(jī)專業(yè)研究生培養(yǎng)的專業(yè)課程,但隨著數(shù)據(jù)挖掘在各個(gè)領(lǐng)域的廣泛應(yīng)用,現(xiàn)已成為計(jì)算機(jī)專業(yè)本科培養(yǎng)的專業(yè)選修課之一。目前,數(shù)據(jù)挖掘課程在教學(xué)內(nèi)容、教學(xué)方法和實(shí)驗(yàn)教學(xué)模式上存在諸多不足之處。

(1)教W內(nèi)容陳舊。目前的教學(xué)內(nèi)容一般根據(jù)某本數(shù)據(jù)挖掘教科書進(jìn)行講解,由于數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,一本教科書往往很難全面概括數(shù)據(jù)挖掘的內(nèi)容、方法和技術(shù)。

(2)基礎(chǔ)理論算法與實(shí)驗(yàn)教學(xué)脫節(jié)。當(dāng)前的教學(xué)路線往往是使本科學(xué)生從了解和掌握數(shù)據(jù)挖掘的基本任務(wù)開始,然后講授數(shù)據(jù)挖掘的各種基本算法,最后上機(jī)實(shí)驗(yàn)。這一教學(xué)方式側(cè)重于以應(yīng)用為主,主要目標(biāo)在于培養(yǎng)計(jì)算機(jī)工程的應(yīng)用人才。然而,由于基礎(chǔ)理論算法與實(shí)驗(yàn)教學(xué)分開講解,使得學(xué)生缺乏對使用數(shù)據(jù)挖掘解決實(shí)際問題的能力。

(3)理論創(chuàng)新意識的缺乏。在當(dāng)前的本科教學(xué)中側(cè)重工程實(shí)踐能力的培養(yǎng),忽略理論創(chuàng)新的培養(yǎng)。在數(shù)據(jù)挖掘課程中,理論創(chuàng)新是指學(xué)生對所學(xué)的數(shù)據(jù)挖掘算法有自己的見解,能有意識地思考目前數(shù)據(jù)挖掘面臨的問題并提出新的數(shù)據(jù)挖掘算法。

(4)實(shí)驗(yàn)教學(xué)僵化。當(dāng)前的實(shí)驗(yàn)教學(xué)往往是固定的幾個(gè)算法驗(yàn)證性實(shí)驗(yàn),對于不同學(xué)習(xí)能力的人而言,實(shí)驗(yàn)教學(xué)往往很難達(dá)到理想的效果。

目前,對日新月異的科技發(fā)展、以科技創(chuàng)新和技術(shù)升級為核心特征的激烈國際競爭,我國自主創(chuàng)新能力較為薄弱的問題已經(jīng)越來越成為信息化發(fā)展的瓶頸[2],這也給數(shù)據(jù)挖掘教學(xué)帶來巨大挑戰(zhàn),即教師如何在教學(xué)過程中提高學(xué)生的理論創(chuàng)新能力?

2 教學(xué)方法的改革

2.1 教學(xué)內(nèi)容的前沿性與統(tǒng)一性

作為一門新興的前沿課程,該門課程內(nèi)容、方法和技術(shù)仍處于發(fā)展和探索階段。通過固定的教材去系統(tǒng)地傳授數(shù)據(jù)挖掘的內(nèi)容顯然是不太合理的。因此,與傳統(tǒng)學(xué)科不同,數(shù)據(jù)挖掘教學(xué)內(nèi)容需要進(jìn)行更新,并根據(jù)學(xué)生的接受能力進(jìn)行甄別篩選。同時(shí),要求任課教師在不斷發(fā)展的新技術(shù)與相對穩(wěn)定的教材中尋找一條貫穿整個(gè)教學(xué)內(nèi)容的主線,在講課的過程中,結(jié)合數(shù)據(jù)挖掘研究進(jìn)展,配合自己的研究成果,把最新的技術(shù)融入到課堂中。此外,由于數(shù)據(jù)挖掘是多學(xué)科的交叉課程,內(nèi)容涉及統(tǒng)計(jì)學(xué)、算法、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識別、可視化等,而本科生的知識體系薄弱,在短時(shí)間難以透徹理解各部分內(nèi)容。因此,教學(xué)過程中教師應(yīng)合理設(shè)計(jì)教學(xué)大綱和方案,有機(jī)地學(xué)內(nèi)容,讓學(xué)生對數(shù)據(jù)挖掘有一個(gè)整體的了解。建立不同數(shù)據(jù)挖掘任務(wù)之間的相互關(guān)聯(lián),同時(shí)以項(xiàng)目講解的方式將數(shù)據(jù)挖掘涉及的數(shù)據(jù)預(yù)處理、聚類分析、分類預(yù)測、噪聲檢測、關(guān)聯(lián)規(guī)則挖掘等有機(jī)結(jié)合在一起。

2.2 理論創(chuàng)新的多元教學(xué)

針對現(xiàn)有本科生教學(xué)中理論創(chuàng)新意識的缺乏,嘗試進(jìn)行多元化教學(xué)模式,主要從以下4個(gè)方面展開。

(1)區(qū)分教學(xué)內(nèi)容的難易度,將教學(xué)內(nèi)容分為基礎(chǔ)內(nèi)容與進(jìn)階內(nèi)容。在講授中注重基礎(chǔ)內(nèi)容的原理性,并有意識地讓學(xué)生接觸一些前沿性的理論拓展知識。比如在講解分類算法時(shí),首先專注幾個(gè)經(jīng)典的分類算法,如K―最鄰近、決策樹、樸素貝葉斯和支持向量機(jī)等。同時(shí),在此基礎(chǔ)上,給學(xué)生講述目前分類的一些前沿方法,如集成學(xué)習(xí)、深度學(xué)習(xí)和遷移學(xué)習(xí)等。

(2)以問題為驅(qū)動教學(xué)。在講解聚類算法時(shí),可以通過“物以類聚,人以群分”的思想展開,具體介紹K―MEANS和DBSCAN兩個(gè)具有代表性的聚類算法,讓學(xué)生思考數(shù)據(jù)挖掘不同算法提出的原因、基本思想和優(yōu)劣性,初步引導(dǎo)學(xué)生的自我思考、自我學(xué)習(xí)的創(chuàng)新思維能力。同時(shí),針對數(shù)據(jù)具有的高維性,讓學(xué)生進(jìn)一步思考“高維詛咒”問題及在此問題上展開的子空間聚類的研究。

(3)建立“教研統(tǒng)一”研究式教學(xué)方法,利用教師現(xiàn)有科研促進(jìn)和服務(wù)于教學(xué),探索形成“科研嵌入”理論教學(xué)內(nèi)容。將教師在自己的研究與教學(xué)內(nèi)容進(jìn)行有機(jī)結(jié)合,豐富教學(xué)內(nèi)容,拓寬學(xué)生視野,提高學(xué)生實(shí)踐能力和創(chuàng)新能力,實(shí)現(xiàn)科研成果融入教學(xué)。這樣既提高了學(xué)生學(xué)習(xí)知識的興趣性,又培養(yǎng)了潛在的科學(xué)素養(yǎng)。此外,在整個(gè)教學(xué)環(huán)節(jié)中布置兩個(gè)任務(wù),一是讓學(xué)生進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)調(diào)研(主要涉及數(shù)據(jù)挖掘的歷史、現(xiàn)狀、面臨的挑戰(zhàn)及當(dāng)前的行業(yè)應(yīng)用),二是在課程結(jié)束后進(jìn)行主題研究報(bào)告,每個(gè)學(xué)生選擇自己感興趣的一個(gè)主題進(jìn)行,研究報(bào)告的目的是讓學(xué)生深入理解所學(xué)內(nèi)容,為后續(xù)的科研工作打下基礎(chǔ)。

(4)教學(xué)模式由傳統(tǒng)“填鴨式”向“互動式”教學(xué)轉(zhuǎn)變。通過研討方式引導(dǎo)學(xué)生去思考,激發(fā)學(xué)生的求知欲,充分調(diào)動其學(xué)習(xí)的積極性和主觀能動性。通過具體實(shí)例,讓學(xué)生知道算法的應(yīng)用場合,提高學(xué)習(xí)興趣和效率。

2.3 多梯度實(shí)驗(yàn)教學(xué)

實(shí)驗(yàn)教學(xué)是使學(xué)生在實(shí)踐環(huán)節(jié)將數(shù)據(jù)挖掘課程中學(xué)習(xí)的理論算法應(yīng)用于實(shí)踐,幫助學(xué)生理解和掌握知識,提高動手能力。傳統(tǒng)的上機(jī)實(shí)驗(yàn)往往是側(cè)重幾個(gè)經(jīng)典算法的實(shí)現(xiàn),如KMEANS、KNN、ID3決策樹和LOF算法等。然而,數(shù)據(jù)挖掘是一門工程應(yīng)用性較強(qiáng)的學(xué)科,這種算法驗(yàn)證實(shí)驗(yàn)很難讓學(xué)生體會到數(shù)據(jù)挖掘的實(shí)際應(yīng)用,因此,從基礎(chǔ)能力培養(yǎng)、工程應(yīng)用及創(chuàng)新研究3個(gè)方面設(shè)計(jì)多梯度實(shí)驗(yàn)。

首先,按照由淺入深的原則設(shè)計(jì)2個(gè)經(jīng)典算法實(shí)現(xiàn),如KMEANS和 ID3決策樹。這個(gè)實(shí)驗(yàn)為算法型實(shí)驗(yàn),主要是幫助學(xué)生通過實(shí)驗(yàn)更好地了解所學(xué)算法,學(xué)生也可以自己選擇聚類分析和分類預(yù)測的任意兩個(gè)算法進(jìn)行實(shí)現(xiàn)。

其次,設(shè)計(jì)一個(gè)簡單綜合型實(shí)驗(yàn),比如垃圾郵件的分類系統(tǒng),要求學(xué)生完成從數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理到整個(gè)系統(tǒng)的實(shí)現(xiàn)。主要考查學(xué)生綜合運(yùn)用數(shù)據(jù)挖掘知識,解決實(shí)際問題的能力,注重工程能力的培養(yǎng)。

最后是創(chuàng)新算法的實(shí)驗(yàn)設(shè)計(jì),比如子空間聚類算法的實(shí)現(xiàn)。這個(gè)實(shí)驗(yàn)注重部分學(xué)生創(chuàng)新能力的培養(yǎng),尤其是致力于以后從事科學(xué)研究的學(xué)生。學(xué)生可以根據(jù)自己的愛好,選擇算法型實(shí)驗(yàn)和綜合型實(shí)驗(yàn),也可以選擇算法型實(shí)驗(yàn)和創(chuàng)新算法設(shè)計(jì)實(shí)驗(yàn)。多梯度實(shí)驗(yàn)的目的主要是希望針對不同學(xué)生的學(xué)習(xí)興趣及將來的發(fā)展方向,給出合適的實(shí)驗(yàn)教學(xué)。實(shí)驗(yàn)的整體難度由易到難,層層深入,有利于學(xué)生實(shí)踐能力和創(chuàng)新能力的培養(yǎng)。

3 結(jié) 語

當(dāng)前,數(shù)據(jù)挖掘正處在快速發(fā)展的過程中,各個(gè)領(lǐng)域的大量應(yīng)用使得對數(shù)據(jù)挖掘這門課程的工程應(yīng)用能力要求越來越高,需要學(xué)生具有更好的創(chuàng)新能力,因此,數(shù)據(jù)挖掘課程的教學(xué)也同樣需要調(diào)整教學(xué)內(nèi)容和教學(xué)手段來緊跟其發(fā)展的步伐。基于此,我們提出在課程內(nèi)容的前沿性、教學(xué)模式的多元性及實(shí)驗(yàn)教學(xué)的多梯度性上進(jìn)行改革,從而達(dá)到在培養(yǎng)學(xué)生工程實(shí)踐能力的同時(shí),提高其創(chuàng)新思維能力。

基金項(xiàng)目:電子科技大學(xué)“互聯(lián)網(wǎng)+”課程建設(shè)教改專項(xiàng)。

第一作者簡介:邵俊明,男,教授,研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及在交叉學(xué)科的應(yīng)用研究, 。

篇8

1程序設(shè)計(jì)課程與數(shù)據(jù)挖掘技術(shù)概述

程序設(shè)計(jì)課程是培養(yǎng)學(xué)生軟件開發(fā)能力的一門課程。目前國內(nèi)的理工類學(xué)校或相關(guān)專業(yè)普遍都為學(xué)生開設(shè)了程序設(shè)計(jì)課程。一直以來,如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計(jì)中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗(yàn)來解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識更新迅速的計(jì)算機(jī)教學(xué)過程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫技術(shù)及時(shí)發(fā)現(xiàn)問題和解決問題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進(jìn)行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個(gè)階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達(dá)。下面以C語言為例介紹在程序設(shè)計(jì)課程教學(xué)中,對學(xué)生程序作業(yè)進(jìn)行數(shù)據(jù)挖掘的一種應(yīng)用方案。

2程序設(shè)計(jì)課程的數(shù)據(jù)挖掘過程

2.1 數(shù)據(jù)準(zhǔn)備

根據(jù)程序設(shè)計(jì)課程的教學(xué)特點(diǎn),我們按錯(cuò)誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評閱結(jié)果歸納為以下5類,即題目錯(cuò)誤、編譯時(shí)語法錯(cuò)誤、編譯時(shí)語法警告、編譯后運(yùn)行結(jié)果不完全正確、編譯后運(yùn)行結(jié)果完全正確。為了對學(xué)生程序作業(yè)中的問題進(jìn)一步分析原因,我們對以下8類數(shù)據(jù)進(jìn)行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語句類型序列、表達(dá)式序列、運(yùn)算符序列、標(biāo)識符序列、數(shù)值常量序列以及簡化的字符常量序列。

要將文件形式的源程序分解為以上8項(xiàng)數(shù)據(jù),就需要按語法規(guī)則完成以下步驟:

(1) 過濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;

(2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;

(3) 對照語法元素表,進(jìn)一步將程序分解為關(guān)鍵字、標(biāo)識符、常量、運(yùn)算符、定界符等語法元素序列;

(4) 將數(shù)值常量以空格為連接符連接為一個(gè)數(shù)值常量序列;

(5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個(gè)簡化的字符常量序列;

(6) 將所有運(yùn)算符以空格為連接符連接為一個(gè)運(yùn)算符序列;

(7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識符序列;

(8) 將運(yùn)算符與標(biāo)識符及常量以空格為連接符連接為一個(gè)表達(dá)式序列;

(9) 將程序中的語句分類為表達(dá)式語句、函數(shù)調(diào)用語句、空語句、復(fù)合語句、if語句、else語句、switch語句、case語句、while語句、do語句、for語句、break語句、continue語句、return語句和goto語句,并組織成語句類型序列;

(10) 對語句按分號和大括號等定界符劃分為模塊函數(shù)序列;

(11) 將模塊內(nèi)語句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。

2.2 挖掘操作的過程

由于篇幅所限,下面僅以程序設(shè)計(jì)教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運(yùn)算符序列為考察數(shù)據(jù)具體描述挖掘過程。

(1)數(shù)據(jù)清理

首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評閱結(jié)果組成一個(gè)數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯(cuò)誤的主要因素,而題目錯(cuò)誤僅僅是因?yàn)閷W(xué)生操作馬虎,與掌握程序設(shè)計(jì)的能力并不相關(guān),因此把評閱結(jié)果全部正確的和題目錯(cuò)誤的記錄過濾掉,只保留評閱結(jié)果為語法錯(cuò)誤、語法警告和運(yùn)行錯(cuò)誤的記錄(如表2所示)。

(2)構(gòu)造1項(xiàng)侯選集,發(fā)現(xiàn)頻繁1項(xiàng)集

將所有數(shù)據(jù)作為1項(xiàng)集中的元素,構(gòu)造1項(xiàng)侯選集,并計(jì)算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項(xiàng)集,如表4所示。

(3)構(gòu)造2項(xiàng)侯選集,發(fā)現(xiàn)頻繁2項(xiàng)集

將所有頻繁1項(xiàng)集元素兩兩組合,構(gòu)成侯選2項(xiàng)集,并計(jì)算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項(xiàng)集{=/*(-),編譯警告}。

2.3 結(jié)果表達(dá)和解釋

保留下來的2項(xiàng)集的兩個(gè)元素分別代表了錯(cuò)誤類型和造成該類型錯(cuò)誤的主要語法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運(yùn)算符是造成編譯警告的主要原因。

3數(shù)據(jù)挖掘應(yīng)用效果

在現(xiàn)實(shí)的教學(xué)過程中,我們對2005級8個(gè)班275名學(xué)生的5385個(gè)程序進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)題目錯(cuò)誤的比例約占1.49%,編譯錯(cuò)誤的比例約占3.38%,編譯時(shí)警告的比例約占1.21%,運(yùn)行錯(cuò)誤的比例約占8.10%,運(yùn)行正確的比例約占85.82%。其中造成編譯錯(cuò)誤的主要原因是注釋信息或各級括號定界符未配對;造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時(shí)缺少地址運(yùn)算符或用戶變量定義后未使用;造成運(yùn)行錯(cuò)誤的主要原因是除法運(yùn)算符兩側(cè)運(yùn)算量為整型常量。下面的圖表反映了在程序設(shè)計(jì)課程的教學(xué)中沒有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對比。

圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計(jì)圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語法錯(cuò)誤發(fā)生率。可以發(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績基本呈水平小波動隨機(jī)形狀,表明學(xué)生成績在學(xué)習(xí)過程中沒有明顯變化,同樣嚴(yán)重語法錯(cuò)誤發(fā)生率也沒有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計(jì)圖,可以發(fā)現(xiàn)學(xué)生的成績隨著系統(tǒng)的使用時(shí)間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時(shí)嚴(yán)重語法錯(cuò)誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對比說明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語法錯(cuò)誤和算法錯(cuò)誤的主要因素,使學(xué)生得到及時(shí)地反饋并在以后的程序設(shè)計(jì)中避免相似的錯(cuò)誤,從而明顯的改善了教學(xué)效果。

參考文獻(xiàn):

[1] 李建中,王珊 . 數(shù)據(jù)庫系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.

[2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.

篇9

Data Mining Based Course Competence Development of C Programming Language for Vocational College

GUO Xiao-chen1,2

(Chenzhou Vocational Technical College,Chenzhou 423000,China)

Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.

Key words: data mining; concept description;class comparision; C Programming Language

1 引言

C語言程序設(shè)計(jì)課程是計(jì)算機(jī)應(yīng)用和電子信息工程專業(yè)的必修程序設(shè)計(jì)課,是知識性、技能性和實(shí)踐性很強(qiáng)的課程。主要培養(yǎng)學(xué)生利用計(jì)算機(jī)來處理實(shí)際問題的能力和培養(yǎng)學(xué)生程序設(shè)計(jì)的思維能力,使學(xué)生能夠掌握C語言的基本語法和算法,能利用C語言進(jìn)行基本的程序設(shè)計(jì)。

C語言程序設(shè)計(jì)主要由數(shù)據(jù)描述、程序控制兩大模塊組成,包括基礎(chǔ)數(shù)據(jù)類型、流程控制、函數(shù)和復(fù)雜數(shù)據(jù)類型等四個(gè)單元的內(nèi)容。筆者從事多年的C語言程序設(shè)計(jì)教學(xué)工作,如何利用有效數(shù)據(jù)分析工具,將所積累的豐富的數(shù)據(jù)轉(zhuǎn)換為有價(jià)值的知識,了解和分析學(xué)生的知識掌握及能力培養(yǎng)情況,并采用相應(yīng)的教學(xué)改革。

2 數(shù)據(jù)挖掘技術(shù)的概念和內(nèi)涵

數(shù)據(jù)挖掘(DataMining)是對大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù),進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從而提取能輔助決策的關(guān)鍵性數(shù)據(jù),并能結(jié)合應(yīng)用領(lǐng)域的特點(diǎn),推導(dǎo)出有用的知識的過程;簡而言之,數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。通常采用概念/類描述、關(guān)聯(lián)分析、分類和預(yù)測、聚類分析及演變分析等方法來完成數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程是一個(gè)線性的過程,依據(jù)不同信息平臺的數(shù)據(jù)類型,采用面向環(huán)境的管理方式,實(shí)現(xiàn)面向環(huán)境要求的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程一般由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋與評估四個(gè)階段組成。

3 數(shù)據(jù)挖掘技術(shù)在《C語言程序設(shè)計(jì)》課程能力培養(yǎng)分析中的應(yīng)用

3.1 數(shù)據(jù)倉庫的建立

挖掘所需要的數(shù)據(jù)來源于某高職院校近3年來計(jì)算機(jī)應(yīng)用和電子信息工程兩專業(yè)近860名學(xué)生的C語言程序設(shè)計(jì)這門課程的期末考試成績、實(shí)驗(yàn)成績及實(shí)習(xí)成績,給定屬性學(xué)號(ID)、姓名(name)、性別(gender)、專業(yè)(major)、科類(section)、成績(result)。成績部分包括考試成績(test_result簡稱為t_r)、實(shí)驗(yàn)成績(experimental_result簡稱為e_r) 、實(shí)習(xí)成績(practice_result簡稱為p_r)及總分?jǐn)?shù)(total_score簡稱為t_s),其中總分?jǐn)?shù)=考試成績×70%+實(shí)習(xí)成績×20%+實(shí)驗(yàn)成績×10%。通過對考試試卷的分析統(tǒng)計(jì),基礎(chǔ)數(shù)據(jù)類型(Foundation Data Type簡稱為FDT)、流程控制(Process Control簡稱為PC)、函數(shù)(Function簡稱為F)和復(fù)雜數(shù)據(jù)類型(Complicated Data Type簡稱為CDT)四個(gè)單元的分?jǐn)?shù)比重分別為20%,30%,20%,30%,綜合考慮各單元的內(nèi)容,匯總統(tǒng)計(jì)出各單元的滿分分值為14,21,14,21。

該數(shù)據(jù)挖掘任務(wù)可以用DMQL表示如下:

Define cub discretmath〔ID,name,gender,section,major,result〕。

total_score=sum (result);

define dimension result(test_result,Programes_result,practice_ result);

define dimension test_result(FDT,PC,F, CDT)。

數(shù)據(jù)倉庫的結(jié)構(gòu)如表1:

3.2 數(shù)據(jù)的預(yù)處理

由于現(xiàn)實(shí)中的數(shù)據(jù)多半是不完整的、有噪聲的、不一致的,某些學(xué)生的成績會因教師個(gè)人感情或其它因素而分?jǐn)?shù)偏高或偏低,從而導(dǎo)致現(xiàn)有分?jǐn)?shù)含有一定偏差的噪聲數(shù)據(jù),對此可以通過數(shù)據(jù)的預(yù)處理技術(shù)改進(jìn)數(shù)據(jù)的質(zhì)量,提高其后的挖掘過程的精度和性能。本文利用數(shù)據(jù)清理中的聚類中K_平均算法找出孤立點(diǎn),并利用分箱技術(shù)將噪聲去掉。表2為經(jīng)過數(shù)據(jù)預(yù)處理的二維視圖。

以上數(shù)據(jù)倉庫中的數(shù)據(jù),就是經(jīng)過預(yù)處理后,得到的是集成的、概念分層的、不含有噪聲的數(shù)據(jù),該數(shù)據(jù)可以用來進(jìn)行準(zhǔn)確的數(shù)據(jù)挖掘工作。

3.3概念/類描述

3.3.1數(shù)據(jù)概化

數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細(xì)節(jié)信息,在多數(shù)情況下,感興趣的一般是在不同抽象層上得到的數(shù)據(jù)的量化信息或統(tǒng)計(jì)信息。因此,首先采用解析特征化進(jìn)行屬性相關(guān)分析,來幫助識別不相關(guān)或弱相關(guān)屬性,將它們排除在概念描述過程之外。概化過程如下:

1)收集目標(biāo)類數(shù)據(jù),它由計(jì)算機(jī)專業(yè)的集合組成,對比類數(shù)據(jù)取電子信息工程專業(yè)的集合;

2)用保守的屬性概化閾值進(jìn)行面向?qū)傩缘臍w納,通過屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析。

ID:由于ID存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;gender:由于gender只有兩個(gè)不同值,該屬性保留,并且不對其進(jìn)行概化;major:假定已定義了一個(gè)概念分層,允許將屬性major概化到值{計(jì)算機(jī)應(yīng)用,電子信息工程};section:假定已定義了一個(gè)概念分層,允許將屬性科類概化到值{理科,文科,對口};total_score:該屬性存在大量不同值,因此應(yīng)當(dāng)概化它。假定存在total的概念分層,將分?jǐn)?shù)數(shù)值區(qū)間{100_85,84一70,69_60,59_0}按等級(grade){A,B,C,D}分組,這樣該屬性可以被概化。

表3通過對表2的數(shù)據(jù)進(jìn)行概化得到的關(guān)系

3.3.2類比較的實(shí)現(xiàn)

通過概化處理,數(shù)據(jù)倉庫中的屬性基本已經(jīng)得到了單個(gè)類的描述。但我們希望挖掘一個(gè)描述是它能將一個(gè)類與其它可比較的類相區(qū)分,因此采用挖掘類比較來實(shí)現(xiàn)。現(xiàn)給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。

1)專業(yè)類別分析

首先確定目標(biāo)類與對比類為屬性major中計(jì)算機(jī)應(yīng)用和電子信息工程兩個(gè)不同專業(yè)的學(xué)生;其次,對兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表4所示。

從表4可以看出,與電子信息工程專業(yè)相比,計(jì)算機(jī)應(yīng)用專業(yè)的學(xué)生趨向平均分、實(shí)習(xí)成績及實(shí)驗(yàn)成績這三部分分?jǐn)?shù)較高,體現(xiàn)出學(xué)生在知識應(yīng)用能力和計(jì)算機(jī)編程能力上較強(qiáng),但對知識掌握出現(xiàn)兩極分化嚴(yán)重,針對這部分基礎(chǔ)知識掌握不牢固的學(xué)生,教師在執(zhí)教時(shí)就應(yīng)考慮加強(qiáng)基礎(chǔ)知識的鞏固。相對而言電子信息工程專業(yè)的學(xué)生對基礎(chǔ)知識的掌握基本較好,但對該課程的靈活應(yīng)用有所欠缺,這就使得在教學(xué)過程中應(yīng)適當(dāng)注重培養(yǎng)學(xué)生的應(yīng)用能力,加強(qiáng)對他們編程、實(shí)驗(yàn)及實(shí)習(xí)的輔導(dǎo)。

2)性別類別分析

首先確定目標(biāo)類與對比類為屬性gender中的男和女;其次,對兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表5所示。

表4 主類(計(jì)算機(jī)應(yīng)用)與目標(biāo)類(電子信息工程)關(guān)系 表5 主類(男)與目標(biāo)類(女)關(guān)系

從表5可以看出,與女生相比,男生從總體上對該門課程的學(xué)習(xí)效果較差,不及格率較高,且優(yōu)秀率低,基礎(chǔ)知識掌握不牢固,體現(xiàn)出不少男生學(xué)習(xí)態(tài)度不端正,目的不明確,缺乏學(xué)習(xí)的積極性。而女生這門課的成績比男生好,優(yōu)秀率高,及格率高,對基礎(chǔ)知識掌握牢固,但在知識的應(yīng)用能力方面欠佳不能很好地靈活運(yùn)用;由此可見,教師在教學(xué)過程中須考慮學(xué)生的性別差異,因材施教。

3)科類類別分析

首先確定目標(biāo)類與對比類為屬性section中文科類、理科類和對口類;其次,對兩個(gè)數(shù)據(jù)上進(jìn)行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進(jìn)行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表6所示:

從表6可以看出,與理科類、文科類相比,通過對口高招進(jìn)來的學(xué)生不管對理論知識的掌握還是在實(shí)踐技能上都比較突出,且目的性非常強(qiáng)。而文科類與理科類相比, 文科類對基礎(chǔ)知識的學(xué)習(xí)優(yōu)于理科類,但在知識的應(yīng)用能力上較差,理科類則恰恰相反。可見,教師在教學(xué)過程中除了考慮普遍學(xué)生存在的問題外,還需要注意學(xué)生的差異,對于對口類學(xué)生而言應(yīng)多準(zhǔn)備一些相對大的項(xiàng)目,讓其能“吃飽”,而對于理科類和文科類學(xué)生一方面要加強(qiáng)理論基礎(chǔ)知識的學(xué)習(xí)指導(dǎo),另一方面要適當(dāng)注意培養(yǎng)其應(yīng)用能力,加強(qiáng)對編程及實(shí)踐方面的輔導(dǎo)。

4 結(jié)論

利用多年的C語言程序設(shè)計(jì)課程的成績的數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)探索和發(fā)現(xiàn)兩個(gè)專業(yè)學(xué)生對這門課程的知識掌握及能力培養(yǎng)的情況,可以有針對性地進(jìn)行教學(xué)內(nèi)容和教學(xué)方式的改革,使得學(xué)生更好地掌握C語言程序設(shè)計(jì)這門課的知識,培養(yǎng)各方面的能力,為以后的課程學(xué)習(xí)、專業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。

參考文獻(xiàn):

[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.

[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學(xué)出版社,2O02.

[3] 張錦祥.高級程序設(shè)計(jì)語言課程教學(xué)改革與實(shí)踐[J].浙江教育學(xué)院學(xué)報(bào),2007(4)71-76.

篇10

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

數(shù)據(jù)挖掘是一門包括了數(shù)據(jù)庫系統(tǒng)、專家系統(tǒng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識別、信息檢索、人工智能等學(xué)科的綜合性的學(xué)科,其目標(biāo)是發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的知識模式。此課程一般是在研究生教育階段開設(shè)[1],但隨著社會對應(yīng)用型人才的需求越來越大,這就要求我們的學(xué)生畢業(yè)后不僅要有扎實(shí)的理論基礎(chǔ),更要有較強(qiáng)的創(chuàng)新能力和實(shí)踐能力。

我校針對信息與計(jì)算科學(xué)及統(tǒng)計(jì)學(xué)兩個(gè)專業(yè)開設(shè)了數(shù)據(jù)挖掘課程。該專業(yè)學(xué)生擁有較強(qiáng)的數(shù)學(xué)理論基礎(chǔ),并掌握了數(shù)學(xué)建模、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等相關(guān)學(xué)科。數(shù)據(jù)挖掘作為一門綜合性課程,是融合學(xué)生各科知識,提高該專業(yè)學(xué)生應(yīng)用實(shí)踐能力,培養(yǎng)學(xué)生團(tuán)隊(duì)協(xié)作能力的很好的載體課程。

1 數(shù)據(jù)挖掘課程教學(xué)特點(diǎn)

數(shù)據(jù)挖掘技術(shù)是一個(gè)多學(xué)科交叉的綜合研究領(lǐng)域。不過也正因?yàn)樗婕暗姆秶軓V泛,發(fā)展的時(shí)間也不是很長,因此要真正理解數(shù)據(jù)挖掘的本質(zhì)并不是一件容易的事情。我校針對信息與計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)兩個(gè)理學(xué)專業(yè)開設(shè)此課程,并將此課程歸類為實(shí)踐類課程。經(jīng)過筆者多年對傳統(tǒng)教學(xué)方法的研究和改革,發(fā)現(xiàn)了在數(shù)據(jù)挖掘教學(xué)中存在的問題:

1) 理論教學(xué)困難:數(shù)據(jù)挖掘課程內(nèi)容涉及領(lǐng)域廣泛,如統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識別等內(nèi)容,并且所涉及的算法繁多。由于本科生的知識體系不健全,理論基礎(chǔ)相對薄弱,造成了學(xué)習(xí)難度過大。此外,由于學(xué)時(shí)限制,無法在課堂中詳細(xì)地講述算法理論,導(dǎo)致了學(xué)生積極性不高,很難達(dá)到教學(xué)目標(biāo)。

2) 實(shí)踐環(huán)節(jié)無法讓學(xué)生體會數(shù)據(jù)挖掘本質(zhì):數(shù)據(jù)挖掘是從數(shù)據(jù)獲取、數(shù)據(jù)整理、預(yù)處理、數(shù)據(jù)挖掘分析、結(jié)果分析等一系列流程的綜合。但由于課時(shí)關(guān)系,我們課程中的實(shí)踐環(huán)節(jié)往往是針對某個(gè)特定的算法,讓學(xué)生利用已經(jīng)預(yù)處理好的數(shù)據(jù)進(jìn)行算法的應(yīng)用。數(shù)據(jù)挖掘成本很高,但是這個(gè)成本往往并不是金錢,而是時(shí)間,而數(shù)據(jù)整理和預(yù)處理的時(shí)間往往占到全部工作量的80%。不經(jīng)過完整的數(shù)據(jù)挖掘流程訓(xùn)練,學(xué)生就無法體會數(shù)據(jù)挖掘的本質(zhì)。

3) 軟件應(yīng)用缺乏:針對海量數(shù)據(jù)分析是必須要應(yīng)用到計(jì)算機(jī)技術(shù)處理。當(dāng)今針對數(shù)據(jù)挖掘應(yīng)用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數(shù)據(jù)庫系統(tǒng)配套的OLAP功能等。在課堂中,不可能對任何一款軟件都詳細(xì)的進(jìn)行講解。這就使得學(xué)生很難進(jìn)行算法的應(yīng)用實(shí)踐。

2 任務(wù)驅(qū)動探究式教學(xué)模式

針對目前教學(xué)存在的這些問題,廣西大學(xué)梁斌梅提出了目標(biāo)驅(qū)動的專業(yè)課教學(xué)法,利用導(dǎo)入課吸引學(xué)生、利用教學(xué)目標(biāo)引導(dǎo)學(xué)生[2]。韓秋明等人編著的《數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例》中采用了大量的行業(yè)數(shù)據(jù),為數(shù)據(jù)挖掘教學(xué)模式的改革提供大量的應(yīng)用實(shí)例[3]。結(jié)合本校的學(xué)生特點(diǎn),參考國內(nèi)的一些研究成果,該文提出了基于任務(wù)驅(qū)動探究式教學(xué)模式。課程整體主線由任務(wù)驅(qū)動,學(xué)生進(jìn)行探究式自主學(xué)習(xí)。

任務(wù)驅(qū)動是基于構(gòu)建主義教學(xué)理論基礎(chǔ)上的教學(xué)方法,以學(xué)生為主體,以老師為主導(dǎo)的一整套教學(xué)新模式。而探究式教學(xué)是與直接接受式教學(xué)相對的,在任務(wù)驅(qū)動的同時(shí),激發(fā)學(xué)生的好奇心,并驅(qū)使學(xué)生投入到知識獲取的自主學(xué)習(xí)活動中。任務(wù)驅(qū)動探究式教學(xué)模式是將兩者有機(jī)的結(jié)合起來,使學(xué)生能夠明確學(xué)習(xí)目標(biāo)、提高學(xué)習(xí)興趣、提升學(xué)習(xí)動力,發(fā)揮學(xué)生的自主學(xué)習(xí)能力、創(chuàng)造能力,培養(yǎng)學(xué)生分析問題、解決問題的能力。通過自主學(xué)習(xí),自行的完成階段性的教學(xué)任務(wù),以達(dá)到相應(yīng)的教學(xué)目標(biāo)。任務(wù)驅(qū)動探究式教學(xué)模式,適合操作性和應(yīng)用性強(qiáng)的課程。任務(wù)驅(qū)動探究式教學(xué)模式的核心思想是在教學(xué)方面強(qiáng)調(diào)任務(wù)驅(qū)動,在學(xué)習(xí)方面則強(qiáng)調(diào)探究式學(xué)習(xí)。因此必須合理地設(shè)計(jì)課程教學(xué)方案,在“教”和“學(xué)”兩個(gè)方面進(jìn)行設(shè)計(jì)。老師必須在任務(wù)設(shè)計(jì)、實(shí)施進(jìn)程管理、信息反饋等各方面做好銜接,保證學(xué)生能夠時(shí)刻跟上任務(wù)進(jìn)度,并保持足夠的興趣度。

3 基于案例驅(qū)動探究式教學(xué)模式的數(shù)據(jù)挖掘課程改革

任務(wù)驅(qū)動探究式教學(xué)模式是以學(xué)生為主體,教師主導(dǎo)的新型教學(xué)模式。教師的作用在于教學(xué)組織和任務(wù)布置的安排調(diào)度。利用任務(wù)引導(dǎo)學(xué)生學(xué)習(xí)相關(guān)知識,提高學(xué)生的學(xué)習(xí)主動性。因此,如何根據(jù)課程需要合理地進(jìn)行課程任務(wù)設(shè)計(jì),安排任務(wù)進(jìn)度都是課程改革成功的關(guān)鍵。

3.1 課程內(nèi)容重新整合

數(shù)據(jù)挖掘是一個(gè)由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析挖掘、結(jié)論分析等各個(gè)步驟組成的整體過程。在現(xiàn)有的數(shù)據(jù)挖掘書中,針對數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理部分往往比較簡化,大部分篇幅都在講述數(shù)據(jù)挖掘算法,如分類算法、關(guān)聯(lián)算法、聚類算法。如果在課程內(nèi)容設(shè)計(jì)時(shí),僅僅對算法做重點(diǎn)講述而忽略前期步驟,將會造成學(xué)生內(nèi)容知識的脫節(jié),無法體會數(shù)據(jù)挖掘整個(gè)流程,從而不能真正地理解數(shù)據(jù)挖掘思想本質(zhì)。因此,本課程教學(xué)目標(biāo)應(yīng)該是重點(diǎn)培養(yǎng)學(xué)生分析問題、解決問題和團(tuán)隊(duì)協(xié)作能力,樹立數(shù)據(jù)挖掘思維體系,了解數(shù)據(jù)挖掘基本算法,能夠應(yīng)用數(shù)據(jù)挖掘軟件解決實(shí)際問題并得到結(jié)果。

根據(jù)這個(gè)教學(xué)目標(biāo)對課程內(nèi)容進(jìn)行適當(dāng)調(diào)整。首先,增加緒論內(nèi)容并設(shè)置導(dǎo)入課。在導(dǎo)入課中增加生活中學(xué)生感興趣的數(shù)據(jù)挖掘故事,經(jīng)典案例以及各行業(yè)中的應(yīng)用,從而提高學(xué)生學(xué)習(xí)的興趣。其次,適當(dāng)增加數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘軟件的介紹,使得學(xué)生能夠明確數(shù)據(jù)怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數(shù)據(jù)挖掘算法,所介紹的算法應(yīng)該是常見、易懂并且能夠很容易使用軟件實(shí)現(xiàn)的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對比較難的算法,可以僅做介紹,讓學(xué)生在今后遇到此類問題能夠自主的進(jìn)行學(xué)習(xí)。通過內(nèi)容的調(diào)整,一方面使得學(xué)生不會因?yàn)閿?shù)據(jù)挖掘算法繁多且復(fù)雜而懼怕,保證學(xué)生的學(xué)習(xí)興趣,從而很好的引導(dǎo)其自主學(xué)習(xí),提高教學(xué)效果。另一方面,數(shù)據(jù)挖掘算法在不斷的改進(jìn),不可能在課程中覆蓋所有。通過基本算法和工具的結(jié)合,能夠很好地幫助學(xué)生從算法理論轉(zhuǎn)變成算法實(shí)現(xiàn),從而真正的進(jìn)行數(shù)據(jù)挖掘工作。即使出現(xiàn)了新的算法,也能夠舉一反三,進(jìn)行軟件實(shí)現(xiàn)。

3.2 組織方式的改變

任務(wù)驅(qū)動探究式教學(xué)模式必須以課程任務(wù)為依托。改變以往以純理論的教學(xué)方式,加入實(shí)踐和課堂討論環(huán)節(jié),將理論知識講解和課程任務(wù)有機(jī)地結(jié)合到一起。考慮到數(shù)據(jù)挖掘連貫性以及工程龐大性,可以考慮以項(xiàng)目化的方式進(jìn)行。將學(xué)生6個(gè)人左右分為一組,自主的在老師所提供的數(shù)據(jù)共享平臺中尋找感興趣的問題進(jìn)行分析研究。將整個(gè)項(xiàng)目分解成為數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、探索性分析、數(shù)據(jù)挖掘、結(jié)果分析等一系列的小任務(wù),安排階段性的任務(wù)目標(biāo),層序漸進(jìn),逐步的建立學(xué)生完成項(xiàng)目的信心并最終完成整個(gè)項(xiàng)目。

學(xué)生是項(xiàng)目的負(fù)責(zé)人,在接受一個(gè)短期任務(wù)后,就要自主的開始進(jìn)行任務(wù)的執(zhí)行。老師僅僅在課堂中進(jìn)行了基本知識的講解,學(xué)生要完成任務(wù)就必須學(xué)習(xí)更多的課外知識。項(xiàng)目的研究內(nèi)容是自己選擇的,而且完成階段性的任務(wù)并不是那么的遙不可及,所以學(xué)生有足夠的興趣和信心去完成。通過查閱資料、學(xué)習(xí)知識、任務(wù)分配、安排和組織實(shí)施等,完成教學(xué)任務(wù)的同時(shí)也鍛煉了他們團(tuán)隊(duì)合作意識、溝通能力、自主學(xué)習(xí)能力。這些能力的培養(yǎng)才能使他們在知識不斷更新的當(dāng)今,緊密地跟緊前沿技術(shù)并更好的去解決實(shí)際問題。

3.3 任務(wù)進(jìn)度控制和評價(jià)

課程的課堂教學(xué)時(shí)間是有限的,老師不可能在課堂中既完成理論教學(xué),又給足時(shí)間讓學(xué)生進(jìn)行課程任務(wù),所以項(xiàng)目的實(shí)施必須是在課后進(jìn)行。學(xué)生要在課外進(jìn)行大量的參考資料閱讀、相互討論及數(shù)據(jù)分析的工作。那么老師作為主導(dǎo)者,必須及時(shí)地了解學(xué)生階段性任務(wù)的完成情況,對當(dāng)前學(xué)生遇到的困難及時(shí)給出建議和意見,甚至在學(xué)生遇到真正的難題給予技術(shù)上的支持。所以本課程在理論課教學(xué)的同時(shí),也開展了定期的討論課,讓學(xué)生定期匯報(bào)階段性任務(wù)的完成情況,及時(shí)進(jìn)行任務(wù)進(jìn)度的控制。整個(gè)項(xiàng)目的實(shí)施流程和任務(wù)分解如圖1。根據(jù)流程安排,理論引導(dǎo)學(xué)生任務(wù)的進(jìn)行。通過學(xué)生任務(wù)的完成情況,老師在完成基本理論教學(xué)的同時(shí),有針對性的對學(xué)生所遇到的問題進(jìn)行講解,最終目標(biāo)是引導(dǎo)學(xué)生完成整個(gè)教學(xué)項(xiàng)目。一方面,學(xué)生自主學(xué)習(xí)能力提高,有足夠的興趣和能力去完成每個(gè)階段的任務(wù),并且會更加認(rèn)真的在理論課中尋找自己想得到的知識。另一方面,由于學(xué)生自主尋找的項(xiàng)目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學(xué)內(nèi)容不再一成不變,而是隨時(shí)的更新。

圖1 任務(wù)進(jìn)度安排流程圖

良好的進(jìn)度控制需要一個(gè)完善的評價(jià)體系做輔助。只有做好每個(gè)階段性的評價(jià),引入一定的競爭機(jī)制,才能提高學(xué)生積極性和自信心。首先,必須做到極端性任務(wù)的目標(biāo)和時(shí)間明確化。要完成什么,在什么時(shí)候完成,都必須事先和學(xué)生約定。對沒有按時(shí)完成任務(wù)的組,必須做出相應(yīng)的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務(wù),有針對性地提出建議和意見,以便學(xué)生能夠及時(shí)調(diào)整。其次,評價(jià)標(biāo)準(zhǔn)既要唯一又要區(qū)別對待。唯一標(biāo)準(zhǔn)指的是一樣的進(jìn)度,一樣的任務(wù),一樣的要求。但是數(shù)據(jù)挖掘項(xiàng)目會根據(jù)研究領(lǐng)域不同、使用算法不同、數(shù)據(jù)質(zhì)量不同而造成難度差異,一味的同等標(biāo)準(zhǔn)要求會造成選擇難度較高項(xiàng)目的學(xué)生積極性下降。所以老師必須客觀的分析每個(gè)項(xiàng)目難度,并區(qū)別對待。對于由客觀難度造成任務(wù)進(jìn)程落后的組,應(yīng)當(dāng)在解決問題后給予獎勵。并且,在最終論文評定時(shí),適當(dāng)?shù)募尤胍欢ǖ碾y度分,以鼓勵學(xué)生培養(yǎng)自我挑戰(zhàn)的精神。通過教師評價(jià)、組長評價(jià)、組間評價(jià)等評價(jià)方式,客觀的合理的對整個(gè)項(xiàng)目實(shí)施作出最終的評價(jià)結(jié)果。

4 結(jié)束語

通過案例驅(qū)動探究式教學(xué)模式的改革,數(shù)據(jù)挖掘課程在教學(xué)效果上得到了實(shí)質(zhì)性的提高。人才培養(yǎng)上卓有成效,老師也在教學(xué)過程中受益良多。通過教學(xué)模式的改革,使得原本枯燥、難懂的理論教學(xué)變得生動。學(xué)生的求知欲望得到了激發(fā),課程的學(xué)習(xí)目標(biāo)更加的明確,教學(xué)質(zhì)量也有很大的提高。同時(shí)我們發(fā)現(xiàn),學(xué)生的自主學(xué)習(xí)能力、匯報(bào)能力、論文撰寫能力都有了明顯的提高,并且有很多教學(xué)項(xiàng)目被用于畢業(yè)論文的研究。數(shù)據(jù)挖掘課程也因此被選為寧波市級的智慧產(chǎn)業(yè)核心引導(dǎo)課程。

參考文獻(xiàn):

篇11

知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國底特律召開的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上[1]。1996年,知識發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數(shù)據(jù)庫的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的最大效用。KDD過程是多個(gè)步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過程[3],基本流程包括:

(1)限定學(xué)習(xí)領(lǐng)域,儲備預(yù)先知識、確定學(xué)習(xí)目標(biāo);

(2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;

(3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;

(4)數(shù)據(jù)轉(zhuǎn)換;

(5)確定數(shù)據(jù)挖掘功能法則;

(6)獲得知識信息、運(yùn)用知識成果并重新選定學(xué)習(xí)目標(biāo)。

在創(chuàng)新的過程中,單單依靠顯性知識已經(jīng)不足以支撐整個(gè)思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長,傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時(shí)過境遷”成為無效信息,而且被長期積壓在數(shù)據(jù)庫中浪費(fèi)存儲資源。為了及時(shí)消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價(jià)值的信息得到有效利用。

(二)數(shù)據(jù)挖掘的理論探索

數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發(fā)現(xiàn)過程的一個(gè)重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。

根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。而所要挖掘的對象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。

(三)小結(jié)

綜上,知識發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價(jià)值量,而數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對數(shù)據(jù)的簡單檢索調(diào)用,而是從數(shù)據(jù)集合中自動提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對未來可能發(fā)生的行為進(jìn)行預(yù)測,為決策者提供有力支持。

二、高校成績管理與學(xué)科建設(shè)

成績是學(xué)生在校學(xué)習(xí)期間對所學(xué)知識理解掌握情況和教師教學(xué)質(zhì)量評價(jià)的原始記錄,對學(xué)校的教學(xué)管理和教學(xué)改革措施評價(jià)具有重要的參考價(jià)值[5]。成績管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個(gè)環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),

通過學(xué)生的實(shí)際量化考核分?jǐn)?shù)來進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績不僅限于學(xué)生的筆試成績,還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。

(一)高校成績管理所面臨的新形勢

從宏觀上講,隨著國家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時(shí)刻都更加繁重。

首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績管理上則是成績數(shù)據(jù)的時(shí)空容量同時(shí)增長。每多出一個(gè)學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績資料都會相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。

篇12

一、數(shù)據(jù)倉庫技術(shù)在客戶忠誠度分析中的應(yīng)用

1.數(shù)據(jù)倉庫(DataWarehouse,簡稱DW)是一種面向數(shù)據(jù)應(yīng)用的數(shù)據(jù)管理技術(shù),它以關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)為基礎(chǔ)。按照業(yè)界公認(rèn)的數(shù)據(jù)倉庫創(chuàng)始人W.H.Inmon的觀點(diǎn),數(shù)據(jù)倉庫可定義為:“一個(gè)面向主題的、集成的隨時(shí)間變化的非易失的數(shù)據(jù)集合,用于支持管理層的決策過程”。可以發(fā)現(xiàn)數(shù)據(jù)倉庫具有這樣的一些重要特性:面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時(shí)變性、數(shù)據(jù)的非易失性、數(shù)據(jù)的集合性和支持決策作用。

數(shù)據(jù)倉庫技術(shù)是企業(yè)智能管理的重要基礎(chǔ)和手段,已經(jīng)成為企業(yè)級信息管理和決策支持系統(tǒng)建設(shè)過程中必要的技術(shù)支持。數(shù)據(jù)倉庫是進(jìn)行客戶忠誠度分析的基礎(chǔ)。

2.數(shù)據(jù)倉庫的實(shí)施步驟。數(shù)據(jù)倉庫的設(shè)計(jì)與傳統(tǒng)的OLTP系統(tǒng)設(shè)計(jì)有較大區(qū)別,不但需要設(shè)計(jì)一個(gè)數(shù)據(jù)庫和一個(gè)用戶接口,還必須設(shè)計(jì)數(shù)據(jù)裝載策略、數(shù)據(jù)存取工具和不間斷的維護(hù)方案。數(shù)據(jù)倉庫的實(shí)施步驟:

(1)啟動項(xiàng)目,確定建立分析客戶忠誠度的數(shù)據(jù)倉庫,制定項(xiàng)目計(jì)劃。建立技術(shù)環(huán)境,選擇實(shí)現(xiàn)數(shù)據(jù)倉庫所需要的軟硬件資源。

(2)確定數(shù)據(jù)倉庫主題。針對客戶信息以及客戶購買信息等相關(guān)的數(shù)據(jù)倉庫,與企業(yè)前臺部門的業(yè)務(wù)人員多進(jìn)行溝通,詳細(xì)了解業(yè)務(wù)需求、報(bào)表等需求。

(3)對客戶購買信息進(jìn)行詳細(xì)定義,對事實(shí)表和維表的關(guān)系詳細(xì)定義。由于客戶購買信息數(shù)據(jù)倉庫數(shù)據(jù)量隨時(shí)間積累增大,而且隨著電子商務(wù)的進(jìn)一步深入,數(shù)據(jù)量更是激增,所以必須對數(shù)據(jù)結(jié)構(gòu)進(jìn)行精心設(shè)計(jì),以免隨著倉庫中數(shù)據(jù)量快速增長,造成系統(tǒng)分析和查詢性能的急劇下降。

(4)數(shù)據(jù)倉庫的物理庫設(shè)計(jì)。考慮數(shù)據(jù)的存儲方式,使得系統(tǒng)有較好的性能。完成索引的建立以及數(shù)據(jù)更新網(wǎng)絡(luò)的設(shè)計(jì)。

(5)源數(shù)據(jù)抽取、清洗、整理及裝載設(shè)計(jì)。客戶購買信息數(shù)據(jù)倉庫的數(shù)據(jù)來自企業(yè)的前臺作業(yè)系統(tǒng)以及前臺業(yè)務(wù)部門。這些數(shù)據(jù)必須根據(jù)數(shù)據(jù)倉庫的設(shè)計(jì),以統(tǒng)一定義的格式從各個(gè)系統(tǒng)抽取出來,經(jīng)過清理、轉(zhuǎn)換、綜合,再經(jīng)過數(shù)據(jù)裝載和整理程序進(jìn)入數(shù)據(jù)倉庫。

(6)開發(fā)支持用戶決策的數(shù)據(jù)分析工具。建立客戶購買信息數(shù)據(jù)倉庫的最終目的是為了實(shí)現(xiàn)前臺部門以及企業(yè)高層的決策支持,所以需要各種工具對數(shù)據(jù)倉庫進(jìn)行訪問分析,如優(yōu)化查詢工具、統(tǒng)計(jì)分析工具、數(shù)據(jù)挖掘工具等,通過分析工具實(shí)現(xiàn)決策支持需要。

(7)維護(hù)方案的設(shè)計(jì)。保證客戶信息數(shù)據(jù)倉庫的正常運(yùn)行,對其進(jìn)行管理維護(hù),保證系統(tǒng)保持優(yōu)良的性能。

二、據(jù)挖掘技術(shù)在客戶忠誠度分析中的應(yīng)用

1.數(shù)據(jù)挖掘(Data Mining,簡稱DM),簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘概念的定義描述有若干版本,一個(gè)普遍被采用的定義是“數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識的復(fù)雜過程。”

2.數(shù)據(jù)挖掘在客戶忠誠度分析中常用方法

(1)決策樹(Decision Tree)決策算法。決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試,每個(gè)分枝代表一個(gè)測試輸出,而每個(gè)樹葉節(jié)點(diǎn)代表或類分布。決策樹算法包括樹的構(gòu)造和樹的剪枝,有兩種常用的剪枝方法:先剪枝和后剪枝。

(2)神經(jīng)網(wǎng)絡(luò)(Neural Network)。神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個(gè)連接都與一個(gè)權(quán)相連,在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確類標(biāo)號來學(xué)習(xí)。

(3)遺傳算法(Genetic Algorithms)。遺傳算法根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的后代。

3.數(shù)據(jù)挖掘在客戶忠誠度分析中的應(yīng)用

(1)運(yùn)用數(shù)據(jù)挖掘技術(shù),對客戶進(jìn)行細(xì)分,提供個(gè)性化的服務(wù)。因?yàn)椴煌目蛻魹槠髽I(yè)提供的價(jià)值不同,企業(yè)需要重點(diǎn)服務(wù)的是那些能為企業(yè)提供高價(jià)值的大客戶;又因?yàn)槠髽I(yè)的資源有限,如何針對不同客戶進(jìn)行有限資源的優(yōu)化應(yīng)用也是每個(gè)企業(yè)必須考慮的重要問題,所以有必要對客戶進(jìn)行細(xì)分,進(jìn)行有針對性的運(yùn)營,提供個(gè)性化的服務(wù)。

(2)運(yùn)用數(shù)據(jù)挖掘技術(shù)預(yù)測客戶需求。客戶的需求不是一成不變的、單一的,而是快速改變著的、多樣化的。運(yùn)用數(shù)據(jù)挖掘技術(shù)及時(shí)預(yù)側(cè)客戶的需求,也就是“想客戶之所想”,及時(shí)調(diào)整產(chǎn)品的結(jié)構(gòu)和內(nèi)容,搶先贏得商機(jī),為客戶提供其真正需要的產(chǎn)品,吸引客戶,獲取高額利潤。

(3)進(jìn)行客戶流失分析。不要等到客戶離開了企業(yè)再去尋找解決辦法,時(shí)間就是金錢。客戶選擇了離開企業(yè),肯定是有原因的,應(yīng)該注意客戶流失的時(shí)間、分析流失的原因,及時(shí)采取措施,最大限度地留住客戶。

(4)挖掘出影響客戶忠誠度的重要因素,重點(diǎn)改善。影響客戶忠誠度的因素可能會有很多,但是要做的是用數(shù)據(jù)挖掘工具找出那些最主要的因素,對這些因素認(rèn)真分析,采取有效的措施以提高客戶忠誠度。

三、結(jié)束語

數(shù)據(jù)挖掘作為一種信息技術(shù)正越來越受到企業(yè)的關(guān)注,都在想辦法用數(shù)據(jù)挖掘來解決企業(yè)海量數(shù)據(jù)的問題。企業(yè)能夠充分有效地利用數(shù)據(jù)挖掘這種新技術(shù)來為企業(yè)提供重要的決策信息,提高客戶忠誠度的,使企業(yè)在激烈的市場競爭中立于不敗之地。

篇13

隨著世界經(jīng)濟(jì)的信息化和全球化趨勢增強(qiáng),電子商務(wù)正逐步走向全面應(yīng)用,并滲透到社會經(jīng)濟(jì)的各個(gè)層面。越來越多的公司紛紛建立網(wǎng)站,從事商務(wù)活動,無論是新興網(wǎng)絡(luò)企業(yè),還是傳統(tǒng)企業(yè)E化,網(wǎng)站都已經(jīng)成為企業(yè)經(jīng)營必不可少的網(wǎng)絡(luò)營銷工具,并且在增強(qiáng)企業(yè)競爭優(yōu)勢、擴(kuò)大企業(yè)影響、增加銷售收入等方面發(fā)揮著越來越大的作用。

1 E忠誠時(shí)代的來臨

隨著電子商務(wù)的發(fā)展,客戶的重要性被提升到一個(gè)前所未有的高度,它已經(jīng)成為電子商務(wù)成功的關(guān)鍵。在某種程度上,客戶關(guān)系加商務(wù)模式,已經(jīng)被譽(yù)為電子商務(wù)成功的秘密。

電子商務(wù)環(huán)境下的客戶忠誠,又稱為E忠誠。2000年,美國Bain&Comapany公司的電子商務(wù)主管Fredrick F.Reichheld與Phill Sehefter在研究了多家杰出網(wǎng)絡(luò)公司和上千名網(wǎng)絡(luò)顧客的消費(fèi)行為后,指出在虛擬的網(wǎng)絡(luò)世界中同樣存在顧客忠誠,并稱為“E忠誠”;他們同時(shí)認(rèn)為,E忠誠是電子商務(wù)企業(yè)在網(wǎng)上取得成功的“秘密武器”。2001年,國際著名的咨詢公司KPMG Consulting在與牛津大學(xué)零售管理學(xué)院(OX―IRM)的合作研究項(xiàng)目中把E忠誠定義為:E忠誠指網(wǎng)絡(luò)顧客對網(wǎng)上企業(yè)或其品牌的忠誠。2003年3月,Moonkyu Lee博士通過實(shí)證研究,將E忠誠定義為:網(wǎng)絡(luò)顧客基于以往的購物體驗(yàn)和對未來的預(yù)期,愿意再次光顧當(dāng)前選擇的電子商務(wù)網(wǎng)站的意向性。彭香霞與賀勤將“顧客重復(fù)選擇該網(wǎng)站購買某一特定產(chǎn)品或某些產(chǎn)品的心理和行為傾向”理解為E忠誠,并認(rèn)為同時(shí)滿足“情感E忠誠”和“行為E忠誠”兩個(gè)維度,才能稱作E忠誠。無論眾多學(xué)者如何定義E忠誠,但E忠誠的時(shí)代確確實(shí)實(shí)來臨了。

2 企業(yè)網(wǎng)站客戶忠誠管理現(xiàn)狀

忠誠的客戶是企業(yè)贏利的源泉,是企業(yè)最大的無形資產(chǎn),在競爭激烈的網(wǎng)絡(luò)市場中,如何牢牢地鎖住客戶,提高客戶忠誠度便成為了如今企業(yè)網(wǎng)站關(guān)注的要點(diǎn)。為了能夠有效開展客戶忠誠管理,提升網(wǎng)站客戶忠誠度,眾多企業(yè)網(wǎng)站在維系客戶關(guān)系方面可謂是“八仙過海,各顯神通”。然而對于絕大多數(shù)企業(yè)網(wǎng)站而言。雖然能在短時(shí)間內(nèi)很快地聚集大量的訪問量,但對于客戶關(guān)系的長期保持,提升企業(yè)網(wǎng)站客戶忠誠度,其效果并不顯著。主要原因在于,網(wǎng)站客戶忠誠的形成與培養(yǎng),比傳統(tǒng)環(huán)境下難度更大,決定因素更多。 就難度而言,①企業(yè)對客戶信息管理水平較低;②不完善的機(jī)制使客戶對企業(yè)缺乏信任;③針對客戶需求的差異,企業(yè)缺乏建立個(gè)性化服務(wù)的意識;④顧客滿意難以達(dá)到;⑤低廉的搜尋成本容易改變購物選擇;⑥交易的安全性難以保證;⑦“口碑”負(fù)效應(yīng)不可忽視。這些問題的存在,決定了要在虛擬環(huán)境中維系與客戶之間的關(guān)系、培養(yǎng)與提升客戶忠誠度,是一件十分艱難的事情。

就決定因素而言,電子商務(wù)環(huán)境下企業(yè)網(wǎng)站客戶忠誠既受客戶主觀因素的影響,也受外在客觀因素的影響,這兩者共同構(gòu)成企業(yè)網(wǎng)站客戶忠誠的趨動模型,如圖l所示:

從圖1可以看出,決定企業(yè)網(wǎng)站客戶忠誠的外在客觀因素主要有轉(zhuǎn)移成本、客戶價(jià)值、營銷策略、產(chǎn)品質(zhì)量、客戶服務(wù)等;決定企業(yè)網(wǎng)站客戶忠誠的內(nèi)在主觀因素主要有客戶滿意度、客戶愉悅度和客戶信任度,并且客戶感到滿意、擁有愉悅和產(chǎn)生信任對忠誠具有遞進(jìn)作用。同時(shí),客觀因素影響著主觀因素,兩者存在著正相關(guān)關(guān)系。

隨著電子商務(wù)的深入發(fā)展,企業(yè)網(wǎng)站客戶忠誠度變得岌岌可危:客戶的選擇范圍驟然擴(kuò)大,流失趨勢增加;轉(zhuǎn)換成本降低,客戶更容易改變購買決策;客戶需求個(gè)性化,經(jīng)驗(yàn)成熟化,使客戶的期望值大大提高,對企業(yè)提出了服務(wù)敏捷、產(chǎn)品優(yōu)質(zhì)、定位準(zhǔn)確等高標(biāo)準(zhǔn)要求。

3 Web數(shù)據(jù)挖掘是提升網(wǎng)站客戶忠誠度的關(guān)鍵技術(shù)

電子商務(wù)的發(fā)展,要求企業(yè)借助于信息技術(shù)和網(wǎng)絡(luò)技術(shù),以客戶利益為出發(fā)點(diǎn),以不斷滿足客戶需求和為客戶創(chuàng)造價(jià)值為目標(biāo),與客戶建立長期穩(wěn)定的關(guān)系,不斷提高客戶的忠誠度。而對用戶需求、興趣、愛好、身份的了解和獲取是提升網(wǎng)站客戶忠誠度具備針對性的前提。20世紀(jì)80年代末興起的數(shù)據(jù)挖掘(DataMining)技術(shù),特別是Web數(shù)據(jù)挖掘技術(shù),為解決此問題開辟了一條道路。

Web數(shù)據(jù)挖掘就是從Web文檔和Web活動中發(fā)現(xiàn)、抽取感興趣的潛在的有用模式和隱藏的信息。它以從Web上挖掘有用信息為目標(biāo),以數(shù)據(jù)挖掘、文檔挖掘、多媒體挖掘?yàn)榛A(chǔ),并綜合運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉庫、人工智能、信息檢索、可視化、自然語言理解等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘與Web結(jié)合起來。Web數(shù)據(jù)挖掘的基本處理過程如圖2所示:

在日益激烈的電子商務(wù)市場競爭中,任何與消費(fèi)者行為有關(guān)的信息對經(jīng)營者來說都是非常寶貴的。Web服務(wù)器數(shù)據(jù)、客戶登記信息、服務(wù)器數(shù)據(jù)和業(yè)務(wù)往來數(shù)據(jù)是Web挖掘中的數(shù)據(jù)來源,都直接與客戶的商務(wù)行為模式相關(guān),而不論是客戶認(rèn)知忠誠、情感忠誠還是意向忠誠,最終都體現(xiàn)為客戶行為忠誠,也就是說,這些數(shù)據(jù)所表征出來的行為特征可以借助于一定的技術(shù)用來分析客戶的行為。通過Web數(shù)據(jù)挖掘,根據(jù)客戶的訪問興趣、訪問頻度、訪問時(shí)間等數(shù)據(jù),能發(fā)現(xiàn)企業(yè)網(wǎng)站客戶共性和個(gè)性的知識、必然和偶然的知識、獨(dú)立和聯(lián)系的知識等,所有這些經(jīng)過分析,能對客戶的消費(fèi)行為如心理、能力、動機(jī)、需求潛能作出統(tǒng)計(jì)和正確的分析,得到客戶的商務(wù)行為模式。根據(jù)挖掘的結(jié)果提出針對性的商務(wù)計(jì)劃,促進(jìn)企業(yè)網(wǎng)站更好地為客戶服務(wù),使客戶忠誠度的提升成為可能。

4 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型

Web數(shù)據(jù)挖掘是輔助提升企業(yè)網(wǎng)站客戶忠誠度的綜合分析工具和關(guān)鍵技術(shù),運(yùn)行在企業(yè)網(wǎng)站的客戶數(shù)據(jù)庫和數(shù)據(jù)倉庫之上,應(yīng)包括以下功能模塊:①過濾器:用來從Web數(shù)據(jù)庫中抽取相關(guān)數(shù)據(jù),進(jìn)行二義性分析,消除不一致性;②挖掘綜合器:是一個(gè)挖掘驅(qū)動引擎,根據(jù)挖掘要求和挖掘方法的知識庫到Web數(shù)據(jù)挖掘算法庫中選擇合適的挖掘方法,并且使用該方法去執(zhí)行挖掘任務(wù);③方法選擇專家系統(tǒng)及知識庫:它是Web數(shù)據(jù)挖掘的“大腦”,是一個(gè)規(guī)則集合,能夠根據(jù)不同的挖掘要求來選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應(yīng)用的深入,該知識庫可以不斷融入新的規(guī)則,以增加專家系統(tǒng)的智能性;~Web數(shù)據(jù)挖掘算法庫:是一個(gè)數(shù)據(jù)挖掘分析方法的綜合性算法庫;⑤人機(jī)交互界面:提供一個(gè)和分析人員交互的友好界面。如果本次的挖掘結(jié)果不能滿足分析人員的需要

或者還有進(jìn)一步的猜想,就可以再次從這里輸入挖掘需求;⑥方法驅(qū)動模塊:它利用挖掘出來的有益信息,進(jìn)行相應(yīng)統(tǒng)計(jì)與分析的工作。據(jù)此分析,可以構(gòu)建一種基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型,如圖3所示:

5 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型的運(yùn)行

5.1模型運(yùn)行的基本流程

基本流程:①明確Web數(shù)據(jù)挖掘的目標(biāo),確定提升網(wǎng)站客戶忠誠度的應(yīng)用主題,并對挖掘目標(biāo)建立恰當(dāng)?shù)哪P停ǔ1仨氈付ㄒ幌盗形粗年P(guān)聯(lián)變量,如果可能的話,建立一關(guān)聯(lián)格式作為初始的假設(shè);②圍繞提升網(wǎng)站客戶忠誠度這一主題收集數(shù)據(jù)源,并對數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、集成等技術(shù)處理,將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式,裝載進(jìn)入客戶原始數(shù)據(jù)庫和數(shù)據(jù)倉庫,等待進(jìn)一步處理;③建立規(guī)則庫和知識庫,用于存儲已知的客戶行為忠誠度的連接特征和新近數(shù)據(jù)挖掘形成的規(guī)則集,其中規(guī)則集是客戶商務(wù)模式與忠誠度行為模式的反映,用于指導(dǎo)訓(xùn)練數(shù)據(jù)的收集及作為特征選擇的依據(jù);④選取合適的數(shù)據(jù)挖掘方法,構(gòu)建數(shù)據(jù)挖掘模型,進(jìn)行行為模式識別,從目標(biāo)數(shù)據(jù)中提取有價(jià)值的知識與數(shù)據(jù),然后對結(jié)果進(jìn)行分析和驗(yàn)證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實(shí)用性,結(jié)果交給決策模塊處理;⑤決策庫將數(shù)據(jù)挖掘的結(jié)果與規(guī)則庫中的已知規(guī)則進(jìn)行模式匹配,融合專家知識與領(lǐng)域規(guī)則,把最有價(jià)值的信息區(qū)分開來,并且通過決策支持工具提交給決策者,用于支持提升客戶忠誠度的相關(guān)策略處理。

5.2模式識別的技術(shù)方法

對客戶行為模式進(jìn)行識別是整個(gè)模型正常運(yùn)行并達(dá)到預(yù)定目標(biāo)的核心,針對網(wǎng)站客戶行為模式識別,常見的數(shù)據(jù)挖掘技術(shù)方法主要有:

?關(guān)聯(lián)規(guī)則。它是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間存在關(guān)聯(lián)的規(guī)則,即根據(jù)一個(gè)事物中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一項(xiàng)在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu),通過分析數(shù)據(jù)或記錄間的關(guān)系,決定哪些事情將一起發(fā)生。

?聚類分析。聚類是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。在Web挖掘中存在兩種類型的聚類,即用戶聚類和網(wǎng)頁聚類。用戶聚類主要是把具有相似訪問特征的用戶分在一組;網(wǎng)頁聚類,則可以找出具有相關(guān)內(nèi)容的網(wǎng)頁組。聚類分析可以從服務(wù)器訪問信息數(shù)據(jù)中聚集出具有相似特性的用戶組,即把有相似特性的用戶、數(shù)據(jù)項(xiàng)集合到一起。

?分類分析。分類是將一組組個(gè)體分門別類地歸入預(yù)先設(shè)定好的幾個(gè)類中。分類的目的是通過統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法(包括決策樹法和規(guī)則歸納法)、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個(gè)分類模型,然后把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中的某一個(gè)特定類,以對同一類別中的用戶提供相似的服務(wù)。

?統(tǒng)計(jì)分析。統(tǒng)計(jì)分析是統(tǒng)計(jì)用戶最常訪問的網(wǎng)頁、每頁平均訪問的時(shí)間、瀏覽路徑的平均長度等數(shù)據(jù),以獲得用戶訪問站點(diǎn)的基本信息。此外還能提供有限的低層次的錯(cuò)誤分析,比如檢測未授權(quán)入口點(diǎn),找出最常見不變的URL等。

?序列模式。序列模式挖掘技術(shù)就是試圖在時(shí)間戳有序的事務(wù)集中,找到一組數(shù)據(jù)項(xiàng)之后出現(xiàn)另一數(shù)據(jù)項(xiàng)的內(nèi)部事務(wù)模式,即挖掘出會話集之間有時(shí)間序列關(guān)系的模式,從而形成一組按時(shí)間排序的會話。通過序列模式研究,能夠預(yù)測用戶的訪問模式,了解用戶的興趣及需求所在。

?決策樹算法。其基本原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個(gè)子集包含目標(biāo)變量類似的狀態(tài),這些目標(biāo)是可預(yù)測屬性。每一次對樹進(jìn)行拆分,都要評價(jià)所有的輸入屬性對可預(yù)測屬性的影響。當(dāng)這個(gè)遞歸過程結(jié)束時(shí),決策樹也就創(chuàng)建完了。結(jié)構(gòu)表示分類或決策集合,從而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。

?模式分析。通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計(jì)值轉(zhuǎn)換為知識,再經(jīng)過分析得到有價(jià)值的模式,即那些有意義、感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。

?路徑分析。路徑分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務(wù)器的日志文件中客戶訪問站點(diǎn)的訪問次數(shù)分析,從圖中挖掘出頻繁訪問路徑。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖,其他圖也都是建立在頁面和頁面之間的聯(lián)系,或者是一定數(shù)量的用戶瀏覽頁面順序基礎(chǔ)之上的。

?異類分析。異類分析也稱為孤立點(diǎn)分析。所謂孤立點(diǎn)是指明顯偏離其他數(shù)據(jù),即不滿足一般模式或行為的數(shù)據(jù)。孤立點(diǎn)分析是數(shù)據(jù)挖掘的重要內(nèi)容,它包括孤立點(diǎn)的發(fā)現(xiàn)和孤立點(diǎn)的分析,其中孤立點(diǎn)的發(fā)現(xiàn)往往可以使人們發(fā)現(xiàn)一些真實(shí)的但又出乎意料的知識;而孤立點(diǎn)的分析則可能發(fā)現(xiàn)比一般數(shù)據(jù)所包含的信息更有價(jià)值的數(shù)據(jù)。

5.3提升模型的主要應(yīng)用

提升企業(yè)網(wǎng)站客戶忠誠度,關(guān)鍵是要從客戶的主觀因素和感覺出發(fā),提升客戶滿意度、客戶愉悅度和客戶信任度。通過對4類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘,可以分析影響客戶忠誠度的因素或客戶忠誠度降低的征兆,進(jìn)而制定相關(guān)策略來提升企業(yè)網(wǎng)站客戶忠誠度。

?預(yù)防客戶流失。互聯(lián)網(wǎng)加劇了企業(yè)間的競爭,企業(yè)獲得新客戶的成本不斷上升,如何保持現(xiàn)有客戶是所有企業(yè)面臨的一個(gè)重要問題。客戶維持的性質(zhì)是“留住”那些可能流失的客戶。要留住這些客戶,首先要找出哪些客戶最可能“離我而去”,這就是數(shù)據(jù)挖掘要解決的問題。可通過數(shù)據(jù)挖掘?qū)蛻魯?shù)據(jù)庫中大量的客戶歷史交易記錄、人口統(tǒng)計(jì)信息及其相關(guān)資料進(jìn)行分析和處理,對流失客戶群作針對性研究,分析其特征,研究哪些因素會導(dǎo)致客戶流失,建立流失客戶模型,識別導(dǎo)致客戶流失的模式,然后用這些模式找出當(dāng)前客戶中類似的客戶,以便企業(yè)針對客戶的需求,采取相應(yīng)的措施防止這些客戶的流失,改善客戶關(guān)系,進(jìn)而達(dá)到保持原有客戶的目的。

?開展客戶細(xì)分。客戶細(xì)分可以使企業(yè)對不同細(xì)分群中的客戶區(qū)別對待。企業(yè)需要對客戶群進(jìn)行分析,才能得到對客戶需求更加精確的理解和把握,從而可以有的放矢地進(jìn)行忠誠度營銷的策劃和服務(wù)組合。在不太明確客戶群體分類標(biāo)準(zhǔn)的情況下,可采取挖掘的聚類技術(shù),對客戶群進(jìn)行劃分。運(yùn)用聚類分析,從客戶檔案庫中發(fā)現(xiàn)不同客戶群,并且用購買模式來刻畫不同客戶群的特征,可以方便地得到商家的主客戶群,以便決策者根據(jù)主客戶群的特征做相應(yīng)的訂貨、銷售、服務(wù)等決策。所有的客戶對于企業(yè)來說價(jià)值都不是一樣的,在客戶細(xì)分過程中,應(yīng)加強(qiáng)重點(diǎn)客戶的發(fā)現(xiàn),發(fā)現(xiàn)哪些客戶是真正創(chuàng)造利潤的客戶,哪些客戶是低利潤甚至是無利潤的客戶,然后采取不同的方案對待這些客戶。

?改進(jìn)網(wǎng)站設(shè)計(jì)。網(wǎng)頁是企業(yè)對外宣傳的重要組成部分,體現(xiàn)企業(yè)的整體形象,只有通過它才能開展網(wǎng)上業(yè)務(wù),同時(shí)與客戶直接進(jìn)行溝通。因此,需要在網(wǎng)站上營造一種生活和文化氛圍,一種精神世界,這種氛圍應(yīng)該和企業(yè)所提出的企業(yè)文化和營銷概念相吻合,給顧客提供一種“賓至如歸”的感受。通過對客戶訪問信息進(jìn)行挖掘,了解客戶的瀏覽行為,從而知道客戶

的興趣及需求所在,動態(tài)調(diào)整Web頁面,修改網(wǎng)站結(jié)構(gòu)和外觀,按照大多數(shù)訪問者的瀏覽模式對網(wǎng)站進(jìn)行組織,按其訪問內(nèi)容來裁剪用戶與Web信息空間的交互,以滿足客戶的需要,吸引更多的客戶。從而在優(yōu)化網(wǎng)站設(shè)計(jì)時(shí),能從最終顧客的角度更新改進(jìn)作業(yè)流程,提供給顧客一站購足的服務(wù)。

?提供個(gè)。客戶的需求不是一成不變的、單一的,而是快速改變著的、多樣化的。隨著生活水平的不斷提高,客戶的要求也越來越高,其個(gè)性化需求逐漸成為發(fā)展趨勢。企業(yè)要想贏得較高的客戶忠誠和盈利能力,就一定要實(shí)現(xiàn)以下目標(biāo):在正確的時(shí)間、以正確的價(jià)格、通過正確的渠道將正確的產(chǎn)品(或服務(wù))提供給正確的客戶。這就要求企業(yè)網(wǎng)站必須記住客戶的特點(diǎn),與每位客戶發(fā)展溫馨、個(gè)性化關(guān)系,依據(jù)客戶的需要,提供適當(dāng)?shù)姆?wù)與信息。基于數(shù)據(jù)挖掘的個(gè)性化服務(wù),通過對客戶訪問日志記錄信息的挖掘,以為每一位客戶建立一套個(gè)性化檔案為基礎(chǔ),可以提供包括個(gè)性化定制服務(wù)、個(gè)性化推薦服務(wù)、個(gè)性化檢索服務(wù)、個(gè)性化決策支持服務(wù)等內(nèi)容。

?優(yōu)化營銷模式。即使是購買同樣的商品,不同顧客的動因也可能不一樣,有的追求質(zhì)量,有的講究外觀,有的貪圖方便,有的則喜歡其文化內(nèi)涵。所以企業(yè)必須采用一定的方法,了解顧客的購買動因,并集中起來加以分析,然后針對不同客戶的特點(diǎn),采取不同的營銷策略組合。利用Web數(shù)據(jù)挖掘工具,了解顧客在網(wǎng)上購買商品或接受服務(wù)時(shí)的選取習(xí)慣、鏈接習(xí)慣、商品組合習(xí)慣,發(fā)現(xiàn)那些隱藏在數(shù)據(jù)中的模式、關(guān)聯(lián)、規(guī)則和趨勢,找出其中的規(guī)律,從而提高交叉網(wǎng)絡(luò)營銷、“1對1”營銷、頻率營銷、會員制營銷等營銷模式的效率。

?營造安全環(huán)境。信任是客戶忠誠的一個(gè)決定性因素。從本質(zhì)上來說,信任支持了客戶那種認(rèn)為“可以在交易或者服務(wù)中得到積極成果”的信念。在電子商務(wù)環(huán)境下,一個(gè)安全交易的環(huán)境是客戶產(chǎn)生信任的首要條件。所以商家不僅要保證產(chǎn)品和服務(wù)質(zhì)量,還要加強(qiáng)對客戶的責(zé)任心,投入足夠的人力和物力,加強(qiáng)硬件上的建設(shè),從技術(shù)上保證網(wǎng)上交易的安全,并且要保護(hù)客戶的個(gè)人隱私,不能私自將他們的個(gè)人信息透露給其他機(jī)構(gòu)。Web數(shù)據(jù)挖掘通過訪問路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式分析、分類規(guī)則發(fā)現(xiàn)、聚類分析等技術(shù),從獲取的資源數(shù)據(jù)中提取與安全相關(guān)的系統(tǒng)特征屬性,并根據(jù)系統(tǒng)特征屬性自動生成安全事件的檢測模型,用于對安全事件的自動鑒別,加強(qiáng)安全審計(jì)、入侵檢測、病毒預(yù)警、安全評估等網(wǎng)絡(luò)安全防范的針對性,有利于提供一個(gè)安全的網(wǎng)絡(luò)交易環(huán)境。

5.4模型運(yùn)行的注意事項(xiàng)

建立在Web數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的企業(yè)網(wǎng)站客戶忠誠度提升模型在運(yùn)行過程中,還應(yīng)注意以下一些事項(xiàng):