《數(shù)據(jù)挖掘課程設(shè)計(jì)(共22頁(yè))》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘課程設(shè)計(jì)(共22頁(yè))(20頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、精選優(yōu)質(zhì)文檔-----傾情為你奉上
棗 莊 學(xué) 院
信息科學(xué)與工程學(xué)院課程設(shè)計(jì)任務(wù)書
題目: 數(shù)據(jù)挖掘在期末成績(jī)?cè)u(píng)估中的應(yīng)用
小組成員: 趙尊強(qiáng)、 桂文學(xué)
成員學(xué)號(hào): 6、 6
專業(yè)班級(jí): 計(jì)算機(jī)科學(xué)與技術(shù)、2012級(jí)本1班
課 程: 數(shù)據(jù)挖掘
指導(dǎo)教師: 遲慶云 職稱: 副教授
完成時(shí)間: 2015年 5 月-
2、---------------2015年 6 月
棗莊學(xué)院信息科學(xué)與工程學(xué)院制
2015年5 月20日
開(kāi)發(fā)小組成員分工及職責(zé)
趙尊強(qiáng):設(shè)計(jì)規(guī)劃、文獻(xiàn)搜集
桂文學(xué):挖掘資料、數(shù)據(jù)整合
課程設(shè)計(jì)任務(wù)書及成績(jī)?cè)u(píng)定
課程設(shè)計(jì)的任務(wù)和具體要求
任務(wù):
1. 確定挖掘主題和方法:根據(jù)挖掘的主題和目標(biāo),確定合適的挖掘方法。
2. 數(shù)據(jù)選擇和預(yù)處理:根據(jù)所收集數(shù)據(jù),填充缺失值,平滑噪聲數(shù)據(jù),消除異常值,解決數(shù)據(jù)不一致等問(wèn)題。
3.挖掘方法實(shí)現(xiàn):規(guī)劃挖掘過(guò)程,界面設(shè)計(jì),挖掘方法實(shí)現(xiàn)。4.挖掘數(shù)據(jù):對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘
4. 模式的可視化表
3、達(dá)與解釋:根據(jù)應(yīng)用領(lǐng)域的信息和知識(shí)需求,以直觀有效的形式,如圖表等顯示數(shù)據(jù)挖掘出的模式,用特定領(lǐng)域的知識(shí)加以解釋,使得用戶能夠理解和接受。
要求:.撰寫出符合要求的軟件項(xiàng)目綜合實(shí)踐報(bào)告。
指導(dǎo)教師簽字: 遲慶云 日期:
指導(dǎo)教師評(píng)語(yǔ)
成績(jī):____________ 指導(dǎo)教師簽字: 日期:
課程設(shè)計(jì)所需軟件、硬件等
n 硬件環(huán)境:Iterl(R) Core(TM)2 Duo CPU
4、,主頻2.31GHz;內(nèi)存3G;
硬盤320G以上;1024768顯示分辨率
n 軟件環(huán)境: Delphi ,SQL Server2008 ,WEKA
課程設(shè)計(jì)進(jìn)度計(jì)劃
起至日期
工作內(nèi)容
備注
5月01日—06日
5月07日—20日
6月05日—08日
6月09日—18日
搜集資料
課程設(shè)計(jì)分析
系統(tǒng)設(shè)計(jì)、測(cè)試設(shè)計(jì)
寫報(bào)告書
參考文獻(xiàn)、資料索引
序號(hào)
文獻(xiàn)、資料名稱
編著者
出版單位
[1]Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat 著.?dāng)?shù)據(jù)挖掘原理與應(yīng)用(第2版)—
5、—SQL Server 2008數(shù)據(jù)庫(kù).北京:清華大學(xué)出版社.
[2]王麗珍、周麗華、陳紅梅、肖清,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原來(lái)及應(yīng)用,北京:科學(xué)出版社
[3] 張興會(huì) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù) 清華大學(xué)出版社
專心---專注---專業(yè)
目錄
1概述
1.1應(yīng)用背景和問(wèn)題的提出
在大學(xué)生活中,我們大學(xué)生在某種程度上還是比較重視自己的課程成績(jī)的。而有一個(gè)期末最終成績(jī)的評(píng)估系統(tǒng),無(wú)疑對(duì)同學(xué)們而言是很有用的。在這個(gè)系統(tǒng)中,只需輸入你估計(jì)的平時(shí)成績(jī)以及表現(xiàn)和期
6、末考試的得分,就可以預(yù)測(cè)出最終的成績(jī)。而這個(gè)課程成績(jī)的組成以及得出是怎么樣的呢。這個(gè)最終的得分是受到什么影響呢?本論文就以上問(wèn)題進(jìn)行了探討和挖掘。
1.2設(shè)計(jì)內(nèi)容的介紹
本課程設(shè)計(jì)主要是探討和研究在老師給定成績(jī)時(shí)考慮的因素,以及這些因素所占的比例。數(shù)據(jù)倉(cāng)庫(kù)為一份記錄著600個(gè)同學(xué)的得分情況的數(shù)據(jù),數(shù)據(jù)挖掘則采用決策樹(shù)探究出影響結(jié)婚年齡的因素。
2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
2.1概念模型設(shè)計(jì)
數(shù)據(jù)倉(cāng)庫(kù)里面有一個(gè)實(shí)體,也就是成績(jī)score。成績(jī)的決定因素有performance也就平時(shí)表現(xiàn)情況,即根據(jù)其在課堂上的活躍程度以及認(rèn)真聽(tīng)課的情況來(lái)給的分,還有averscore就是同學(xué)平時(shí)的作業(yè)得分以及平時(shí)
7、測(cè)試或者期中測(cè)試的平均成績(jī),以及期末考試的成績(jī)lasttest。
score
lasttest
performance
averscore
2.2邏輯模型設(shè)計(jì)
本數(shù)據(jù)倉(cāng)庫(kù)只有一個(gè)表,邏輯模型設(shè)計(jì)如下:
2.3物理模型設(shè)計(jì)
在數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)中,主要解決數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲(chǔ)策略、存儲(chǔ)分配優(yōu)化等問(wèn)題。物理設(shè)計(jì)的主要目的有兩個(gè),一是提高性能,二是更好地管理存儲(chǔ)的數(shù)據(jù)。訪問(wèn)的頻率、數(shù)據(jù)容量、選擇的RDBMS支持的特性和存儲(chǔ)介質(zhì)的配置都會(huì)
8、影響物理設(shè)計(jì)的最終結(jié)果。在本數(shù)據(jù)挖掘中,數(shù)據(jù)的索引策略采取的并不是位圖索引而是按列索引
2.4 OLAP模型設(shè)計(jì)
在本設(shè)計(jì)中由于案例考慮的并不復(fù)雜,所以O(shè)LAP模型設(shè)計(jì)也就比較的簡(jiǎn)單。
下面的數(shù)據(jù)是保存在Excel中的。大概的模型設(shè)計(jì)也就如下圖所示。
2.5 OLAP前端展示設(shè)計(jì)
3數(shù)據(jù)挖掘分析
3.1 期末成績(jī)?cè)u(píng)估系統(tǒng)應(yīng)用挖掘概述
在本系統(tǒng)中,數(shù)據(jù)倉(cāng)庫(kù)采用一個(gè)二維表來(lái)存儲(chǔ)和表示同學(xué)們的平時(shí)成績(jī),平時(shí)表現(xiàn)得
9、分,以及期末成績(jī)等屬性。數(shù)據(jù)挖掘則采用關(guān)聯(lián)分析來(lái)將二維表中的實(shí)例分開(kāi),并探究這些數(shù)據(jù)所蘊(yùn)含的規(guī)律。
3.2數(shù)據(jù)挖掘?qū)嶒?yàn)
3.2.1實(shí)驗(yàn)環(huán)境
Windows XP
Microsoft SQL Server 2008
Microsoft Visual Studio 2008
Microsoft Office 2003 Excel Access
3.2.2數(shù)據(jù)準(zhǔn)備及預(yù)處理
首先選擇數(shù)據(jù)源,以下幾個(gè)截圖是在做實(shí)驗(yàn)時(shí)的幾個(gè)步驟。
10、
3.2.3 實(shí)驗(yàn)內(nèi)容 (輸入數(shù)據(jù)集,選擇算法,輸出結(jié)果,比較分析)
建立一個(gè)Analysis Services Project的項(xiàng)目,在數(shù)據(jù)源中輸入數(shù)據(jù)集:
說(shuō)明: 以上實(shí)驗(yàn)室在實(shí)驗(yàn)室做的,由于時(shí)間不夠,回到宿舍自己安裝了中文版的SQL SERVER工具,并完成接下來(lái)的實(shí)驗(yàn)步驟。
3.2.4 算法選擇
分類的任務(wù)是通過(guò)分析由已知類別數(shù)據(jù)對(duì)象組成的訓(xùn)練數(shù)據(jù)集,建立描述并區(qū)分?jǐn)?shù)據(jù)對(duì)象類別的分類函數(shù)或分類模型(也常常稱作分類器)。
分類算法有多種,例如,決策樹(shù)分類算法、神經(jīng)網(wǎng)絡(luò)分類算法、貝葉斯分類算法等。
11、這里需要用的是決策樹(shù)分類算法。
在本挖掘中選擇是關(guān)聯(lián)分析,分析過(guò)程和結(jié)果如以下圖所示:
下面是挖掘模型:
關(guān)聯(lián)規(guī)則:
項(xiàng)集:
說(shuō)明(項(xiàng)集是比較準(zhǔn)確的)
分類矩陣:
依賴關(guān)系網(wǎng)絡(luò)圖:
提升圖:
通過(guò)整合做出散點(diǎn)圖如下圖:
通過(guò)以上的分析,我們得出一個(gè)結(jié)論,就是期末成績(jī)?cè)谧罱K得分中所占的比例最大,平時(shí)成績(jī)和平時(shí)表現(xiàn)的權(quán)重差不多,在這個(gè)結(jié)論中,期末考試的成績(jī)的重要性,不言而喻,增加期末考試的成績(jī),最能提高最終成績(jī),平時(shí)成績(jī)和表現(xiàn)的得分也很重要,但相對(duì)權(quán)重沒(méi)有期末成績(jī)大。一個(gè)分?jǐn)?shù)高的學(xué)生,他的所有成績(jī)都應(yīng)該是很高的。
4小結(jié)
由于團(tuán)隊(duì)技術(shù)水平有限,在開(kāi)發(fā)過(guò)程中遇到了很多技術(shù)問(wèn)題,不過(guò)大多數(shù)都是一些小的細(xì)節(jié)問(wèn)題,花了很長(zhǎng)時(shí)間。
還有就是由于對(duì)軟件的不熟練,然后經(jīng)常會(huì)搞錯(cuò)多對(duì)一等的關(guān)系,或者是一些屬性的不對(duì)應(yīng),最后通過(guò)同學(xué)的幫忙,幫我查找到錯(cuò)誤,并幫我們改正。
經(jīng)過(guò)幾個(gè)星期的課程設(shè)計(jì),過(guò)程曲折可謂一語(yǔ)難盡。生活就是這樣,汗水預(yù)示著結(jié)果也見(jiàn)證著收獲。通過(guò)這次的設(shè)計(jì)培養(yǎng)了我綜合應(yīng)用所學(xué)知識(shí),發(fā)現(xiàn)、提出、分析和解決實(shí)際問(wèn)題,鍛煉了我的實(shí)踐能力。