數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾?焦永贊.doc
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾?焦永贊.doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒瀳蟾?焦永贊.doc(34頁珍藏版)》請在裝配圖網(wǎng)上搜索。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》 實驗報告冊 2013- 2014學(xué)年 第 一 學(xué)期 班 級: T1153-8 學(xué) 號: 20110530816 姓 名: 焦 永 贊 授課教師: 楊麗華 實驗教師: 楊麗華 實驗學(xué)時: 16 實驗組號: 1 信息管理系 目錄 實驗一 Microsoft SQL Server Analysis Services的使用 3 實驗二 使用WEKA進行分類與預(yù)測 15 實驗三 使用WEKA進行關(guān)聯(lián)規(guī)則與聚類分析 22 實驗四 數(shù)據(jù)挖掘算法的程序?qū)崿F(xiàn) 28 實驗一 Microsoft SQL Server Analysis Services的使用 實驗類型:驗證性 實驗學(xué)時:4 實驗?zāi)康模? 學(xué)習(xí)并掌握Analysis Services的操作,加深理解數(shù)據(jù)倉庫中涉及的一些概念,如多維數(shù)據(jù)集,事實表,維表,星型模型,雪花模型,聯(lián)機分析處理等。 實驗內(nèi)容: 在實驗之前,先通讀自學(xué)SQL SERVER自帶的Analysis Manager概念與教程。按照自學(xué)教程的步驟,完成對FoodMart數(shù)據(jù)源的聯(lián)機分析。建立、編輯多維數(shù)據(jù)集,進行OLAP操作,看懂OLAP的分析數(shù)據(jù)。 實驗步驟(寫主要步驟,可以打?。? 1、 啟動聯(lián)機分析管理器:開始->程序->Microsoft SQL Server->Analysis Manager。 2、 按照 Analysis Service的自學(xué)教程完成對FoodMart數(shù)據(jù)源的聯(lián)機分析。 3、 在開始-設(shè)置-控制面板-管理工具-數(shù)據(jù)源(ODBC),數(shù)據(jù)源管理器中設(shè)置和源數(shù)據(jù)的連接,“數(shù)據(jù)源名”為你的班級+學(xué)號+姓名,如T3730101張雨。 (1)打開管理工具中的數(shù)據(jù)源: (2)選擇系統(tǒng)DNS (3)建立名為“………….”的數(shù)據(jù)源 (4)添加,選擇“Microsoft Access 驅(qū)動程序 (*.mdb)”,然后單擊“完成”按鈕 (5)選擇數(shù)據(jù)庫 (6)在“ODBC Microsoft Access 安裝”對話框中單擊“確定”按鈕。 在“ODBC 數(shù)據(jù)源管理器”對話框中單擊“確定”按鈕。 4、在開始-設(shè)置-控制面板-管理工具-服務(wù)-MSSQLServerOLAPService, 啟動該項服務(wù)。 在Analysis Manager中,單擊服務(wù)器名稱,即可建立與 Analysis Servers 的連接;否則,在Analysis Servers 上單擊右鍵,注冊服務(wù)器,在服務(wù)器名稱中輸入本地計算機的名字,如pc56。本地計算機的名字可右擊:我的電腦,選擇屬性,網(wǎng)絡(luò)標(biāo)志,里面有本地計算機的名字。建立新的數(shù)據(jù)庫,數(shù)據(jù)庫名與數(shù)據(jù)源名相同,如T3730101張雨。在你所建立的數(shù)據(jù)庫中,單擊“新數(shù)據(jù)源”,和早期在 ODBC 數(shù)據(jù)源管理器中建立的數(shù)據(jù)源連接。 (1)啟動MSSQLServerOLAPService服務(wù) (2)注冊服務(wù)器 (3)建立名為“………”的新數(shù)據(jù)庫 (4)建立數(shù)據(jù)源 5、假設(shè)你是 FoodMart Corporation 的數(shù)據(jù)庫管理員。FoodMart 是一家大型的連鎖店,在美國、墨西哥和加拿大有銷售業(yè)務(wù)。市場部想要按產(chǎn)品和顧客分析 1998 年進行的所有銷售業(yè)務(wù)數(shù)據(jù)。要求建立Sales多維數(shù)據(jù)集,多維數(shù)據(jù)集是由維度和事實定義的。 其維度有“Time”維度、“Product”維度、“Customer”維度、“Store”維度和“Promotion” 維度,事實表為sales_fact_1998,事實表中的度量為:store_sales、store_cost、unit_sales。理解每個維度的級別。(1) “Time”維度 (2)Product維度 (3)“Customer”維度 (4)“Store”維度 (5)“Promotion” 維度 6、可以使用多維數(shù)據(jù)集編輯器對現(xiàn)有多維數(shù)據(jù)集進行更改。在使用或瀏覽多維數(shù)據(jù)集中的數(shù)據(jù)之前,要求設(shè)計多維數(shù)據(jù)集中的數(shù)據(jù)和聚合的存儲選項。即設(shè)計好 Sales 多維數(shù)據(jù)集的結(jié)構(gòu)之后,需要選擇要使用的存儲模式并指定要存儲的預(yù)先計算好的值的數(shù)量。完成此項操作之后,需要用數(shù)據(jù)填充多維數(shù)據(jù)集。這里選擇 MOLAP 作為存儲模式,創(chuàng)建 Sales 多維數(shù)據(jù)集的聚合設(shè)計,然后處理該多維數(shù)據(jù)集。處理 Sales 多維數(shù)據(jù)集時將從 ODBC 源中裝載數(shù)據(jù)并按照聚合設(shè)計中的定義計算匯總值。 7、使用多維數(shù)據(jù)集瀏覽器,可以用不同的方式查看數(shù)據(jù):可以篩選出可見的維度數(shù)據(jù)量,可以深化以看到數(shù)據(jù)的細節(jié),還可以淺化以看到較為概括的數(shù)據(jù)。這里可以使用多維數(shù)據(jù)集瀏覽器對 Sales 數(shù)據(jù)進行切片和切塊操作。要求理解OLAP操作下數(shù)據(jù)的含義,從而可以分析數(shù)據(jù)。 8、人力資源部想按商店來分析雇員的工資。本節(jié)將建立一個 HR(人力資源)多維數(shù)據(jù)集,以進行雇員工資分析。將把 Employee(雇員)維度創(chuàng)建為父子維度。然后使用該維度以及常規(guī)維度來生成 HR 多維數(shù)據(jù)集。其中,事實數(shù)據(jù)表為salary(工資), 維度為Employee(雇員)、Store(商店)、Time(時間)。了解如何建立父子維度。 9、建立計算成員和成員屬性。在Sales 多維數(shù)據(jù)集中建立“Average price” 計算成員,思考建立該計算成員的目的。市場部希望將 Sales 多維數(shù)據(jù)集分析功能擴展到根據(jù)客戶的下列特征分析客戶銷售數(shù)據(jù):性別、婚姻狀況、教育程度、年收入、在家子女?dāng)?shù)和會員卡。需要向 Customer 維度添加以下六個成員屬性:Gender(性別)、Marital status(婚姻狀況)、Education(教育程度)、Yearly Income(年收入)、Num Children At Home(在家子女?dāng)?shù))和 Member Card(會員卡)。這些成員屬性將限制 Customer 維度中的每個成員。理解什么是計算成員和成員屬性,為什么要建立? 10、已經(jīng)為客戶維度添加了六個成員屬性,可以創(chuàng)建一個帶有 Yearly Income(年收入)成員屬性的虛擬維度,然后將這個新創(chuàng)建的維度添加到 Sales 多維數(shù)據(jù)集中。使用虛擬維度,可以基于多維數(shù)據(jù)集中的維度成員的成員屬性對多維數(shù)據(jù)集數(shù)據(jù)進行分析。 其優(yōu)點是不占用磁盤空間或處理時間。 (1)為客戶維度添加屬性 (2)創(chuàng)建Yearly Income虛擬維度 11、理解多維數(shù)據(jù)集角色和數(shù)據(jù)庫角色的聯(lián)系和區(qū)別、建立角色的目的。 (1)在sales中創(chuàng)建marketing角色 (2)在HR中創(chuàng)建HR角色 12、查看銷售多維數(shù)據(jù)集的元數(shù)據(jù)和維度的元數(shù)據(jù),加深對元數(shù)據(jù)概念和分類的理解。 (1)查看銷售元數(shù)據(jù) (2)查看Customer元數(shù)據(jù) 思考題(要求手寫) 給出一個數(shù)據(jù)倉庫成功應(yīng)用的案例,包括所解決的問題,功能等。 實驗小結(jié)(要求手寫): 實驗中遇到的問題及解決辦法、心得、體會等等... 實驗二 使用WEKA進行分類與預(yù)測 實驗類型:綜合性 實驗學(xué)時:4 實驗?zāi)康模? 掌握數(shù)據(jù)挖掘平臺WEKA的使用。綜合運用數(shù)據(jù)預(yù)處理、分類與預(yù)測的挖掘算法、結(jié)果的解釋等知識進行數(shù)據(jù)挖掘。從而加深理解課程中的相關(guān)知識點。 實驗內(nèi)容: 閱讀并理解WEKA的相關(guān)中英文資料,熟悉數(shù)據(jù)挖掘平臺WEKA,針對實際數(shù)據(jù),能夠使用WEKA進行數(shù)據(jù)的預(yù)處理,能選擇合適的分類與預(yù)測算法對數(shù)據(jù)進行分析,并能解釋分析結(jié)果。 實驗步驟(可以打?。? 1、 在開始->程序->啟動WEKA,進入Explorer界面,熟悉WEKA的界面功能。 2、 選擇數(shù)據(jù)集(實驗中的數(shù)據(jù)可以從網(wǎng)絡(luò)獲?。缣┨鼓峥颂枖?shù)據(jù)集,將要處理的數(shù)據(jù)集轉(zhuǎn)換成WEKA能處理的格式,如.ARFF格式。思考:如何將其它格式的數(shù)據(jù)文件(如.XLS)轉(zhuǎn)換為.ARFF格式? 3、 根據(jù)選擇的數(shù)據(jù)挖掘算法,如果有必要,在Weka Explorer界面,Preprocess選項中,進 行相應(yīng)的數(shù)據(jù)預(yù)處理。要求:熟悉Preprocess界面中各個功能選項的含義,理解數(shù)據(jù)的 特征。思考:在filter中,supervised和unsupervised的區(qū)別? 4、 在Weka Explorer界面,單擊Visualize選項,進入WEKA 的可視化頁面,可以對當(dāng)前的關(guān)系作二維散點圖式的可視化瀏覽。要求: 熟悉Visualize界面中各個功能選項的含義,理解可視化圖形的意義。 5、 選擇相應(yīng)的分類與預(yù)測挖掘算法對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設(shè)置。如利用WEKA->Classifier->trees->J48 決策樹算法,對泰坦尼克號數(shù)據(jù)集進行分析;如利用回歸模型對連續(xù)數(shù)值進行預(yù)測。要求:對你選擇的分類和預(yù)測算法思想分別進行介紹,熟悉classify界面的內(nèi)容,對classifier中的參數(shù)含義分別進行介紹。思考:classifier->trees->J48算法與classifier->trees->id3算法的區(qū)別與聯(lián)系。 ID3算法: J48算法: 6、 對分析所獲得的結(jié)果進行解釋。如,根據(jù)決策樹和分類規(guī)則嘗試討論泰坦尼克號幸存者的特征。理解評估分類和預(yù)測優(yōu)劣的一些準(zhǔn)則。 思考題(要求手寫) 給出數(shù)據(jù)挖掘中分類與預(yù)測成功應(yīng)用的案例,并簡要介紹。 實驗小結(jié)(要求手寫): 實驗中遇到的問題及解決辦法、心得、體會等等... 實驗三 使用WEKA進行關(guān)聯(lián)規(guī)則與聚類分析 實驗類型:綜合性 實驗學(xué)時:4 實驗?zāi)康模? 掌握數(shù)據(jù)挖掘平臺WEKA的使用。綜合運用數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則與聚類的挖掘算法、結(jié)果的解釋等知識進行數(shù)據(jù)挖掘。從而加深理解課程中的相關(guān)知識點。 實驗內(nèi)容: 閱讀并理解WEKA的相關(guān)中英文資料,熟悉數(shù)據(jù)挖掘平臺WEKA,針對實際數(shù)據(jù),能夠使用WEKA進行數(shù)據(jù)的預(yù)處理,了解屬性選擇,能選擇合適的關(guān)聯(lián)規(guī)則與聚類算法對數(shù)據(jù)進行分析,并能解釋分析結(jié)果。 實驗步驟(可以打?。? 1、 在開始->程序->啟動WEKA,進入Explorer界面,熟悉WEKA的界面功能。 2、 選擇數(shù)據(jù)集(實驗中的數(shù)據(jù)可以從網(wǎng)絡(luò)獲?。?,將要處理的數(shù)據(jù)集轉(zhuǎn)換成WEKA能處理的格式,如 .ARFF格式。根據(jù)選擇的數(shù)據(jù)挖掘算法,如果有必要,在Weka Explorer界面,Preprocess選項中,進行相應(yīng)的數(shù)據(jù)預(yù)處理。 3、 在Weka Explorer界面,單擊Select attributes選項,進入WEKA 的屬性選擇頁面。要求: 了解該界面中主要功能選項的含義,理解該界面的功能。 4、 在Weka Explorer界面,單擊Associate選項,進入WEKA 的關(guān)聯(lián)規(guī)則頁面。選擇一個關(guān)聯(lián)規(guī)則算法對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設(shè)置。要求:對你選擇的關(guān)聯(lián)規(guī)則算法思想進行介紹,熟悉Associate界面的內(nèi)容,對Associate中的參數(shù)含義分別進行介紹。理解用來衡量規(guī)則的關(guān)聯(lián)程度的幾個度量指標(biāo)。理解并解釋分析所獲得的結(jié)果。 5、 在Weka Explorer界面,單擊Cluster選項,進入WEKA 的聚類頁面。選擇一個聚類算法(如K均值)對數(shù)據(jù)集進行分析,進行算法參數(shù)的具體設(shè)置。要求:對你選擇的聚類算法思想進行介紹,熟悉Cluster界面的內(nèi)容,對Cluster中的參數(shù)含義進行介紹。理解并解釋分析所獲得的結(jié)果。 思考題(要求手寫) 給出數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則與聚類成功應(yīng)用的一些案例,并簡要介紹。 實驗小結(jié)(要求手寫): 實驗中遇到的問題及解決辦法、心得、體會等等... 實驗四 數(shù)據(jù)挖掘算法的程序?qū)崿F(xiàn) 實驗類型:設(shè)計性 實驗學(xué)時:4 實驗?zāi)康模? 運用數(shù)據(jù)挖掘、程序設(shè)計等相關(guān)知識,選擇一個數(shù)據(jù)挖掘的常用算法進行程序設(shè)計實現(xiàn)。加深對數(shù)據(jù)挖掘算法基本原理、詳細執(zhí)行過程和具體應(yīng)用情況的理解。 實驗內(nèi)容: 采用任何一種自己熟悉的編程語言,完成算法的程序設(shè)計,并在每個程序設(shè)計語句后面進行詳細的注釋。能夠運用實現(xiàn)的算法來解決某個具體的問題,得到并解釋程序運行的結(jié)果。 推薦的算法: 1 關(guān)聯(lián)規(guī)則:Apriori算法 2 分類與預(yù)測:ID3, C4.5, KNN, BP, 3 聚類:k-means 實驗步驟(可以打?。? 1. 提前預(yù)習(xí),選擇算法,理解原理。 2. 針對具體問題,選擇熟悉的編程平臺,進行算法的程序?qū)崿F(xiàn),盡量在每個程序語句后面進行詳細注釋。 C++程序源代碼: /* 這個程序是數(shù)據(jù)挖掘中的Apriori算法*/ #include- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù)倉庫 數(shù)據(jù) 挖掘 實驗 報告 焦永贊


鏈接地址:http://weibangfood.com.cn/p-9156861.html