數(shù)據(jù)挖掘論文

時間：2023-07-29 07:53:58 論文我要投稿

數(shù)據(jù)挖掘論文錦集15篇

　　在平時的學(xué)習(xí)、工作中，大家都跟論文打過交道吧，借助論文可以達到探討問題進行學(xué)術(shù)研究的目的。你知道論文怎樣寫才規(guī)范嗎？下面是小編為大家收集的數(shù)據(jù)挖掘論文，僅供參考，大家一起來看看吧。

數(shù)據(jù)挖掘論文錦集15篇

數(shù)據(jù)挖掘論文1

　　０引言

　　隨著我國信息化建設(shè)進程的不斷推進，許多高校都已經(jīng)建立起各類基于業(yè)務(wù)的數(shù)據(jù)庫用于日常管理，作為應(yīng)用廣泛的新興學(xué)科，數(shù)據(jù)挖掘技術(shù)在高校教育信息化中的應(yīng)用前景較好，為高校的管理、建設(shè)、服務(wù)過程的絕學(xué)提供了全新而科學(xué)的分析途徑。在新形勢下，高校學(xué)生思政管理工作面臨著巨大挑戰(zhàn)，所以適時不斷調(diào)整思想工作的途徑，加強先進經(jīng)驗的交流，可以有效的提高高校思政工作的效果，對此，本文借助數(shù)據(jù)挖掘技術(shù)進行嘗試，通過聚類結(jié)果分析，所挖掘到的信息對學(xué)生工作具有一定的參考價值。

　　１數(shù)據(jù)挖掘技術(shù)在思想政治教育中的實際應(yīng)用

　　１．１思想政治教育管理隨著高等教育的不斷發(fā)展與普及，給高校思想政治教育帶來一定挑戰(zhàn)，在通常情況下，學(xué)校相關(guān)部門會對教育管理工作進行數(shù)據(jù)收集，但是目前對這些數(shù)據(jù)的處理還處于底層的查找與簡單分析階段，不能夠挖掘出其中的價值。為了更加具體的了解思政教育工作者的工作情況，學(xué)校每學(xué)期會組織學(xué)生對輔導(dǎo)員的工作進行評議，填寫輔導(dǎo)員“工作考核量化表”如何從中提取有價值的信息，對高校思想政治教育有非常重要的意義［１］。１．２解決方案數(shù)據(jù)挖掘?qū)儆谝粋€方案得到肯定的過程，是數(shù)據(jù)分析研究的深層系手段，將數(shù)據(jù)挖掘技術(shù)運用到輔導(dǎo)員工作考核中具有特別意義。例如：通過數(shù)據(jù)挖掘技術(shù)手段分析“輔導(dǎo)員工作考核量化表”中的數(shù)據(jù)，可以了解“某所高校思政管理整體水平”，在管理中“哪些方面做得好，哪些方面做得不到位”等相關(guān)問題。通過這些結(jié)論進一步完善高校思政教育管理。本文提出運用聚類分析的數(shù)據(jù)挖掘技術(shù)對輔導(dǎo)員的工作成效數(shù)據(jù)進行分析，將大批的數(shù)據(jù)轉(zhuǎn)換為聚類結(jié)果，從而更好的對數(shù)據(jù)加以利用。數(shù)據(jù)挖掘過程.步驟１：明確數(shù)據(jù)挖掘的對象和主要目的，通過數(shù)據(jù)挖掘雖然不能預(yù)測最終結(jié)果，但是可以對所研究的問題進行預(yù)測，所以挖掘目標的確定是數(shù)據(jù)挖掘的關(guān)鍵步驟［２］。步驟２：數(shù)據(jù)采集，該過程的任務(wù)比較繁重，并且需要時間比較多。在品勢的教育管理中，要認真的收集數(shù)據(jù)信息，一部分數(shù)據(jù)是直接可以拿到的，一部分數(shù)據(jù)則需要通過調(diào)研才能獲得。步驟３：數(shù)據(jù)預(yù)處理，將收集到的數(shù)據(jù)轉(zhuǎn)變成可分析的數(shù)據(jù)模型，該模型是根據(jù)算法來準備的，不同的算法對數(shù)據(jù)模型的要求是不一樣的。步驟４：數(shù)據(jù)類聚挖掘，通過類聚挖掘能夠?qū)?shù)據(jù)模型劃分為相似的多個組，該過程主要為數(shù)據(jù)模型的輸入過程以及聚類算法的選擇進行實現(xiàn)。步驟５：聚類結(jié)果分析，該過程主要分析研究聚類數(shù)據(jù)挖掘之后得到的多個組屬性。步驟６：知識應(yīng)用，將研究所得的信息集成到輔導(dǎo)員的管理教育環(huán)節(jié)中，思政工作者通過該結(jié)論促進教學(xué)管理，形成良好的管理方針［３］。

　　２數(shù)據(jù)挖掘技術(shù)在思政教育工作中具體方案實施

　　２．１確定數(shù)據(jù)挖掘?qū)ο笫占⒄砟炒髮W(xué)２０１７年“輔導(dǎo)員工作考核量化表”，整理其中關(guān)于輔導(dǎo)員教育管理的１２０張考核量化表，嘗試解答高校思政教育中存在的問題，經(jīng)過對有價值數(shù)據(jù)的挖掘，得出結(jié)論為教學(xué)管理帶來有效的指導(dǎo)價值。２．２數(shù)據(jù)采集從學(xué)校學(xué)生工作處，搜集２０１７年度“輔導(dǎo)員工作考核量化表”。２．３數(shù)據(jù)預(yù)處理“輔導(dǎo)員工作考核量化表”要求輔導(dǎo)員在“堅持標準，獎懲分明，客觀公正的對待每一位學(xué)生。”“認真做好勤工助學(xué)活動。”“正確分析學(xué)生的思想動態(tài)”等幾個指標項目中，根據(jù)輔導(dǎo)員的實際工作表現(xiàn)，劃分為“優(yōu)秀、良好、合格、較差、差”五等類型等級。最終獲得比較完整的考核記錄工作考核量化表１１７張。２．４數(shù)據(jù)轉(zhuǎn)換在工作考核量化表中考核等級的`項目共１５項，如何將數(shù)據(jù)合成到一個聚類分析的模式中非常關(guān)鍵，按照“管理態(tài)度”“管理能力”“管理方法”“管理效果”四方面屬性來對工作考核量化表中的數(shù)據(jù)進行重新組合：其中“管理態(tài)度”＝（堅持標準＋與同學(xué)之間感情融洽＋言談得體＋辦事客觀）／４“管理能力”＝（準確掌握貧困生情況＋準確掌握特殊群體＋嚴格教育與查出違紀學(xué)生＋勝任工作＋組織學(xué)生做好評優(yōu)工作）／５“管理方法”＝（每周３次以上探入班級宿舍＋積極參加檢查學(xué)生早操＋學(xué)生獎學(xué)金發(fā)放到位＋有準備的與學(xué)生談話＋檢查宿舍衛(wèi)生）／５“管理效果”＝（積極參加團活班會＋課下了解學(xué)生思想狀況＋評論與建議）／３通過以上處理，可以將工作考核量化表關(guān)系到的十五個考評等級統(tǒng)一演化到四個屬性中。然后針對１１７份數(shù)據(jù)樣本信息的４個屬性采取聚類挖掘的方法進行研究。通過樣本預(yù)處理得到數(shù)據(jù)樣本.２．５數(shù)據(jù)聚類挖掘數(shù)據(jù)的聚類挖掘采用劃分方法中的經(jīng)典算法Ｋ均值以及Ｋ中心點算法，其中Ｋ代表類別個數(shù)（Ｋ＝３），主要挖掘思路為：將ｎ個對象劃分為Ｋ個簇，使同一簇中的對象具有較高的相似度，Ｋ均值算法主要是使用簇中對象的平均值作為參考值。Ｋ均值算法的復(fù)雜度可以通過進一步計算得出Ｏ（ｎｋｔ），ｎ代表簇的數(shù)量，ｔ代表反復(fù)迭代的次數(shù)，在一般情況下，ｋ與ｔ都會遠小于ｎ。針對所要分析的數(shù)據(jù)樣本，四類屬性都是通過數(shù)據(jù)轉(zhuǎn)換而得到的，所要的數(shù)據(jù)都是算術(shù)平均值，所以產(chǎn)生孤立點的可能性非常小，最終選用Ｋ均值的算法來運用于本研究的數(shù)據(jù)聚類中。一般情況下，Ｋ均值算法當局部取得最優(yōu)解時會終止，所以一定要對數(shù)據(jù)樣本進行改進，考察數(shù)據(jù)樣本信息的綜合比例分布情況，采取進一步措施對Ｋ均值算法進行改進得到三個等級樣本，３數(shù)據(jù)挖掘算法流程３．１算法實現(xiàn)的流程算法實現(xiàn)流程。在Ｋ均值算法中，函數(shù)ＬｏａｄＰａｔｔｅｒｎｓ的作用主要是將數(shù)據(jù)信息裝載到程序中，目的是為了從數(shù)據(jù)庫文件中讀取相關(guān)信息，并且將文件中的數(shù)據(jù)轉(zhuǎn)換成樣本數(shù)組。函數(shù)ＲｕｎＫ－Ｍｅａｎｓ（）的作用是算法的主程序，將所有對象同簇中心距離進行對比，然后將對象劃分到最近的簇中。函數(shù)Ｓｈｏｗ－Ｃｅｎｔｅｒｓ（）代表算法所描述的聚類中心。函數(shù)ＳｈｏｗＣｌｕｓｔｅｒｓ（）表示樣本的標識符號［４］。３．２主控程序ＲｕｎＫＭｅａｎｓ（）的調(diào)用從而找到最短距離的簇，然后運用ＤｉｓｔｒｉｂｕｔｅＳａｍ－ｐｌｅｓ（）將所有對象劃分到最近的簇當中，算出所有簇中對象的平均值，作為新的質(zhì)心，如果所有新的質(zhì)心不發(fā)生改變，則聚類結(jié)束。

　　3聚類結(jié)果分析

　　本文運用Ｋ均值算法對１２０個數(shù)據(jù)通過數(shù)據(jù)轉(zhuǎn)換得到的樣本數(shù)據(jù)進行分析，對管理態(tài)度、管理能力、管理方法、管理效果４個屬性進行數(shù)據(jù)挖掘聚類，設(shè)置初始ｋ值為３，最終挖掘到的結(jié)果.根據(jù)以上結(jié)果，每個簇所包括的數(shù)據(jù)樣本最后的比例分布范圍如下：簇１（較好）共計３６個樣本，刪除定義樣本，剩余３５個數(shù)據(jù)樣本，占３５／１１７＝３０％。簇２（中等）共計７４個樣本，刪除一個標準樣本，剩余７３個數(shù)據(jù)樣本，占７３／１１７＝６２％。簇３（較差）共計１０個樣本，刪除一個標準樣本，剩余９個數(shù)據(jù)樣本，占９／１１７＝８％“管理態(tài)度”＝０．７７＊３０％＋０．６１＊６２％＋０．３１＊８％＝０．６３４“管理能力”＝０．７７＊３０％＋０．５７＊６２％＋０．３１＊８％＝０．６０９２“管理方法”＝０．７４＊３０％＋０．５４＊６２％＋０．２８＊８％＝０．５７９２“管理效果”＝０．７９＊３０％＋０．５６＊６２％＋０．３０＊８％＝０．６０８２從總體得分由高到低排序為：管理態(tài)度、管理能力、管理效果、管理方法。總體上證明該校的思政管理水平屬于中等偏上的。

　　４總結(jié)

　　數(shù)據(jù)挖掘，主要是通過對原始數(shù)據(jù)的分析、提煉，找到最優(yōu)價值的信息的過程，屬于一類深層次的數(shù)據(jù)分析方法。將數(shù)據(jù)挖據(jù)技術(shù)運用在高校思想政治教育中，有利于對思政教育工作者的多項工作指標進行分析，對其綜合能力進行評定，為高校進一步完善思想政治教育管理決策，準確定位人才培養(yǎng)目標，加強教育團隊建設(shè)提供有效的數(shù)據(jù)依據(jù)。

　　參考文獻

　　［１］劉強珺，丁養(yǎng)斌．基于數(shù)據(jù)挖掘技術(shù)的高校思政教育管理研究［Ｊ］．電子測試，２０１５（１）：１０１－１０３．

　　［２］范宸西，韓松洋．思想政治教育在高校內(nèi)涵式發(fā)展中的重新定位［Ｊ］．中共珠海市委黨校珠海市行政學(xué)院學(xué)報，２０１５（４）：５０－５４．

　　［３］吳小龍，張麗麗．大數(shù)據(jù)視角下高校思想政治理論教育創(chuàng)新［Ｊ］．江西理工大學(xué)學(xué)報，２０１７（８）：２０－２３．

　　［４］李平榮．大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用［Ｊ］．重慶三峽學(xué)院學(xué)報，２０１４（５）：１５９．

　　［５］舒正渝．淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用［Ｊ］．中國西部科技，２０１０（２）：１４８－１５０．

　　作者:關(guān)翠玲單位:陜西財經(jīng)職業(yè)技術(shù)學(xué)院

數(shù)據(jù)挖掘論文2

　　[摘要] 電子商務(wù)是現(xiàn)代商業(yè)模式，數(shù)據(jù)挖掘是先進的信息處理技術(shù)，因此數(shù)據(jù)挖掘在電子商務(wù)中具有廣闊的應(yīng)用前景。本文主要介紹了web數(shù)據(jù)挖掘的概念和分類，論述了電子商務(wù)中web數(shù)據(jù)挖掘的過程和方法，最后闡述了web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。

　　[關(guān)鍵詞] web 數(shù)據(jù)挖掘電子商務(wù)

　　一、引言

　　電子商務(wù)是利用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)和遠程通信技術(shù)，實現(xiàn)整個商務(wù)(買賣)過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化。在全球范圍內(nèi)，基于internet的電子商務(wù)迅猛發(fā)展，促使各企業(yè)經(jīng)營者必須及時搜集大量的數(shù)據(jù)，并且將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息，為企業(yè)創(chuàng)造更多潛在的利潤。利用web數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù)，提取出有效信息，進而指導(dǎo)企業(yè)調(diào)整營銷策略，給客戶提供動態(tài)的個性化的高效率服務(wù)。

　　二、web數(shù)據(jù)挖掘

　　1.web數(shù)據(jù)挖掘的概念

　　數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的過程。web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在web環(huán)境下的應(yīng)用，是從web文檔和web活動中發(fā)現(xiàn)潛在的、有用的模式或信息。它是一項綜合技術(shù)，涉及到internet、人工智能、計算機語言學(xué)、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。

　　2.web數(shù)據(jù)挖掘的類型

　　電子商務(wù)中web信息的多樣性決定了挖掘任務(wù)的多樣性。按照web處理對象的不同，web數(shù)據(jù)挖掘可以分為以下三種類型：

　　(1)web內(nèi)容挖掘(web content mining)：可分為web頁面內(nèi)容挖掘和搜索結(jié)果挖掘。WWW.133229.COM前者指的是對web頁面上的數(shù)據(jù)進行挖掘。而后者指的是以某一搜索引擎為基礎(chǔ)，對已搜索結(jié)果的挖掘，以得到更精確有用的信息。web內(nèi)容挖掘常用的方法有weboql和ahoy。

　　(2)web結(jié)構(gòu)挖掘(web structure mining)：可分為超鏈接挖掘、內(nèi)容挖掘和url挖掘。整個web空間里，有用的知識不僅包含在web頁面的內(nèi)容之中，而且包含在頁面的結(jié)構(gòu)之中。web結(jié)構(gòu)挖掘是挖掘web潛在的鏈接結(jié)構(gòu)模式，是對web頁面超鏈接關(guān)系、文檔內(nèi)部結(jié)構(gòu)、文檔url中的目錄途徑結(jié)構(gòu)的挖掘。page2rank方法就是利用文檔間鏈接信息來查找相關(guān)的web頁。

　　(3)web使用挖掘(web usage mining)：可分為一般訪問模式挖掘和個性化服務(wù)模式挖掘。它是從web的訪問記錄中抽取感興趣的模式。/dianzijixie/">電子商務(wù)中，關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是找到客戶對網(wǎng)站上各種文件之間訪問的相互聯(lián)系。聯(lián)系的問題就是得到如下形式的規(guī)則：“”，其中與均為在數(shù)據(jù)庫中相關(guān)數(shù)據(jù)特征屬性值的集合。例如，用關(guān)聯(lián)規(guī)則技術(shù)，我們可以發(fā)現(xiàn)：如果客戶在一次訪問行為中，訪問了頁面／page1時，一般也會訪問頁面／page2。進行web上的數(shù)據(jù)挖掘，構(gòu)建關(guān)聯(lián)模型，我們可以更好地組織站點，減少用戶過濾信息的負擔，實施有效的市場策略，增加交叉銷售量。

　　4.序列模式(sequential pattern)

　　序列模式分析的目的是為了挖掘出數(shù)據(jù)間的前后或因果關(guān)系，就是在時間戳有序的事務(wù)集中，找到那些“一些項跟隨另一個項”的內(nèi)部事務(wù)模式。例如，在／page1上進行過在線訂購的顧客，有60%的人在過去10天內(nèi)也在／page2上下過定單。通過序列模式的發(fā)現(xiàn)，能夠便于電子商務(wù)的經(jīng)營者預(yù)測客戶的'訪問模式，在服務(wù)器方選取有針對性的頁面，以滿足訪問者的特定要求；網(wǎng)站的管理員可將訪問者按瀏覽模式分類，在頁面上只展示具有該瀏覽模式的訪問者經(jīng)常訪問的鏈接，而用一個“更多內(nèi)容”指向其他未被展示的內(nèi)容。當訪問者瀏覽到某頁面時，檢查他的瀏覽所符合的序列模式，并在顯眼的位置提示“訪問該頁面的人通常接著訪問”的若干頁面。

　　5.分類規(guī)則(classification regulation)

　　分類要解決的問題是為一個事件或?qū)ο髿w類。設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記)，該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標記，這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù)，為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則，然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。例如，經(jīng)過web挖掘發(fā)現(xiàn)，在／page1進行過在線訂購的客戶中有60％是20歲～30歲生活在大中城市的年輕人。得到分類后，就可以針對這一類客戶的特點展開商務(wù)活動，提供有針對性的個性化的信息服務(wù)。用于分類分析的方法有統(tǒng)計方法的貝葉斯分類、機器學(xué)習(xí)的判定樹歸納分類、神經(jīng)網(wǎng)絡(luò)的后向傳播分類、k-最臨近分類、mbr、遺傳法、粗糙集和模糊集等。

　　6.聚類分析(clustering analysis)

　　聚類分析不同于分類規(guī)則，其輸入集是一組未標定的記錄，也就是說，此時輸入的記錄還沒有進行任何分類。其目的是根據(jù)一定的規(guī)則，合理地劃分記錄集合，并用顯式或隱式的方法描述不同的類別。在電子商務(wù)中，通過聚類具有相似瀏覽行為的客戶，可使經(jīng)營者更多地了解客戶，為客戶提供更好的服務(wù)。例如，一些客戶在一個時間段內(nèi)經(jīng)常瀏覽“wedding celebration”，經(jīng)過分析可將這些客戶聚類為一組，并可進一步得知這是一組即將結(jié)婚的客戶，對他們的服務(wù)就應(yīng)該有別于其他的聚類客戶，如“經(jīng)理人員階層組”、“學(xué)生階層組”。這樣，web可自動給這個特定的顧客聚類發(fā)送新產(chǎn)品信息郵件，為這個顧客聚類動態(tài)地改變一個特殊的站點。在一定程度上滿足客戶的要求，這對客戶和銷售商來說更有意義。

　　三、web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用

　　1.挽留老顧客，挖掘潛在客戶

　　通過web挖掘，電子商務(wù)的經(jīng)營者可以獲知每位訪問者的個人愛好，充分地了解客戶的需要，根據(jù)每一類顧客的獨特需求提供定制化的產(chǎn)品，并根據(jù)需求動態(tài)地向客戶做頁面推薦，調(diào)整web頁面，提高客戶滿意度，延長客戶駐留的時間，最終達到留住客戶的目的。通過挖掘web日志記錄，可以先對已經(jīng)存在的訪問者進行分類，然后從它的分類判斷出某個新客戶是否是潛在的客戶。

　　2.制定產(chǎn)品營銷策略，優(yōu)化促銷活動

　　通過對商品訪問情況和銷售情況進行挖掘，企業(yè)能夠獲取客戶的訪問規(guī)律，確定顧客消費的生命周期，根據(jù)市場的變化，針對不同的產(chǎn)品制定相應(yīng)的營銷策略。

　　3.降低運營成本，提高企業(yè)競爭力

　　電子商務(wù)的經(jīng)營者通過web數(shù)據(jù)挖掘，可以得到可靠的市場反饋信息，認真分析顧客的將來行為，進行有針對性的電子商務(wù)營銷活動；可以根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置，增加廣告針對性，提高廣告的投資回報率，從而降低運營成本，提高企業(yè)競爭力。

　　4.提高站點點擊率，完善電子商務(wù)網(wǎng)站設(shè)計

　　通過挖掘客戶的行為記錄和反饋情況為站點設(shè)計者提供改進的依據(jù)，進一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)以提高網(wǎng)站的點擊率。比如利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)，可以針對不同客戶動態(tài)調(diào)整站點結(jié)構(gòu)，使客戶訪問的有關(guān)聯(lián)的文件間的鏈接更直接，讓客戶容易地訪問到想要的頁面，就能給客戶留下好的印象，增加下次訪問的機率。

　　同時對網(wǎng)站上各種數(shù)據(jù)的統(tǒng)計分析有助于改進系統(tǒng)性能，增強系統(tǒng)安全性，并提供決策支持。

　　四、結(jié)束語

　　當今時代，電子商務(wù)的發(fā)展勢頭越來越強勁，面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋€非常有前景的領(lǐng)域。但是，不可否認，在面向電子商務(wù)的數(shù)據(jù)挖掘中還存在很多急需解決的問題，比如：怎樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式；怎樣解決分布性、異構(gòu)性數(shù)據(jù)源的挖掘問題；如何控制整個web上的知識發(fā)現(xiàn)過程等。

　　參考文獻:

　　[1]jiawei han，micheline kamber著，范明孟小峰譯:數(shù)據(jù)挖掘概念與技術(shù).機械工業(yè)出版社，20xx，8

　　[2]凌傳繁:web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[j].情報雜志，20xx，(1)

　　[3]柳:web挖掘技術(shù)與電子商務(wù)[j]．商場現(xiàn)代化，20xx，(03x)

數(shù)據(jù)挖掘論文3

　　摘要：隨著信息技術(shù)的發(fā)展與進步，大數(shù)據(jù)時代已經(jīng)悄然走進人們身邊，云計算技術(shù)的運用已經(jīng)隨處可見，并改變和影響著人們的生活。在此基礎(chǔ)上，數(shù)據(jù)挖掘技術(shù)產(chǎn)生并發(fā)展，其在信息安全系統(tǒng)開發(fā)和建設(shè)方面產(chǎn)生重要影響和作用，以數(shù)據(jù)挖掘技術(shù)為依托構(gòu)建相應(yīng)的信息安全系統(tǒng)則更加能夠讓網(wǎng)絡(luò)信息建設(shè)可靠、安全。

　　關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù)；信息安全系統(tǒng)；開發(fā)研究

　　一、數(shù)據(jù)挖掘的主要任務(wù)

　　在數(shù)據(jù)挖掘的主要任務(wù)中，包含關(guān)聯(lián)分析、聚類分析、異常檢測等任務(wù)。關(guān)聯(lián)分析也叫頻繁模式分析，其指的是就同一任務(wù)或者統(tǒng)一事件的查找過程中，另一事件也同樣會發(fā)生相同規(guī)律，兩者之間具有緊密聯(lián)系。聚類分析主要是的是對各個數(shù)據(jù)內(nèi)在的規(guī)律摸索，以及特點分析，通過對特點和規(guī)律進行對比，依照特點和規(guī)律進行數(shù)據(jù)源分類，使其成為若干個數(shù)據(jù)庫。異常檢測指的是對數(shù)據(jù)樣本的范本進行建設(shè)，利用這一范本，與數(shù)據(jù)源中所存在的數(shù)據(jù)開展對比分析工作，將數(shù)據(jù)中的異常樣本查找出來[1]。在監(jiān)督學(xué)習(xí)中，主要包含分類與預(yù)測兩種形式，利用已知樣本的類型與大小，對新到樣本開展有關(guān)預(yù)測活動。

　　二、基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息安全策略

　　1.安全的網(wǎng)絡(luò)環(huán)境

　　（1）對控制技術(shù)進行隔離與訪問，包括物理隔離、可信網(wǎng)絡(luò)隔離、邏輯隔離與不可信網(wǎng)絡(luò)隔離，相關(guān)用戶如果需要進行網(wǎng)絡(luò)資源搜集或者訪問，需要得到相關(guān)授權(quán)。

　　（2）對防病毒技術(shù)進行運用，由于網(wǎng)絡(luò)安全已受到病毒的嚴重威脅，應(yīng)當對病毒預(yù)警、防護以及應(yīng)急機制進行建設(shè)，確保網(wǎng)絡(luò)的安全性；

　　（3）通過網(wǎng)絡(luò)入侵檢測技術(shù)的應(yīng)用，能夠?qū)Ψ欠ㄈ肭终叩钠茐男袨榧皶r發(fā)現(xiàn)，并依照存在的隱患進行預(yù)警機制的建設(shè)。網(wǎng)絡(luò)安全環(huán)境的建設(shè)還包括對系統(tǒng)安全性開展定期分析，在第一時間對系統(tǒng)漏洞進行查找，并制定有關(guān)解決措施；

　　（4）通過有關(guān)分析審計工作的開展，可以對計算機網(wǎng)絡(luò)中的各種運行活動進行記錄，不僅可以對網(wǎng)絡(luò)訪問者予以確定，而且還能夠?qū)ο到y(tǒng)的使用情況進行記錄；

　　（5）通過網(wǎng)絡(luò)備份與災(zāi)難恢復(fù)工作，能夠利用最短的時間回復(fù)已破壞的系統(tǒng)。

　　2.保證數(shù)據(jù)挖掘信息安全的策略。安全的數(shù)據(jù)挖掘信息指的是數(shù)據(jù)挖掘信息的儲存、傳送以及運用工作的安全性。在數(shù)據(jù)挖掘信息的存儲安全中，主要包括其物理完整性、邏輯完整性以及保密性。利用數(shù)據(jù)完整性技術(shù)、數(shù)據(jù)傳輸加密技術(shù)以及防抵賴性技術(shù)，使數(shù)據(jù)挖掘信息傳送的安全性得到充分保障。數(shù)據(jù)挖掘信息運用的安全性指的是針對網(wǎng)絡(luò)中的主體，應(yīng)當開展有關(guān)驗證工作，預(yù)防非授權(quán)主體對網(wǎng)絡(luò)資源進行私自運用。

　　3.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)安全數(shù)據(jù)分析策略

　　（1）關(guān)聯(lián)性分析。在一次攻擊行為中，利用源地址、目的地址以及攻擊類型這三要素，通過三要素之間的隨意指定或組合，都能夠?qū)⒕邆湟欢ㄒ饬x的網(wǎng)絡(luò)攻擊態(tài)勢反映出來。

　　（2）事件預(yù)測機制。對某一事件的發(fā)展情況進行跟蹤，通過數(shù)據(jù)聚類算法的應(yīng)用，對依照網(wǎng)絡(luò)事件所構(gòu)建的模型進行分析，進而做出判定。一般來說，規(guī)模比較大的網(wǎng)絡(luò)事件中，擴散一般是其所呈現(xiàn)的重要特征。

　　（3）可控數(shù)量預(yù)測模型。利用對事件中受控主機狀態(tài)增長數(shù)量進行觀測，判斷該事件的感染能力。所謂的受控主機狀態(tài)增長指的'是，先前未檢測出主機受到某類攻擊，利用有關(guān)檢測，對其狀態(tài)變化增長情況予以發(fā)現(xiàn)[2]。

　　（4）分析處理模型。通過分析處理模型，能夠科學(xué)分析運營商事件處理反饋情況，并對其針對被控主機的處理能力進行判定。利用對所有運營商所開展的綜合評估，能夠?qū)ζ涔茌牱秶鷥?nèi)的主機處理能力予以綜合判斷。

　　（5）網(wǎng)絡(luò)安全數(shù)據(jù)分析模型。針對網(wǎng)絡(luò)事件進行數(shù)據(jù)分析，通過分析構(gòu)建相應(yīng)模型，結(jié)合模型進行異常情況的跟進和跟蹤，從而為網(wǎng)絡(luò)安全環(huán)境的營造創(chuàng)造條件。其運行過程主要包括兩個階段：

　　①在學(xué)習(xí)階段中，用戶主要是對事件進行確定，并在計算機系統(tǒng)中進行定義，對各個時間段所發(fā)生的安全事件數(shù)量進行統(tǒng)計。一般來說，統(tǒng)計以小時為單位，單位時間內(nèi)的安全事件平均數(shù)為x，方差為σ。

　　②在實時檢測階段中，根據(jù)時間間隔各類安全事件的數(shù)量ix對安全事件數(shù)量是否出現(xiàn)異常情況進行判定，正常的安全事件數(shù)量輕度異常的安全事件數(shù)量中度異常的安全事件數(shù)量重度異常的安全事件數(shù)量在建設(shè)模型的過程中開展有關(guān)配置工作，依據(jù)不同的情形，對該參數(shù)進行調(diào)整，各類安全事件數(shù)量異常的最高值也就是安全事件數(shù)量指標值。

　　三、結(jié)語

　　云計算和大數(shù)據(jù)時代都對信息技術(shù)提出了更高的安全要求和標準，網(wǎng)絡(luò)安全系統(tǒng)的構(gòu)建影響著人們的生活和生產(chǎn)，并對相關(guān)的數(shù)據(jù)起到重要保護作用。結(jié)合數(shù)據(jù)挖掘技術(shù)進行信息安全系統(tǒng)的開發(fā)和建設(shè)，則能夠更好地促進網(wǎng)絡(luò)安全性的提升，能夠有效抵制網(wǎng)絡(luò)不法分子的侵襲，讓網(wǎng)絡(luò)安全性真正為人們的生活工作提供幫助。

　　參考文獻

　　[1]趙悅品.網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代電子技術(shù),20xx,40(04):61-65.

　　[2]梁雪霆.數(shù)據(jù)挖掘技術(shù)的計算機網(wǎng)絡(luò)病毒防御技術(shù)研究[J].科技經(jīng)濟市場,20xx(01):25.

數(shù)據(jù)挖掘論文4

　　摘要：橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機械化的影響, 產(chǎn)量波動很大。本文對農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術(shù)的必要性進行了初步探究, 指出通過提取土壤圖像的特征, 用支持向量機的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤。

　　關(guān)鍵詞：橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機.

　　基金：廣東農(nóng)工商職業(yè)技術(shù)學(xué)院校級課題“基于數(shù)據(jù)挖掘技術(shù)的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱為四大工業(yè)原料。我國是全球最大的天然橡膠消費國和進口國, 國內(nèi)天然橡膠長期處于缺口狀態(tài), 需求的2/3依賴進口來滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動密集型產(chǎn)業(yè), 相對其他農(nóng)作物來說, 具有周期長、收益長等特點。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實際上是中國橡膠業(yè)發(fā)展的一個縮影, 一直是學(xué)術(shù)界研究的熱點。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤的數(shù)字化研究, 目前國內(nèi)還比較少。

　　1 引入數(shù)據(jù)挖掘技術(shù)的必要性

　　天然橡膠以其獨具的高彈性、高強度、高伸長率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強等特點, 始終處于不可替代的地位。我國天然橡膠需求量大, 近幾年一直處于供不應(yīng)求的狀態(tài)。造成這種局面的原因主要有以下兩點:一、國內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對種植地要求高, 如對土地的含碳、含氮、濕度等要求都很嚴格;容易受到寒害、蟲害、臺風(fēng)的襲擊。橡膠的供應(yīng)不足阻礙了我國經(jīng)濟 (特別是輪胎行業(yè)) 的發(fā)展。基于此背景下, 本文通過數(shù)據(jù)挖掘技術(shù)對橡膠樹生長地的土壤進行評價研究, 為尋找出最適合橡膠樹生長的土壤和尋找橡膠樹種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊伍中。

　　2 數(shù)字化流程圖

　　2.1 樣本采集

　　研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時間要在晴天上午, 如果遇雨天, 則等2個晴天后再進行取樣。每個林齡段中隨機設(shè)置n個樣地:每個樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個層次拍攝土壤樣品, 每個層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。

　　2.2 特征提取

　　通過拍攝得到的土壤圖像, 由于圖像的維度過大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應(yīng)圖像本質(zhì)的一些關(guān)鍵指標, 以達到自動進行圖像識別的目的。

　　圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運用圖片的顏色特征和紋理特征建立圖片自動識別模型。

　　2.2.1 顏色特征

　　圖片的顏色特征用顏色矩表示。基于顏色矩提取圖像特征的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來表示。顏色的矩包含各個顏色通道的一階矩、二階矩和三階矩, 對于一幅RGB顏色空間的圖像, 具有R、G和B三個顏色通道, 共有9個分量。

　　2.2.2 紋理特征

　　圖片的紋理特征主要灰度共生矩陣里面中提取。因為紋理是由灰度分布在空間位置上反復(fù)交替變化而形成的, 因而在圖像空間中相隔某距離的兩個像素間一定存在一定的'灰度關(guān)系, 稱為是圖像中灰度的空間相關(guān)特性。

　　其中L表示圖像的灰度級, i, j分別表示像素的灰度。d表示兩個像素間的空間位置關(guān)系。不同的d決定了兩個像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關(guān)系為d的兩個像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。

　　在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模。灰度共生矩陣的特征參數(shù)有二階距、對比度、相關(guān)、熵。

　　3 模型構(gòu)建

　　特征提取完之后, 用支持向量機算法對圖像進行圖片識別。根據(jù)識別出的結(jié)果就可以有針對性的對土壤做些有利于橡膠樹生長的干預(yù)工作, 如:如果識別出土壤缺少氮元素, 可以給土壤適當?shù)氖┬┑?如果識別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學(xué)指導(dǎo)意義。

　　4 結(jié)論

　　本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術(shù)的必要性, 對橡膠種植數(shù)字化研究做了初步闡述。可以給橡膠業(yè)提供一定的參考意義。

　　參考文獻

　　[1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實踐.中國熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.

　　[2]李煒.廣東農(nóng)墾“走出去”做強做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.

　　[3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.

　　[4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應(yīng)用中的研究.浙江大學(xué)碩士學(xué)位論文, 20xx.

數(shù)據(jù)挖掘論文5

　　摘要：本文主要以電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運用分析為重點進行闡述，結(jié)合當下數(shù)據(jù)挖掘概述為主要依據(jù)，從神經(jīng)網(wǎng)絡(luò)法、灰色分析法、模糊分析法、線路故障專家系統(tǒng)、負荷管理專家系統(tǒng)、狀態(tài)檢修專家系統(tǒng)這六方面進行深入探索與研究，其目的在于提升電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運用效率，為加強電力調(diào)度自動化系統(tǒng)的實效性做鋪墊。

　　關(guān)鍵詞：數(shù)據(jù)挖掘；電力調(diào)度自動化；數(shù)據(jù)倉庫

　　0引言

　　對于電力調(diào)度自動化系統(tǒng)來講合理應(yīng)用數(shù)據(jù)挖掘技術(shù)十分重要，其是確保電力調(diào)度自動化系統(tǒng)效用充分發(fā)揮的基礎(chǔ)，也是推動現(xiàn)代化社會持續(xù)穩(wěn)定發(fā)展的關(guān)鍵。基于此，相關(guān)人員需給予數(shù)據(jù)挖掘技術(shù)高度重視，促使其存在的價值與效用在電力調(diào)度自動化系統(tǒng)中發(fā)揮出最大，為提高我國國民生活水平奠定基礎(chǔ)。本文主要分析電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運用，具體如下。

　　1數(shù)據(jù)挖掘相關(guān)概述

　　從技術(shù)層面講，數(shù)據(jù)挖掘便是在諸多數(shù)據(jù)中，利用多種分析工具探尋數(shù)據(jù)同模型間的關(guān)系，并通過此種關(guān)系的發(fā)現(xiàn)為決策提供有效依據(jù)。由于數(shù)據(jù)挖掘的飛速發(fā)展，隨著出現(xiàn)了許多多元化的技術(shù)與方法，基于此便形成了多種不同的分類。通俗的講，能夠把數(shù)據(jù)挖掘分為驗證驅(qū)動性和發(fā)現(xiàn)驅(qū)動型這兩種知識發(fā)現(xiàn)。驗證驅(qū)動型指的是客戶利用多元化工具對自己所提的假設(shè)進行查詢與檢索，來否定或是驗證假設(shè)的一個過程；而發(fā)現(xiàn)驅(qū)動型是通過統(tǒng)計或是機器學(xué)習(xí)等技術(shù)來研究新的假設(shè)。

　　2數(shù)據(jù)挖掘技術(shù)在電力調(diào)度自動化系統(tǒng)中的運用

　　（1）灰色分析法。在對時間線上相關(guān)聯(lián)的數(shù)據(jù)進行分析時會應(yīng)用到灰色分析法，通過應(yīng)用一定的數(shù)學(xué)方法，把數(shù)據(jù)中的白色部分當作主要依據(jù)，找出它同黑色部分有關(guān)聯(lián)的地方，進而實現(xiàn)數(shù)據(jù)灰色化。在挖掘電力數(shù)據(jù)時，灰色分析法為最普遍的利用方法之一，主要把其應(yīng)用到電力數(shù)據(jù)預(yù)測及分析中。它的優(yōu)點為盡管數(shù)據(jù)不完整或是數(shù)據(jù)有限皆能夠應(yīng)用與分析，但其不足為不能將大數(shù)據(jù)的使用價值充分的發(fā)揮出。

　　（2）神經(jīng)網(wǎng)絡(luò)法。所謂神經(jīng)網(wǎng)絡(luò)法指的是合理應(yīng)用計算機的計算機能力的前提下，對離散數(shù)據(jù)展開邏輯處理的一種方式，為專家系統(tǒng)中應(yīng)用的基礎(chǔ)方式。通過對計算機云計算的能力合理應(yīng)用，這些專家系統(tǒng)能夠?qū)﹄娏?shù)據(jù)進行深度分析、充分挖掘，其對電力數(shù)據(jù)預(yù)測與整理具有不可或缺的作用，事實上，神經(jīng)網(wǎng)絡(luò)法屬于人工智能法，其能夠?qū)崿F(xiàn)對諸多數(shù)列展開聯(lián)動分析，并明確每個數(shù)列間的關(guān)系，讓其邏輯性得到有效發(fā)揮。

　　（3）模糊分析法。此種方法為聚類分析法的一種，是最常應(yīng)用聚類方法，其主要是對已知數(shù)列進行聚類與分析，讓數(shù)據(jù)能夠展開全面、綜合的分類。同灰色分析法差異點為，利用模糊分析法能夠合理應(yīng)用大數(shù)據(jù)優(yōu)勢，滿足對其的實質(zhì)性需求。

　　3電力調(diào)度自動化對數(shù)據(jù)挖掘技術(shù)的具體需求

　　目前，我國數(shù)據(jù)挖掘技術(shù)，因五防系統(tǒng)等技術(shù)還處于發(fā)展的初級階段，對應(yīng)的管理措施還未完全構(gòu)成，所以，盡管說數(shù)據(jù)挖掘的專家系統(tǒng)以能夠在多方面展現(xiàn)出優(yōu)勢，但若想實現(xiàn)遙控系統(tǒng)和專家系統(tǒng)是一件不可能實現(xiàn)的事。

　　（1）負荷管理系統(tǒng)。電力負荷管理為電力調(diào)度自動化系統(tǒng)中的主要環(huán)節(jié)。依據(jù)冗余回路間的負荷分布，電能能夠自動對負荷的上級節(jié)點進行連續(xù)與切換。另外，當其中有一個節(jié)點出現(xiàn)故障，符合管理系統(tǒng)則能夠充分發(fā)揮效用，讓該故障節(jié)點在事故出現(xiàn)以后被自動切除。負荷管理系統(tǒng)的實際工作原理為依據(jù)對各線路的.負荷狀態(tài)進行全面監(jiān)測，并通過合理應(yīng)用數(shù)據(jù)挖掘技術(shù)，對滿足這些狀態(tài)表現(xiàn)出的數(shù)據(jù)進行預(yù)測，并分析、判斷、整理這些數(shù)據(jù)變化形式，基于此來對負荷進行道閘分配。目前，在我國電力調(diào)度中，負荷管理系統(tǒng)已投入應(yīng)用，但因有關(guān)技術(shù)的滯后性，不能實現(xiàn)同電網(wǎng)遠控系統(tǒng)完美對接，所以還沒有實現(xiàn)廣泛應(yīng)用，對于調(diào)度系統(tǒng)中所發(fā)布的命令皆由人工來實現(xiàn)。

　　（2）線路故障系統(tǒng)。傳統(tǒng)的電力線路檢修，一般都是在線路出現(xiàn)嚴重故障以后，才開展利用相應(yīng)方法對電力線路進行巡查，并且探尋出存在其中的故障。但若是把線路故障系統(tǒng)利用到其中，那么該系統(tǒng)會依據(jù)電力線路兩端產(chǎn)生故障形式，在電力線路產(chǎn)生故障以后自動且及時的判斷出電力線路受損的部位。相比于較完善的線路故障系統(tǒng)而言，還能夠同時判斷多個故障點。通過將線路故障系統(tǒng)利用到電力調(diào)動自動化系統(tǒng)之中，不但能夠?qū)⑷唠s的線路切除掉，還能減小電力線路故障發(fā)生率，以及停電檢修率，并且還能在很大程度上監(jiān)督電力線路巡查力度，讓電力維修人員能夠有足夠的實踐對線路出現(xiàn)故障的部位分析、判斷，并制定與之對應(yīng)的補救措施。特別是一些地埋線路等，利用此種能夠定位的線路故障系統(tǒng)具有積極作用。

　　（3）狀態(tài)檢修系統(tǒng)。對變壓器、電纜、開關(guān)等設(shè)施的具體運行狀態(tài)進行充分分析，外加對互感器、集中器等設(shè)備的運行狀況進行判斷，狀態(tài)檢修系統(tǒng)能夠以此來對電力調(diào)度自動化系統(tǒng)的運行狀態(tài)進行檢查，探究其是否健康，并深入規(guī)劃故障設(shè)備切除方案，自動的把故障設(shè)備切除掉。合理利用狀態(tài)檢修系統(tǒng)是電力檢修的前提條件，為實現(xiàn)對全部設(shè)備充分管理的關(guān)鍵點，并且其利用價值為能夠自動化更換再用設(shè)備，使倒閥變成檢修的狀態(tài)，并朝著調(diào)動系統(tǒng)進行報警。當然，因有關(guān)技術(shù)的不成熟，導(dǎo)致狀態(tài)檢修系統(tǒng)在部分企業(yè)依舊處于閑置的狀態(tài)，致使其含有的效用無法充分的發(fā)揮出。

　　4結(jié)束語

　　綜上所述，若想電力調(diào)度自動化系統(tǒng)存在的價值發(fā)揮出最大，有關(guān)人員加強數(shù)據(jù)挖掘技術(shù)應(yīng)用勢在必行。因其是保證電力調(diào)度自動化系統(tǒng)穩(wěn)定性的根本要素，還是推動電力調(diào)度自動化系統(tǒng)效用發(fā)揮的關(guān)鍵點。為此，有關(guān)部門需合理應(yīng)用數(shù)據(jù)挖掘技術(shù)，讓其包含的作用都利用到電力調(diào)度自動化系統(tǒng)中，為進一步提高社會公眾生活水平提供有效依據(jù)。

　　參考文獻：

　　[1]聶宇,羅超,高小芊,寇霄宇,何宇雄,苑晉沛,李蔚.基于電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,20xx(03):143-144.

　　[2]周洋.數(shù)據(jù)挖掘在電力調(diào)度自動化系統(tǒng)中的應(yīng)用解析[J].科技創(chuàng)新與應(yīng)用,20xx(35):149-150.

　　[3]劉雅銘.解析電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].低碳世界,20xx(33):66-67.

　　[4]朱維佳,曹堅.電力調(diào)度自動化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].電氣時代,20xx(07):108-111.

數(shù)據(jù)挖掘論文6

　　1.軟件工程數(shù)據(jù)的挖掘測試技術(shù)

　　1.1代碼編寫

　　通過對軟件數(shù)據(jù)進行分類整理，在進行缺陷軟件的排除工作以后，根據(jù)軟件開發(fā)過程中的各種信息進行全新的代碼編寫。基于代碼編寫人員的編寫經(jīng)驗，在一般情況，對結(jié)構(gòu)功能與任務(wù)類似的模塊進行重新編寫，這些重新編寫的模塊應(yīng)遵循特定的編寫規(guī)則，這樣才能保證代碼編寫的合理有效性。

　　1.2錯誤重現(xiàn)

　　代碼編寫完成以后開發(fā)者會將這些代碼進行版本的確認，然后將正確有效的代碼實際應(yīng)用到適當版本的軟件中去。而對于存在缺陷的代碼，開發(fā)者需要針對代碼產(chǎn)生缺陷的原因進行分析，通過不但調(diào)整代碼內(nèi)的輸入數(shù)據(jù)，直到代碼內(nèi)的數(shù)據(jù)與程序報告中的描述接近為止。存在缺陷的代碼往往會以缺陷報告的形式對開發(fā)者予以說明，由于缺陷報告的模糊性，常常會誤導(dǎo)開發(fā)者，進而造成程序設(shè)計混亂。

　　1.3理解行為

　　軟件開發(fā)者在設(shè)計軟件的過程中需要明確自己設(shè)計軟件中每一個代碼的內(nèi)容，同時還需要理解其他開發(fā)者編寫的代碼，這樣才能有效地完善軟件開發(fā)者的編寫技術(shù)。同時，軟件開發(fā)者在進行代碼編寫的過程中，需要對程序行為進行準確的理解，以此保證軟件內(nèi)文檔和注釋的準確性。

　　1.4設(shè)計推究

　　開發(fā)者在準備對軟件進行完善設(shè)計的過程中，首先需要徹底了解軟件的總體設(shè)計，對軟件內(nèi)部復(fù)雜的系統(tǒng)機構(gòu)進行詳細研究與分析，充分把握軟件細節(jié)，這有這樣才能真正實現(xiàn)軟件設(shè)計的合理性與準確性。

　　2.軟件工程數(shù)據(jù)挖掘測試的有效措施

　　2.1進行軟件工程理念和方法上的創(chuàng)新

　　應(yīng)通過實施需求分析，將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程，在軟件開發(fā)理念上，加強對數(shù)據(jù)挖掘的重視，對軟件工程的架構(gòu)進行演化性設(shè)計與創(chuàng)新，利用新技術(shù)，在軟件開發(fā)的過程中添加敏捷變成與間件技術(shù)，由此，提高軟件編寫水平。

　　2.2利用人工智能

　　隨著我國科學(xué)技術(shù)的不斷發(fā)展與創(chuàng)新，機器學(xué)習(xí)已經(jīng)逐漸被我國各個領(lǐng)域所廣泛應(yīng)用，在進行軟件工程數(shù)據(jù)挖掘技術(shù)創(chuàng)新的'過程中，可以將機器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)實際應(yīng)用于軟件工程中，以此為我國軟件研發(fā)提供更多的便捷。人工智能作為我國先進生產(chǎn)力的重要表現(xiàn)，在實際應(yīng)用于軟件工程數(shù)據(jù)的挖掘工作時，應(yīng)該利用機器較強的學(xué)習(xí)能力與運算能力，將數(shù)據(jù)統(tǒng)計及數(shù)據(jù)運算通過一些較為成熟的方法進行解決。在軟件工程數(shù)據(jù)挖掘的工作中，合理化的將人工智能實際應(yīng)用于數(shù)據(jù)挖掘，以此為數(shù)據(jù)挖掘提供更多的開發(fā)測試技術(shù)。

　　2.3針對數(shù)據(jù)挖掘結(jié)果進行評價

　　通過分析我國傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測試工作，在很多情況下，傳統(tǒng)的數(shù)據(jù)挖掘測試技術(shù)無法做到對發(fā)掘數(shù)據(jù)的全面評價與實際應(yīng)用研究，這一問題致使相應(yīng)的軟件數(shù)據(jù)在被發(fā)掘出來以后無法得到有效地利用，進而導(dǎo)致我國軟件開發(fā)工作受到嚴重的抑制影響。針對這一問題，數(shù)據(jù)開發(fā)者應(yīng)該利用挖掘缺陷檢驗報告，針對缺陷檢驗的結(jié)果，制定相應(yīng)的挖掘結(jié)構(gòu)報告。同時，需要結(jié)合軟件用戶的體驗評價，對挖掘出的數(shù)據(jù)進行系統(tǒng)化的整理與分析，建立一整套嚴謹、客觀的服務(wù)體系，運用CodeCity軟件，讓用戶在的體驗過后可以對軟件進行評價。考慮到軟件的服務(wù)對象是人，因此，在軟件開發(fā)的過程中要將心理學(xué)與管理學(xué)應(yīng)用于數(shù)據(jù)挖掘，建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評價系統(tǒng)。

　　3.結(jié)束語

　　綜上所述，由于軟件工程數(shù)據(jù)挖掘測試技術(shù)廣闊的應(yīng)用前景，我國相關(guān)部門已經(jīng)加大了對軟件技術(shù)的投資與開發(fā)力度，當下，國內(nèi)已經(jīng)實現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識別等多種領(lǐng)域上的發(fā)展。

數(shù)據(jù)挖掘論文7

　　題目：檔案信息管理系統(tǒng)中的計算機數(shù)據(jù)挖掘技術(shù)探討

　　摘要：伴隨著計算機技術(shù)的不斷進步和發(fā)展, 數(shù)據(jù)挖掘技術(shù)成為數(shù)據(jù)處理工作中的重點技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節(jié)省人力資本的同時, 提高數(shù)據(jù)檢索的實際效率, 基于此, 被廣泛應(yīng)用在數(shù)據(jù)密集型行業(yè)中。筆者簡要分析了計算機數(shù)據(jù)挖掘技術(shù), 并集中闡釋了檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立和技術(shù)實現(xiàn)過程, 以供參考。

　　關(guān)鍵詞：檔案信息管理系統(tǒng); 計算機; 數(shù)據(jù)挖掘技術(shù); 1 數(shù)據(jù)挖掘技術(shù)概述

　　數(shù)據(jù)挖掘技術(shù)就是指在大量隨機數(shù)據(jù)中提取隱含信息, 并且將其整合后應(yīng)用在知識處理體系的技術(shù)過程。若是從技術(shù)層面判定數(shù)據(jù)挖掘技術(shù), 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術(shù)中, 整合商業(yè)數(shù)據(jù)提取和轉(zhuǎn)化機制, 并且建構(gòu)更加系統(tǒng)化的分析模型和處理機制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術(shù)能建構(gòu)完整的數(shù)據(jù)倉庫, 滿足集成性、時變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術(shù)框架結(jié)構(gòu)的完整性。

　　目前, 數(shù)據(jù)挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應(yīng)用都十分廣泛。企業(yè)在實際工作過程中, 往往會利用數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工具進行數(shù)據(jù)定型和更新管理, 并且應(yīng)用聚類分析模塊、決策樹分析模塊以及關(guān)聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術(shù)對相關(guān)數(shù)據(jù)進行處理。

　　2 檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立

　　2.1 客戶需求單元

　　為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢, 要結(jié)合客戶的實際需求建立完整的處理框架體系。在數(shù)據(jù)庫體系建立中, 要適應(yīng)迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過程能按照整體規(guī)劃有序進行, 且能按照目標和分析框架參數(shù)完成操作。首先, 要確立基礎(chǔ)性的數(shù)據(jù)倉庫對象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對日常工作中的用戶數(shù)據(jù)進行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉庫分析的完整性。

　　(1) 確定數(shù)據(jù)倉庫的基礎(chǔ)性用戶, 其中, 主要包括檔案工作人員和使用人員, 結(jié)合不同人員的工作需求建立相應(yīng)的數(shù)據(jù)倉庫。

　　(2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進行分類描述。

　　(3) 確定檔案的基礎(chǔ)性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數(shù)等基礎(chǔ)性信息作為分類依據(jù)。

　　2.2 數(shù)據(jù)庫設(shè)計單元

　　在設(shè)計過程中, 要針對不同維度建立相應(yīng)的參數(shù)體系和組成結(jié)構(gòu), 并且有效整合組成事實表的主鍵項目, 建立框架結(jié)構(gòu)。

　　第一, 建立事實表。事實表是數(shù)據(jù)模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統(tǒng)計數(shù)據(jù)的表, 能整合數(shù)據(jù)倉庫中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲存過程切實有效。 (1) 檔案管理中文書檔案目錄卷數(shù)事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數(shù)目。 (2) 檔案管理中文書檔案卷數(shù)事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。

　　第二, 建立維度表, 在實際數(shù)據(jù)倉庫建立和運維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長過程和完善過程, 有效實現(xiàn)數(shù)據(jù)庫模型設(shè)計以及相關(guān)維護操作。首先, 要對模式的基礎(chǔ)性維度進行分析并且制作相應(yīng)的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構(gòu)數(shù)據(jù)庫星型模型體系。最后, 要集中判定數(shù)據(jù)庫工具, 保證數(shù)據(jù)庫平臺在客戶管理工作方面具備一定的優(yōu)勢, 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉庫建模的效果, 真正提高數(shù)據(jù)抽取以及轉(zhuǎn)換工作的實際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過程中, 要分離文書檔案中的數(shù)據(jù), 相關(guān)操作如下:

　　from dag gd temp//刪除臨時表中的數(shù)據(jù)

　　Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)窗口

　　Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時表

　　相關(guān)技術(shù)人員要對數(shù)據(jù)進行有效處理, 以保證相關(guān)數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預(yù)處理管理要求合理化進行, 從根本上維護數(shù)據(jù)處理效果。

　　2.3 多維數(shù)據(jù)模型建立單元

　　在檔案多維數(shù)據(jù)模型建立的過程中, 相關(guān)技術(shù)人員要判定聯(lián)機分析處理項目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢。

　　第一, 檔案事實表中的數(shù)據(jù)穩(wěn)定, 事實表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類別和歸檔時間, 從而提高數(shù)據(jù)獨立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉庫信息的基本質(zhì)量, 也能追加時間判定標準, 能在實際操作中減少掃描整個表浪費的時間, 從根本上提高實際效率。另一方面, 能刪除數(shù)據(jù), 實現(xiàn)數(shù)據(jù)更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時修改數(shù)據(jù), 維護檔案撤出和檔案追加的動態(tài)化處理效果。

　　第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關(guān)鍵, 由于其不會隨著時間的推移出現(xiàn)變化, 因此, 要對其進行合理的處理和協(xié)調(diào)。維表本身的存儲空間較小, 盡管結(jié)構(gòu)發(fā)生變化的概率不大, 但仍會對代表的對象產(chǎn)生影響, 這就會使得數(shù)據(jù)出現(xiàn)動態(tài)的變化。對于這種改變, 需要借助新維生成的方式進行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時, 也能對事實表外鍵進行分析[2]。

　　3 檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的實現(xiàn)

　　3.1 描述需求

　　隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)不斷進步, 要提高檔案數(shù)字化水平以及完善信息化整合機制, 加快數(shù)據(jù)庫管控體系的更新, 確保設(shè)備存儲以及網(wǎng)絡(luò)環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預(yù)測項目中, 只有從根本上落實數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項目升級奠定堅實基礎(chǔ)。另外, 在數(shù)據(jù)表和文書等基礎(chǔ)性數(shù)據(jù)結(jié)構(gòu)模型建立的基礎(chǔ)上, 要按照規(guī)律制定具有個性化的主動性服務(wù)機制。

　　3.2 關(guān)聯(lián)計算

　　在實際檔案分析工作開展過程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對某些行為特征進行統(tǒng)籌整合, 從而制定分析決策。在進行關(guān)聯(lián)規(guī)則強度分析時, 要結(jié)合支持度和置信度等系統(tǒng)化數(shù)據(jù)進行綜合衡量。例如, 檔案數(shù)據(jù)庫中有A和B兩個基礎(chǔ)項集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時間出現(xiàn)的基礎(chǔ)性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時, 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關(guān)系的關(guān)鍵, 若是置信度的數(shù)值達到100%, 則直接證明A和B能同一時間出現(xiàn)。

　　3.3 神經(jīng)網(wǎng)絡(luò)算法

　　除了要對檔案的實際內(nèi)容進行數(shù)據(jù)分析和數(shù)據(jù)庫建構(gòu), 也要對其利用情況進行判定, 目前較為常見的利用率分析算法就是神經(jīng)網(wǎng)絡(luò)算法, 其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對象。值得注意的是, 在分類技術(shù)結(jié)構(gòu)中, 要結(jié)合訓(xùn)練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)算法類似于人腦系統(tǒng)的運行結(jié)構(gòu), 能建立完整的信息處理單元, 并且能夠整合非線性交換結(jié)構(gòu), 確保能憑借歷史數(shù)據(jù)對計算模型和分類體系展開深度分析[3]。

　　3.4 實現(xiàn)多元化應(yīng)用

　　在檔案管理工作中應(yīng)用計算機數(shù)據(jù)挖掘技術(shù), 能對檔案分類管理予以分析, 保證信息需求分類總結(jié)工作的完整程度。尤其是檔案使用者在對檔案具體特征進行差異化分析的過程中, 能結(jié)合不同的元素對具體問題展開深度調(diào)研。一方面, 計算機數(shù)據(jù)挖掘技術(shù)借助決策樹算法處理規(guī)則化的檔案分析機制。在差異化訓(xùn)練體系中, 要對數(shù)據(jù)集合中的數(shù)據(jù)進行系統(tǒng)化分析以及處理, 確保構(gòu)建要求能適應(yīng)數(shù)據(jù)挖掘的基本結(jié)構(gòu)[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術(shù)能整合檔案使用人員長期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時間、信息查詢停留時間等, 從而建構(gòu)完整的數(shù)據(jù)分析機制, 有效向其推送或者是提供便捷化查詢服務(wù), 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 主要是對數(shù)據(jù)信息進行分析, 結(jié)合基本結(jié)果建立概念模型, 保證模型以及測試樣本之間的比較參數(shù)符合標準, 從而真正建立更加系統(tǒng)化的分類框架體系。

　　4 結(jié)語

　　總而言之, 在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 能在準確判定用戶需求的同時, 維護數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進一步優(yōu)化奠定堅實基礎(chǔ)。并且, 數(shù)據(jù)庫的建立, 也能節(jié)省經(jīng)費和設(shè)備維護成本, 真正實現(xiàn)數(shù)字化全面發(fā)展的目標, 促進檔案信息管理工作的長效進步。

　　參考文獻

　　[1]曾雪峰.計算機數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應(yīng)用, 20xx (9) :285.

　　[2]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺世界, 20xx (23) :25-26.

　　[3]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺的構(gòu)筑[J].山西檔案, 20xx (6) :61-63.

　　[4]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺構(gòu)建[J].山西檔案, 20xx (5) :105-107.

　　數(shù)據(jù)挖掘論文四：題目：機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用

　　摘要：隨著科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機器學(xué)習(xí)算法就是一則典型案例——作為一種新型的算法, 其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的具體應(yīng)用, 我們利用龐大的移動終端數(shù)據(jù)網(wǎng)絡(luò), 加強了基于GSM網(wǎng)絡(luò)的戶外終端定位, 從而提出了3個階段的定位算法, 有效提高了定位的精準度和速度。

　　關(guān)鍵詞：學(xué)習(xí)算法; GSM網(wǎng)絡(luò); 定位; 數(shù)據(jù);

　　移動終端定位技術(shù)由來已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動物體的精準位置以及高度。目前, 移動終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導(dǎo)航等多個現(xiàn)代化的領(lǐng)域, 由于移動終端定位技術(shù)可以提供精準的位置服務(wù)信息, 所以其在市場上還是有較大的需求的, 這也為移動終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動力。隨著通信網(wǎng)絡(luò)普及, 移動終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準度和速度都得到了全面的優(yōu)化和提升。同時, 傳統(tǒng)的定位方法結(jié)合先進的算法來進行精準定位, 目前依舊還是有較大的進步空間。在工作中我選取機器學(xué)習(xí)算法結(jié)合數(shù)據(jù)挖掘技術(shù)對傳統(tǒng)定位技術(shù)加以改進, 取得了不錯的效果, 但也遇到了許多問題, 例如:使用機器學(xué)習(xí)算法來進行精準定位暫時無法滿足更大的區(qū)域要求, 還有想要利用較低的設(shè)備成本, 實現(xiàn)得到更多的精準定位的要求比較困難。所以本文對機器學(xué)習(xí)算法進行了深入的研究, 希望能夠幫助其更快速的定位、更精準的定位, 滿足市場的需要。

　　1 數(shù)據(jù)挖掘概述

　　數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫知識篩選中非常重要的一步。數(shù)據(jù)挖掘其實指的就是在大量的數(shù)據(jù)中通過算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會和計算機科學(xué)緊密聯(lián)系在一起, 通過統(tǒng)計集合、在線剖析、檢索篩選、機器學(xué)習(xí)、參數(shù)識別等多種方法來實現(xiàn)最初的目標。統(tǒng)計算法和機器學(xué)習(xí)算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類。統(tǒng)計算法依賴于概率分析, 然后進行相關(guān)性判斷, 由此來執(zhí)行運算。

　　而機器學(xué)習(xí)算法主要依靠人工智能科技, 通過大量的樣本收集、學(xué)習(xí)和訓(xùn)練, 可以自動匹配運算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學(xué)、物理學(xué)、自動化和計算機科學(xué)等多種學(xué)習(xí)理論, 雖然能夠應(yīng)用的領(lǐng)域和目標各不相同, 但是這些算法都可以被獨立使用運算, 當然也可以相互幫助, 綜合應(yīng)用, 可以說是一種可以“因時而變”、“因事而變”的算法。在機器學(xué)習(xí)算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見的一種。因為它的優(yōu)秀的數(shù)據(jù)處理和演練、學(xué)習(xí)的能力較強。

　　而且對于問題數(shù)據(jù)還可以進行精準的識別與處理分析, 所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴于多種多樣的建模模型來進行工作, 由此來滿足不同的數(shù)據(jù)需求。綜合來看, 人工神經(jīng)網(wǎng)絡(luò)的建模, 它的精準度比較高, 綜合表述能力優(yōu)秀, 而且在應(yīng)用的過程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓(xùn)練數(shù)據(jù)的時候耗時較多, 知識的理解能力還沒有達到智能化的標準, 但是, 相對于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢依舊是比較突出的。

　　2 以機器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位

　　2.1 定位問題的.建模

　　建模的過程主要是以支持向量機定位方式作為基礎(chǔ), 把定位的位置柵格化, 面積較小的柵格位置就是獨立的一種類別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測量數(shù)據(jù), 然后利用計算機對測量報告進行分析處理, 測量柵格的距離度量和精準度, 然后對移動終端柵格進行預(yù)估判斷, 最終利用機器學(xué)習(xí)進行分析求解。

　　2.2 采集數(shù)據(jù)和預(yù)處理

　　本次研究, 我們采用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區(qū)域內(nèi), 我們測量了四個不同時間段內(nèi)的數(shù)據(jù), 為了保證機器學(xué)習(xí)算法定位的精準性和有效性, 我們把其中的三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓(xùn)練數(shù)據(jù)的相關(guān)信息進行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時間內(nèi)進行測量, 按照測量出的數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進行換算, 最終, 得到真實的數(shù)據(jù)量, 提升定位的速度以及有效程度。

　　2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位

　　用機器學(xué)習(xí)算法來進行移動終端定位, 其復(fù)雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類也相應(yīng)增加, 而且更加復(fù)雜, 所以, 利用機器學(xué)習(xí)算法來進行移動終端定位的過程, 會隨著定位區(qū)域面積的增大, 而耗費更多的時間。利用基站的經(jīng)緯度作為基礎(chǔ)來進行早期的定位, 則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息, 就要選擇對邊長是一千米的小柵格進行計算, 而如果是想要獲得邊長一千米的大柵格, 就要對邊長是一千米的柵格精心計算。

　　2.4 以向量機為基礎(chǔ)的二次定位

　　在完成初步定位工作后, 要確定一個邊長為兩千米的正方形, 由于第一級支持向量機定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點的經(jīng)緯度數(shù)據(jù)信息, 相對于一級向量機的定位而言, 二級向量機在定位計算的時候難度是較低的, 更加簡便。后期的預(yù)算主要依賴決策函數(shù)計算和樣本向量機計算。隨著柵格的變小, 定位的精準度將越來越高, 而由于增加分類的問題數(shù)量是上升的, 所以, 定位的復(fù)雜度也是相對增加的。

　　2.5 以K-近鄰法為基礎(chǔ)的三次定位

　　第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴經(jīng)緯度來確定邊長面積, 這些都是進行區(qū)域定位的基礎(chǔ)性工作, 緊接著就是定位模型的訓(xùn)練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓(xùn)練信息數(shù)據(jù), 對于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進行篩選和合并, 這樣就能夠減少計算的重復(fù)性。當然了, 選擇的區(qū)域面積越大, 其定位的速度和精準性也就越低。

　　3 結(jié)語

　　近年來, 隨著我國科學(xué)技術(shù)的不斷發(fā)展和進步, 數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過程中, 應(yīng)用機器學(xué)習(xí)算法具有舉足輕重的作用。作為一門多領(lǐng)域互相交叉的知識學(xué)科, 它能夠幫助我們提升定位的精準度以及定位速度, 可以被廣泛的應(yīng)用于各行各業(yè)。所以, 對于機器學(xué)習(xí)算法, 相關(guān)人員要加以重視, 不斷的進行改良以及改善, 切實的發(fā)揮其有利的方面, 將其廣泛應(yīng)用于智能定位的各個領(lǐng)域, 幫助我們解決關(guān)于戶外移動終端的定位的問題。

　　參考文獻

　　[1]陳小燕, CHENXiaoyan.機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù), 20xx, v.38;No.451 (20) :11-14.

　　[2]李運.機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué), 20xx.

　　[3]莫雪峰.機器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯, 20xx (07) :175-178.

　　數(shù)據(jù)挖掘論文五：題目：軟件工程數(shù)據(jù)挖掘研究進展

　　摘要：數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價值信息數(shù)據(jù)的過程。計算機技術(shù)的不斷進步, 通過人工的方式進行軟件的開發(fā)與維護難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術(shù)的任務(wù)和存在的問題, 并重點論述軟件開發(fā)過程中出現(xiàn)的問題和相關(guān)的解決措施。

　　關(guān)鍵詞：軟件工程; 數(shù)據(jù)挖掘; 解決措施;

　　在軟件開發(fā)過程中, 為了能夠獲得更加準確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時代, 人工獲取數(shù)據(jù)信息的難度極大。當前, 軟件工程中運用最多的就是數(shù)據(jù)挖掘技術(shù)。軟件挖掘技術(shù)是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個方面:

　　(1) 在軟件工程中, 對有效數(shù)據(jù)的挖掘和處理;

　　(2) 挖掘數(shù)據(jù)算法的選擇問題;

　　(3) 軟件的開發(fā)者該如何選擇數(shù)據(jù)。

　　1 在軟件工程中數(shù)據(jù)挖掘的主要任務(wù)

　　在數(shù)據(jù)挖掘技術(shù)中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過程與傳統(tǒng)數(shù)據(jù)的挖掘無異。通常包括三個階段:第一階段, 數(shù)據(jù)的預(yù)處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對結(jié)果的評估。第一階段的主要任務(wù)有對數(shù)據(jù)的分類、對異常數(shù)據(jù)的檢測以及整理和提取復(fù)雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個方面:

　　1.1 軟件工程的數(shù)據(jù)更加復(fù)雜

　　軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報告, 另外一種是軟件的版本信息。當然還包括一些軟件代碼和注釋在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復(fù)雜性的重要原因。

　　1.2 數(shù)據(jù)分析結(jié)果的表現(xiàn)更加特殊

　　傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果可以通過很多種結(jié)果展示出來, 最常見的有報表和文字的方式。但是對于軟件工程的數(shù)據(jù)挖掘來講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準的案例, 軟件漏洞的實際定位以及設(shè)計構(gòu)造方面的信息, 同時也包括數(shù)據(jù)挖掘的統(tǒng)計結(jié)果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進的結(jié)果提交方式和途徑。

　　1.3 對數(shù)據(jù)挖掘結(jié)果難以達成一致的評價

　　我國傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評價標準, 而且評價體系相對成熟。但是軟件工程的數(shù)據(jù)挖掘過程中, 研發(fā)人員需要更多復(fù)雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對多樣化, 數(shù)據(jù)之間難以進行對比, 所以也就難以達成一致的評價標準和結(jié)果。不難看出, 軟件工程數(shù)據(jù)挖掘的關(guān)鍵在于對挖掘數(shù)據(jù)的預(yù)處理和對數(shù)據(jù)結(jié)果的表示方法。

　　2 軟件工程研發(fā)階段出現(xiàn)的問題和解決措施

　　軟件在研發(fā)階段主要的任務(wù)是對軟件運行程序的編寫。以下是軟件在編碼和結(jié)果的提交過程中出現(xiàn)的問題和相應(yīng)的解決措施。

　　2.1 對軟件代碼的編寫過程

　　該過程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉懙拇a結(jié)構(gòu)與功能有充分的了解和認識。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個方面:

　　(1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;

　　(2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關(guān)系等。

　　(3) 軟件的開發(fā)人員搜尋可以重用的動態(tài)規(guī)則。

　　包括軟件的接口調(diào)用順序等。在尋找以上信息的過程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實現(xiàn), 但是以上方式在搜集信息過程中往往會遇到較多的問題, 比如:幫助文檔的準確性較低, 同時不夠完整, 可利用的重用信息不多等。

　　2.2 對軟件代碼的重用

　　在對軟件代碼重用過程中, 最關(guān)鍵的問題是軟件的研發(fā)人員必須掌握需要的類或方法, 并能夠通過與之有聯(lián)系的代碼實現(xiàn)代碼的重用。但是這種方式哦足跡信息將會耗費工作人員大量的精力。而通過關(guān)鍵詞在代碼庫中搜集可重用的軟件代碼, 同時按照代碼的相關(guān)度對搜集到的代碼進行排序, 該過程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現(xiàn)出來的搜索結(jié)果是以上下文結(jié)構(gòu)的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實現(xiàn)的具體流程如下:

　　(1) 軟件的開發(fā)人員創(chuàng)建同時具備例程和上下文架構(gòu)的代碼庫;

　　(2) 軟件的研發(fā)人員能夠向代碼庫提供類的相關(guān)信息, 然后對反饋的結(jié)果進行評估, 創(chuàng)建新型的代碼庫。

　　(3) 未來的研發(fā)人員在搜集過程中能夠按照評估結(jié)果的高低排序, 便于查詢, 極大地縮減工作人員的任務(wù)量, 提升其工作效率。

　　2.3 對動態(tài)規(guī)則的重用

　　軟件工程領(lǐng)域內(nèi)對動態(tài)規(guī)則重用的研究已經(jīng)相對成熟, 通過在編譯器內(nèi)安裝特定插件的方式檢驗代碼是否為動態(tài)規(guī)則最適用的, 并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:

　　(1) 軟件的研發(fā)人員能夠規(guī)定動態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。

　　(2) 實現(xiàn)對相關(guān)數(shù)據(jù)的保存, 可以通過隊列等簡單的數(shù)據(jù)結(jié)構(gòu)完成。在利用編譯拓展中檢測其中的順序。

　　(3) 能夠?qū)㈠e誤的信息反饋給軟件的研發(fā)人員。

　　3 結(jié)束語

　　在軟件工程的數(shù)據(jù)挖掘過程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術(shù)在軟件工程中的運用能夠降低研發(fā)人員的工作量, 同時軟件工程與數(shù)據(jù)挖掘的結(jié)合是計算機技術(shù)必然的發(fā)展方向。從數(shù)據(jù)挖掘的過程來講, 在其整個實施過程和周期中都包括軟件工程。而對數(shù)據(jù)挖掘的技術(shù)手段來講, 它在軟件工程中的運用更加普遍。在對數(shù)據(jù)挖掘技術(shù)的研究過程中可以發(fā)現(xiàn), 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進一步的研究和發(fā)現(xiàn)。

　　參考文獻

　　[1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測試技術(shù)[J].電子技術(shù)與軟件工程, 20xx (18) :64.

　　[2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術(shù)的運用探索[J].數(shù)字通信世界, 20xx (09) :187.

　　[3]周雨辰.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].電腦迷, 20xx (08) :27-28.

　　[4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用方式[J].中國新通信, 20xx, 19 (13) :119.

數(shù)據(jù)挖掘論文8

　　題目：數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢及應(yīng)用進展

　　關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù); 神經(jīng)根型頸椎病; 方劑; 綜述;

　　1 數(shù)據(jù)挖掘技術(shù)簡介

　　數(shù)據(jù)挖掘技術(shù)[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術(shù), 它融匯了人工智能、模式別、模糊數(shù)學(xué)、數(shù)據(jù)庫、數(shù)理統(tǒng)計等多種技術(shù)方法, 專門用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識, 其目的是發(fā)現(xiàn)規(guī)律而不是驗證假設(shè)。數(shù)據(jù)挖掘技術(shù)主要適用于龐大的數(shù)據(jù)庫的研究, 其特點在于:基于數(shù)據(jù)分析方法角度的分類, 其本質(zhì)屬于觀察性研究, 數(shù)據(jù)來源于日常診療工作資料, 應(yīng)用的技術(shù)較傳統(tǒng)研究更先進, 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結(jié)果解釋, 其中結(jié)果解釋是數(shù)據(jù)挖掘技術(shù)研究的關(guān)鍵。其方法包括分類、聚類、關(guān)聯(lián)、序列、決策樹、貝斯網(wǎng)絡(luò)、因子、辨別等分析[3], 其結(jié)果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當今數(shù)據(jù)挖掘技術(shù)的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結(jié)果的有效性、確定性和表達性, 結(jié)果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢和獨特性被運用于多個領(lǐng)域中, 且結(jié)果運用后取得顯著成效, 因此越來越多的中醫(yī)方劑研究者將其運用于方劑中藥物的研究。

　　2 數(shù)據(jù)挖掘術(shù)在神經(jīng)根型頸椎病治方研究中的優(yōu)勢

　　中醫(yī)對于神經(jīng)根型頸椎病的治療準則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結(jié)構(gòu)。方劑配伍本質(zhì)上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯綜的關(guān)聯(lián)與對應(yīng)[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對于神經(jīng)根型頸椎病的治療, 治方中藥物的種類、炮制方法、用量、用法等都是千變?nèi)f化的, 而這些海量、模糊、看似隨機的藥物背后隱藏著對臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無法在可承受的時間范圍內(nèi)可用常規(guī)軟件工具進行捕捉、管理和處理的, 是需要一個新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術(shù)有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識, 揭示背后隱藏的關(guān)系和規(guī)則, 并且對未知的情況進行預(yù)測[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的多層關(guān)聯(lián)、序列組合、集群對應(yīng), 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘在技術(shù)線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對數(shù)據(jù)庫內(nèi)的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥規(guī)律時, 選取了100張治方, 因該病病因病機復(fù)雜, 證候不一, 骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫, 采用SPPS Clementine12.0軟件對這些數(shù)據(jù)的用藥頻次、藥物關(guān)聯(lián)規(guī)則及藥物聚類進行分析, 最后總結(jié)出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術(shù)在方劑研究中的應(yīng)用對數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。

　　3 數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎治方中的應(yīng)用進展

　　神經(jīng)根型頸椎病在所有頸椎病中最常見, 約占50%~60%[8], 醫(yī)家對其治方的研究也是不計其數(shù)。近年來數(shù)據(jù)挖掘技術(shù)也被運用于其治方研究中, 筆者通過萬方、中國知網(wǎng)等總共檢索出以下幾篇文獻, 雖數(shù)量不多但其優(yōu)勢明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時, 通過檢索《中華醫(yī)典》并從中篩選以治療頸項肩臂痛為主的古方219首并建立數(shù)據(jù)庫, 對不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對 (組) 出現(xiàn)頻數(shù)進行統(tǒng)計, 總結(jié)出風(fēng)寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點, 得出解表藥、祛風(fēng)濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用, 該研究對于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻等[10]檢索CNKI (1980-20xx年) 相關(guān)文獻中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫, 采用SPSS11.5統(tǒng)計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計99味, 使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風(fēng)濕藥運用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補益藥、活血化瘀藥、祛風(fēng)濕藥等中藥運用最多。這對于醫(yī)家治療該病選用藥物的性味、歸經(jīng)等具有指導(dǎo)意義。陳元川等[11]檢索20xx年1月至20xx年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關(guān)文獻, 對其中的方劑和藥物進行統(tǒng)計、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補氣藥、發(fā)散風(fēng)寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高, 證實與古方桂枝加葛根湯主藥相同, 且該方扶陽解表的治法與該研究得出的扶正祛邪的結(jié)果相吻合, 同時也證實石氏傷科強調(diào)治傷科病當“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關(guān)系在很多方面古今是一致的, 同時數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集20xx至20xx年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫, 采用關(guān)聯(lián)規(guī)則算法、復(fù)雜系統(tǒng)熵聚類等無監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺 (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關(guān)聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對, 闡明了治療該病以解肌散寒藥、補氣活血藥、祛風(fēng)勝濕藥和溫經(jīng)通絡(luò)藥為主, 治法主要包括解肌舒筋、益氣活血和補益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導(dǎo)臨床并提高療效;另一方面也為中藥新藥的.創(chuàng)制提供處方來源, 指導(dǎo)新藥研發(fā)[13]。

　　4 小結(jié)

　　數(shù)據(jù)挖掘技術(shù)作為一種新型的研究技術(shù), 在神經(jīng)根型頸椎病的治方研究中的運用相對于其他領(lǐng)域是偏少的, 并且基本上是研究文獻資料上出現(xiàn)的治方, 在對名老中醫(yī)個人治療經(jīng)驗及用藥規(guī)律的總結(jié)是缺乏的, 因此研究范圍廣而缺乏針對性, 同時使用該技術(shù)的相關(guān)軟件種類往往是單一的。現(xiàn)在研究者在研究中醫(yī)方劑時往往采用傳統(tǒng)的研究方法, 這就導(dǎo)致在大數(shù)據(jù)的研究中耗時、耗力甚則無能為力, 同樣也難以精準地提取大數(shù)據(jù)背后的隱藏的潛在關(guān)系和規(guī)則及缺乏對未知情況的預(yù)測。產(chǎn)生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術(shù)在方劑研究中的優(yōu)勢所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術(shù)的操作技能及軟件種類及其應(yīng)用范圍。故以后應(yīng)向更多研究者普及該技術(shù)的軟件種類、其中的優(yōu)勢及操作技能, 讓該技術(shù)在臨床中使用更廣, 產(chǎn)生更大的效益。

　　參考文獻

　　[1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國西部科技, 20xx, 9 (5) :38-39.

　　[2]曹毅, 季聰華.臨床科研設(shè)計與分析[M].杭州:浙江科學(xué)技術(shù)出版社, 20xx:189.

　　[3]王靜, 崔蒙.數(shù)據(jù)挖掘技術(shù)在中醫(yī)方劑學(xué)研究中的應(yīng)用[J].中國中醫(yī)藥信息雜志, 20xx, 15 (3) :103-104.

　　[4]陳丈偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社, 20xx:5.

　　[5]楊玉珠.數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用[J].河南科技, 20xx, 10 (19) :21.

　　[6]余侃侃.數(shù)據(jù)挖掘技術(shù)在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國醫(yī)藥指南, 20xx, 6 (24) :310-312.

　　[7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學(xué)學(xué)報, 20xx, 39 (6) :44-46.

　　[8]李曙明, 尹戰(zhàn)海, 王瑩.神經(jīng)根型頸椎病的影像學(xué)特點和分型[J].中國矯形外科雜志, 20xx, 21 (1) :7-11.

　　[9]劉向前, 陳民, 黃廣平等.頸項肩臂痛內(nèi)治古方常用藥物的統(tǒng)計分析[J].中華中醫(yī)藥學(xué)刊, 20xx, 30 (9) :42-44.

　　[10]齊兵獻, 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻研究[J].河南中醫(yī), 20xx, 32 (4) :518-519.

　　[11]陳元川, 王翔, 龐堅, 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 20xx, 48 (6) :78-80.

　　[12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結(jié)合雜志, 20xx, 10 (6) :849-852.

　　[13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進展述評[J].中國實驗方劑學(xué)雜志, 20xx (5) :359-363.

數(shù)據(jù)挖掘論文9

　　1數(shù)據(jù)挖掘技術(shù)和過程

　　1.1數(shù)據(jù)挖掘技術(shù)概述

　　發(fā)現(xiàn)的是用戶感興趣的知識；發(fā)現(xiàn)的知識應(yīng)當能夠被接受、理解和運用。也就是發(fā)現(xiàn)全部相對的知識，是具有特定前提與條件，面向既定領(lǐng)域的，同時還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù)，其特點為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù)，從中獲得有價值的商業(yè)數(shù)據(jù)。簡單來說，其實數(shù)據(jù)挖掘是一種對數(shù)據(jù)進行深入分析的方法。因此，可以描述數(shù)據(jù)挖掘為：根據(jù)企業(yè)設(shè)定的工作目標，探索與分析企業(yè)大量數(shù)據(jù)，充分揭示隱藏的、未知的規(guī)律性，并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識包括：

　　1.1.1廣義知識體現(xiàn)相同事物共同性質(zhì)的知識，是指類別特點的概括描述知識。按照數(shù)據(jù)的微觀特點對其表征的、具有普遍性的、極高概念層次的知識積極發(fā)現(xiàn)，是對數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識的方法與技術(shù)有很多，例如數(shù)據(jù)立方體和歸約等。

　　1.1.2關(guān)聯(lián)知識體現(xiàn)一個事件與其他事件之間形成的關(guān)聯(lián)知識。假如兩項或者更多項之間形成關(guān)聯(lián)，則其中一項的屬性數(shù)值就能夠借助其他屬性數(shù)值實行預(yù)測。

　　1.1.3分類知識體現(xiàn)相同事物共同特點的屬性知識與不同事物之間差異特點知識。

　　1.2數(shù)據(jù)挖掘過程

　　1.2.1明確業(yè)務(wù)對象對業(yè)務(wù)問題清楚定義，了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測的，但是研究的問題是可預(yù)見的，僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會體現(xiàn)出盲目性，通常也不會獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬（惠州商貿(mào)旅游高級職業(yè)技術(shù)學(xué)校，廣東惠州516025）摘要：隨著互聯(lián)網(wǎng)的出現(xiàn)，全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展，在這樣的環(huán)境下，電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點，基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會解決大量現(xiàn)實問題，為企業(yè)確定目標市場、完善決策、獲得最大競爭優(yōu)勢，其應(yīng)用前景廣闊，促使電子商務(wù)企業(yè)更具有競爭力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細分理論，以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。

　　1.2.2數(shù)據(jù)準備第一選擇數(shù)據(jù)：是按照用戶的挖掘目標，對全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索，從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù)：加工選取的數(shù)據(jù)，具體對數(shù)據(jù)的完整性和一致性積極檢查，并且處理數(shù)據(jù)中的噪音，找出計算機丟失的數(shù)據(jù)，清除重復(fù)記錄，轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象，則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。

　　1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個分析模型。這一分析模型是相對于挖掘算法構(gòu)建的。構(gòu)建一個與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點。可以利用投影數(shù)據(jù)庫的相關(guān)操作對數(shù)據(jù)維度有效降低，進一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量，提升挖掘算法效率。

　　1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟轉(zhuǎn)化的數(shù)據(jù)。除了對選擇科學(xué)挖掘算法積極完善之外，其余全部工作都自行完成。整體挖掘過程都是相互的，也就是用戶對某些挖掘參數(shù)能夠積極控制。

　　1.2.5評價挖掘結(jié)果這個過程劃分為兩個步驟：表達結(jié)果和評價結(jié)果。第一表達結(jié)果：用戶能夠理解數(shù)據(jù)挖掘得到的模式，可以通過可視化數(shù)據(jù)促使用戶對挖掘結(jié)果積極理解。第二評價結(jié)果：用戶與機器對數(shù)據(jù)挖掘獲得的模式有效評價，對冗余或者無關(guān)的模式及時刪除。假如用戶不滿意挖掘模式，可以重新挑選數(shù)據(jù)和挖掘算法對挖掘過程科學(xué)執(zhí)行，直到獲得用戶滿意為止。

　　2用戶細分理論

　　用戶細分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價值的細分理論，其不僅包含了用戶為企業(yè)貢獻歷史利潤，還包含未來利潤，也就是在未來用戶為企業(yè)可能帶來的利潤總和。基于用戶價值的細分理論選擇客戶當前價值與客戶潛在價值兩個因素評價用戶。用戶當前價值是指截止到目前用戶對企業(yè)貢獻的總體價值；用戶潛在價值是指未來用戶可能為企業(yè)創(chuàng)造的價值總和。每個因素還能夠劃分為兩個高低檔次，進一步產(chǎn)生一個二維的矩陣，把用戶劃分為4組，價值用戶、次價值用戶、潛在價值用戶、低價值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當形成對應(yīng)的`方法，投入不同的資源。很明顯對于企業(yè)來說價值用戶最重要，被認為是企業(yè)的玉質(zhì)用戶；其次是次價值用戶，被認為是金質(zhì)用戶，雖然數(shù)量有限，卻為企業(yè)創(chuàng)造了絕大部分的利潤；其他則是低價值用戶，對企業(yè)來說價值最小，成為鉛質(zhì)用戶，另外一類則是潛在價值用戶。雖然這兩類用戶擁有較多的數(shù)量，但是為企業(yè)創(chuàng)造的價值有限，甚至很小。需要我們注意的是潛在價值用戶利用再造用戶關(guān)系，將來極有可能變成價值用戶。從長期分析，潛在價值用戶可以是企業(yè)的隱形財富，是企業(yè)獲得利潤的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對這4類用戶特點有效挖掘。

　　3電子商務(wù)數(shù)據(jù)挖掘分析

　　3.1設(shè)計問卷

　　研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘，具體包含了價值用戶特征、次價值用戶特征、潛在價值用戶特征，對電子商務(wù)用戶的認知度、用戶的需求度分析。問卷內(nèi)容包括3部分：其一是為被調(diào)查者介紹電子商務(wù)的概念與背景；其二是具體調(diào)查被調(diào)查對象的個人信息，包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點、收入、上網(wǎng)購物經(jīng)歷；其三是問卷主要部分，是對用戶對電子商務(wù)的了解、需求、使用情況的指標設(shè)計。

　　3.2調(diào)查方式

　　本次調(diào)查的問卷主體是電腦上網(wǎng)的人群，采用隨機抽象的方式進行網(wǎng)上訪問。一方面采用大眾聊天工具，利用電子郵件和留言的方式發(fā)放問卷，另一方面在大眾論壇上邀請其填寫問卷。

　　3.3數(shù)據(jù)挖掘和結(jié)果

　　（1）選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件，采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。

　　（2）用戶數(shù)據(jù)分析

　　1）電子商務(wù)用戶認知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎？”得到對電子商務(wù)用戶認知情況的統(tǒng)計，十分了解20.4%，了解30.1%，聽過但不了解具體使用方法40.3%，從未聽過8.9%。很多人僅聽過電子商務(wù)，但是并不清楚具體的功能與應(yīng)用方法，甚至有一小部分人沒有聽過電子商務(wù)。對調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么？”，大部分用戶是利用網(wǎng)了解電子商務(wù)的，占40.2%；僅有76人是利用紙質(zhì)報刊雜志上知道電子商務(wù)的并且對其進行應(yīng)用；這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。

　　2）電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù)，你覺得其用途怎樣，假如沒有使用過，你覺得其對自己有用嗎？”得到了認為需要和十分需要的數(shù)據(jù)，覺得電子商務(wù)有用的用戶為40.7%，不清楚是否對自己有用的用戶為56.7%，認為不需要的僅有2.4%。

　　3）電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費者對某一產(chǎn)品服務(wù)進行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素，未來你會繼續(xù)應(yīng)用電子商務(wù)嗎？”獲得的數(shù)據(jù)可知，在滿足各種因素時，將來一年之內(nèi)會應(yīng)用電子商務(wù)的用戶為78.2%，一定不會應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強烈的應(yīng)用電子商務(wù)欲望，電子商務(wù)發(fā)展前景很好。基于用戶特征的電子商務(wù)數(shù)據(jù)研究，電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實行營銷和推廣，對潛在用戶積極定位，提高用戶體驗，積極挖掘用戶價值。分析為企業(yè)準確營銷和推廣企業(yè)提供了一個有效的借鑒。

　　4結(jié)語

　　互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一，大量數(shù)據(jù)中包含了很大的潛在價值，對這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來，數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視，具體原因是出現(xiàn)了大量的數(shù)據(jù)，能夠廣泛應(yīng)用，并且需要轉(zhuǎn)化數(shù)據(jù)成為有價值的信息知識。通過基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究，促使電子商務(wù)獲得巨大發(fā)展機會，發(fā)現(xiàn)潛在用戶，促使電子商務(wù)企業(yè)精準營銷。

數(shù)據(jù)挖掘論文10

　　一、在對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘方面存在的問題和局限

　　1.1對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù)有限

　　據(jù)有關(guān)調(diào)查，目前的信息技術(shù)行業(yè)對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘在技術(shù)方面還是存在局限與問題的；從客觀層面上來講，沒有哪一種計算機的技術(shù)可以完全杜絕或制止計算機病毒對計算機數(shù)據(jù)庫的侵入和威脅，這種糟糕情況的出現(xiàn)，不僅給單個計算機的系統(tǒng)造成損害，而且給整個計算機技術(shù)行業(yè)在某些時候也會造成不必要的損失和危害。所以說，開創(chuàng)有關(guān)減弱甚至是消滅計算機病毒數(shù)據(jù)庫的計算機技術(shù)就顯得尤為重要。

　　1.2對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘效率極低

　　我們都知道，可以利用相應(yīng)的計算機技術(shù)來對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)進行挖掘，但是就目前而言，單一而又較為簡單的計算機技術(shù)很難高效地對數(shù)據(jù)進行挖掘，只能夠從具有病毒的數(shù)據(jù)庫中挖掘出極少數(shù)數(shù)據(jù)甚至是挖掘不出來。所以說，提高計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘效率也就顯得尤為重要。

　　1.3對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘成本較高

　　值得注意的是，某些計算機病毒數(shù)據(jù)庫中的數(shù)據(jù)是值得使用和發(fā)揮作用的，所以，計算機行業(yè)的某些操作人員就會盡可能采用多種渠道和方法來對有用的數(shù)據(jù)進行挖掘和分析，這樣一來，通常花費的成本就會相對地高，不免也就會給某些企業(yè)造成沉重的負擔。所以說，降低對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘成本就顯得尤為重要了。

　　二、計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘的策略與方法

　　2.1實施相應(yīng)的計算機病毒監(jiān)控技術(shù)

　　如何進一步地減弱計算機病毒對計算機數(shù)據(jù)庫的侵入和威脅，我們需要慎重考慮，而實施相應(yīng)的計算機病毒監(jiān)控技術(shù)已成為此時的無疑之策；進一步來說，就是設(shè)置多種監(jiān)控技術(shù)，例如設(shè)置內(nèi)存監(jiān)控，配備相應(yīng)的文件監(jiān)控，還有就是注冊不同的表監(jiān)控等等，這些都是有效地減弱甚至是防止計算機病毒侵襲數(shù)據(jù)庫的`監(jiān)控技術(shù)。總之，我們通過這些技術(shù)，就會盡可能的從計算機病毒數(shù)據(jù)庫中挖掘出需要的數(shù)據(jù)。

　　2.2配置適當?shù)挠嬎銠C病毒源的追蹤設(shè)備

　　據(jù)有關(guān)部門調(diào)查，目前使用較為有效的計算機病毒源的追蹤設(shè)備就是郵件追蹤設(shè)備，它能夠有效地通過相應(yīng)的消息或指令來對計算機的查詢進行追蹤，這樣就能夠高效地檢測出是否有計算機病毒侵入。依據(jù)這種情況，我們可以進一步開拓思維，尤其是計算機行業(yè)的管理員和操作人員，更應(yīng)該為計算機設(shè)計出以及配置適當?shù)牟煌挠嬎銠C病毒源的追蹤設(shè)備，從而使人們在計算機病毒侵入數(shù)據(jù)庫的情況下，仍然能夠得到自己想要的正常數(shù)據(jù)。

　　2.3設(shè)置獨特的計算機反病毒數(shù)據(jù)庫

　　所謂的計算機反病毒數(shù)據(jù)庫，就是在計算機操作系統(tǒng)的底部值入反病毒的指令或程序，讓它成為計算機系統(tǒng)內(nèi)部數(shù)據(jù)庫的底層模塊，而不是計算機系統(tǒng)外部的某種軟件。這樣一來，當計算機的病毒侵入系統(tǒng)內(nèi)數(shù)據(jù)庫時，就會被底層的反病毒程序代碼或指令反攻出來，就進一步達到了減弱甚至消除計算機病毒對計算機數(shù)據(jù)庫的侵襲和威脅的目的，那么我們這時就可以挖掘出必需的數(shù)據(jù)了。

　　三、結(jié)束語

　　概而言之，就現(xiàn)在的計算機病毒來說，可謂是呈現(xiàn)日益猖獗的態(tài)勢；也就是說，計算機技術(shù)迅速發(fā)展了，計算機病毒也就會跟其迅速“發(fā)展”。我們想要有效地遏制住計算機病毒，從計算機病毒數(shù)據(jù)庫中挖掘出必需的數(shù)據(jù)，對于普通人來說就應(yīng)該多多了解一些預(yù)防計算機病毒侵入的知識；而對于計算機行業(yè)的管理員或操作人員來說，就應(yīng)該多設(shè)計出一些遏制計算機病毒侵襲的軟件或方案，從而使我們的計算機環(huán)境更干凈，更安全。

數(shù)據(jù)挖掘論文11

　　摘要：數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運用，是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息，數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義，和良好的應(yīng)用前景，從而在眾多技術(shù)中脫穎而出。本文從對數(shù)據(jù)挖掘技術(shù)的初步了解，簡述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績分析，以及配合成績分析，完善教學(xué)。

　　關(guān)鍵詞：數(shù)據(jù)挖掘技術(shù)；在線考試；成績分析；完善教學(xué)

　　隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展，計算機輔助教育的不斷普及，在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段，其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù)，其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計學(xué)等學(xué)科的內(nèi)容，是一門綜合性的技術(shù)。這種技術(shù)的主要特點是對數(shù)據(jù)庫中大量的數(shù)據(jù)進行抽取、轉(zhuǎn)換和分析，從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運用于在線考試系統(tǒng)中，能夠很好的處理在線考試中涉及到的數(shù)據(jù)，讓在線考試的實用性和高效性得到進一步的增強，幫助教師更加快速、完整的統(tǒng)計考試信息，完善教學(xué)。

　　1.初步了解數(shù)據(jù)挖掘技術(shù)

　　數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對使用者有用的知識，即從大量的、隨機的、有噪聲的、模糊的、不完全的實際應(yīng)用數(shù)據(jù)中，"挖掘"出隱含在其中但人們事先卻不知道的，而又是對人們潛在有用的信息與知識的整個過程。

　　目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner，SPSS公司的Clementine，Sybas公司的Warehouse Studio，MinerSGI公司的Mineset，RuleQuest Research公司的See5，IBM公司的Intelligent，還有 CoverStory， Knowledge Discovery，Quest，EXPLORA， DBMiner，Workbench等。

　　2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)

　　2.1數(shù)據(jù)分類

　　數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的數(shù)據(jù)進行分析，把數(shù)據(jù)按照相似性歸納成若干類別，然后做出分類，并能夠為每一個類別都做出一個準確的描述，挖掘出分類的規(guī)則或建立一個分類模型。

　　2.2數(shù)據(jù)關(guān)聯(lián)分析

　　數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是一項非常重要，并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系，從中得到一些對學(xué)校教學(xué)工作管理者有用的信息。就像是在購物中，就可以通過顧客的購買物品的聯(lián)系，從中得到顧客的購買習(xí)慣。

　　2.3預(yù)測

　　預(yù)測是根據(jù)已經(jīng)得到的數(shù)據(jù)，從而對未來的情況做出一個可能性的'分析。數(shù)據(jù)挖掘技術(shù)能自動在大型的數(shù)據(jù)庫中做出一個較為準確的分析。就像是在市場投資中，可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢。從而在投資中得到最大的回報。

　　3.數(shù)據(jù)挖掘的方法

　　數(shù)據(jù)挖掘技術(shù)融合了多個學(xué)科、多個領(lǐng)域的知識與技術(shù)，因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)的角度來講，光統(tǒng)計分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對那些異常形式的數(shù)據(jù)進行檢查，然后通過各種數(shù)據(jù)模型和統(tǒng)計模型對這些數(shù)據(jù)來進行解釋，并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù)，這種和統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)完全不同，其中包括了支持向量機、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。

　　4.數(shù)據(jù)挖掘在考試成績分析中的幾點應(yīng)用

　　4.1運用關(guān)聯(lián)規(guī)則分析教師的年齡對學(xué)生考試成績的影響

　　數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學(xué)分析中，是一種使用頻繁，行之有效的方法，它能挖掘出大量數(shù)據(jù)中項集之間之間有意義的關(guān)聯(lián)聯(lián)系，幫助知道教師的教學(xué)過程。例如在如今的一些高職院校中，就往往會把學(xué)生的英語四六級過級率，計算機等級等，以這些為依據(jù)來評價教師的教學(xué)效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運用于考試的成績分析當中，就能夠挖掘出一些對學(xué)生過級率產(chǎn)生影響的因素，對教師的教學(xué)過程進行重要的指導(dǎo)，讓教師的教學(xué)效率更高，作用更強。

　　還可以通過關(guān)聯(lián)規(guī)則算法，先設(shè)定一個最小可信度和支持度，得到初步的關(guān)聯(lián)規(guī)則，根據(jù)相關(guān)規(guī)則，分析出教師的組成結(jié)構(gòu)和過級率的影響，從來進行教師隊伍的結(jié)構(gòu)調(diào)整，讓教師隊伍更加合理。

　　4.2采用分類算法探討對考試成績有影響的因素

　　數(shù)據(jù)挖掘技術(shù)中的分類算法就是對一組對象或一個事件進行歸類，然后通過這些數(shù)據(jù)，可以進行分類模型的建立和未來的預(yù)測。分類算法可以進行考試中得到的數(shù)據(jù)進行分類，然后通過學(xué)生的一些基本情況進行探討一些對考試成績有影響的因素。分類算法可以用一下步驟實施：

　　4.2.1數(shù)據(jù)采集

　　這種方法首先要進行數(shù)據(jù)采集，需要這幾方面的數(shù)據(jù)，學(xué)生基本信息（姓名、性別、學(xué)號、籍貫、所屬院系、專業(yè)、班級等）、學(xué)生調(diào)查信息（比如學(xué)習(xí)前的知識掌握情況、學(xué)習(xí)興趣、課堂學(xué)習(xí)效果、課后復(fù)習(xí)時間量等）、成績（學(xué)生平常學(xué)習(xí)成績，平常考試成績，各種大型考試成績等）、學(xué)生多次考試中出現(xiàn)的易錯點（本次考試中出現(xiàn)的易錯點，以往考試中出現(xiàn)的易錯點）

　　4.2.2數(shù)據(jù)預(yù)處理

　　（1）數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息，利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫技術(shù)生產(chǎn)相應(yīng)的學(xué)生考試成績分析基本數(shù)據(jù)庫。（2）數(shù)據(jù)清理。在學(xué)生成績分析數(shù)據(jù)庫中，肯定會出現(xiàn)一些情況缺失，對于這些空缺處，就需要使用數(shù)據(jù)清理技術(shù)來進行這些數(shù)據(jù)庫中數(shù)據(jù)的填補遺漏。例如，可以采用忽略元組的方法來刪除那些沒有參加考試的學(xué)生考試數(shù)據(jù)已經(jīng)在學(xué)生填寫的調(diào)查數(shù)據(jù)中村中的空缺項。（3）數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進行進行數(shù)據(jù)的離散化操作。在這個過程中可以根據(jù)實際需要進行分類，比如把考試成績從0~59的分到較差的一類，將60到80分為中等類，81到100分為優(yōu)秀等。（4）數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫，在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學(xué)生的基本學(xué)習(xí)情況的影響因素情況中，學(xué)生信息表中中出現(xiàn)的字段很多，可以選擇性的刪除班別、籍貫等引述，形成一份新的學(xué)生基本成績分析數(shù)據(jù)表。

　　4.2.3利用數(shù)據(jù)挖掘技術(shù)，得出結(jié)論

　　通過數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用，得出這些學(xué)生數(shù)據(jù)的相關(guān)分析，比如說學(xué)生考試中的易錯點在什么地方，學(xué)生考試成績的自身原因，學(xué)生考試成績的環(huán)境原因，教師隊伍的搭配情況等等，從中得出如何調(diào)整學(xué)校教學(xué)資源，教師的教學(xué)方案調(diào)整等等，從而完善學(xué)校對學(xué)生的教學(xué)。

　　5.結(jié)語

　　數(shù)據(jù)挖掘技術(shù)在社會各行各業(yè)中都有一定程度的使用，基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力，在使用中取得了顯著的成效，但數(shù)據(jù)挖掘技術(shù)中還存在著一些問題，例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問題、模式識別和解釋等等。對于這些問題，學(xué)校教學(xué)管理工作者要清醒的認識，在在線考試系統(tǒng)中對數(shù)據(jù)挖掘信息做出合理的使用，讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長處，避免其在在線考試系統(tǒng)中的的缺陷。

　　參考文獻：

　　[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的作用[J].荊門職業(yè)技術(shù)學(xué)院學(xué)報,20xx,12(22):12.

　　[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘：概念與技術(shù)（第2版）[M]范明,譯.北京:機械工業(yè)出版社,20xx.

　　[3]王潔.《在線考試系統(tǒng)的設(shè)計與開發(fā)》[J].山西師范大學(xué)學(xué)報,20xx(2).

　　[4] 王長娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計算機與信息技術(shù),20xx(11)

數(shù)據(jù)挖掘論文12

　　隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，學(xué)術(shù)研究環(huán)境較以前更加開放，對傳統(tǒng)的科技出版業(yè)提出了開放性、互動性和快速性的要求; 因此，以信息技術(shù)為基礎(chǔ)的現(xiàn)代數(shù)字化出版方式對傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應(yīng)這一趨勢，不少科技期刊都進行了數(shù)字化建設(shè)，構(gòu)建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結(jié)構(gòu)的稿件處理系統(tǒng)。

　　以中華醫(yī)學(xué)會雜志社為代表的部分科技期刊出版集團均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務(wù)數(shù)據(jù); 但從工作系統(tǒng)來看，由于數(shù)據(jù)本身只屬于編輯部的業(yè)務(wù)數(shù)據(jù)，因此一旦相關(guān)業(yè)務(wù)工作進行完畢，將很少再對這些數(shù)據(jù)進行分析使用。

　　隨著目前人工智能和機器學(xué)習(xí)技術(shù)的發(fā)展，研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對原始用戶業(yè)務(wù)數(shù)據(jù)進行有效分析和學(xué)習(xí)，找出其中數(shù)據(jù)背后隱含的內(nèi)在規(guī)律。這些有價值的規(guī)律和寶貴的經(jīng)驗將對后續(xù)科技期刊經(jīng)營等工作提供巨大的幫助。

　　姚偉欣等指出，從STM 期刊出版平臺的技術(shù)發(fā)展來看，利用數(shù)據(jù)存取、數(shù)據(jù)管理、關(guān)聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術(shù)將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術(shù)，人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數(shù)據(jù)中，提取隱藏在其中有價值的信息，從而對后續(xù)科技期刊出版工作起到重要的知識發(fā)現(xiàn)和決策支持的作用。

　　1 數(shù)據(jù)挖掘在科技期刊中應(yīng)用的現(xiàn)狀

　　傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術(shù)均無法發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)和規(guī)則，更無法根據(jù)現(xiàn)有數(shù)據(jù)對未來發(fā)展的趨勢進行預(yù)測。現(xiàn)有數(shù)據(jù)挖掘的任務(wù)可以分為對數(shù)據(jù)模型進行分類或預(yù)測、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系發(fā)現(xiàn)、異常或例外點檢測以及趨勢發(fā)現(xiàn)等，但目前國內(nèi)科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進行分析后發(fā)現(xiàn)，中國科協(xié)科技期刊出版單位多為單刊獨立經(jīng)營，單位的規(guī)模較小、實力較弱，多數(shù)出版單位不具備市場主體地位。這樣就導(dǎo)致國內(nèi)大部分科技期刊既沒有能力進行數(shù)據(jù)挖掘，也沒有相應(yīng)的數(shù)據(jù)資源準備。以數(shù)據(jù)挖掘技術(shù)應(yīng)用于期刊網(wǎng)站為例，為了進行深入的數(shù)據(jù)分析，期刊經(jīng)營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內(nèi)在聯(lián)系。目前，數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的`對象與目標;2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉庫; 5)數(shù)據(jù)挖掘分析; 6) 對象與目標的數(shù)據(jù)應(yīng)用和反饋。

　　2 期刊數(shù)據(jù)的資源整合

　　編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個系統(tǒng)中將相關(guān)數(shù)據(jù)進行清洗、轉(zhuǎn)換和整理，然后加載到數(shù)據(jù)倉庫中。進一步，根據(jù)業(yè)務(wù)應(yīng)用的范圍和緊密度，建立相關(guān)數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲處理層和數(shù)據(jù)展現(xiàn)層。

　　要獲得能夠適合企業(yè)內(nèi)部多部門均可使用、挖掘和分析的數(shù)據(jù)，可以從業(yè)務(wù)的關(guān)聯(lián)性分析數(shù)據(jù)的準確性、一致性、有效性和數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性。

　　3 期刊數(shù)據(jù)的信息挖掘

　　信息挖掘為了從不同種類和形式的業(yè)務(wù)進行抽取、變換、集成數(shù)據(jù)，最后將其存儲到數(shù)據(jù)倉庫，并要對數(shù)據(jù)的質(zhì)量進行維護和管理。數(shù)據(jù)挖掘可以有效地識別讀者的閱讀行為，發(fā)現(xiàn)讀者的閱讀模式和趨勢，對網(wǎng)站改進服務(wù)質(zhì)量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營能力有著重要的意義。作為一個分析推薦系統(tǒng)，我們將所分析的統(tǒng)計結(jié)果存儲于服務(wù)器中，在用戶或決策者需要查詢時，只需輸入要找尋的用戶信息，系統(tǒng)將從數(shù)據(jù)庫中抽取其個人信息，并處理返回到上網(wǎng)時間分布、興趣點所在、適配業(yè)務(wù)及他對于哪些業(yè)務(wù)是有價值客戶，甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。

　　網(wǎng)站結(jié)構(gòu)挖掘是挖掘網(wǎng)站中潛在的鏈接結(jié)構(gòu)模式。通過分析一個網(wǎng)頁的鏈接、鏈接數(shù)量以及鏈接對象，建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。在此過程中，如果發(fā)現(xiàn)某一頁面被較多鏈接所指向，則說明該頁面信息是有價值的，值得期刊工作人員做更深層次的挖掘。網(wǎng)站結(jié)構(gòu)挖掘在具體應(yīng)用時采用的結(jié)構(gòu)和技術(shù)各不相同; 但主要過程均包括預(yù)處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向，就需要對數(shù)據(jù)庫中的數(shù)據(jù)按用戶進行抽樣分析，得到興趣點的統(tǒng)計結(jié)果，而個人的興趣分析也可基于此思路進行。下面以《中華醫(yī)學(xué)雜志》為例做一介紹。

　　預(yù)處理預(yù)處理是網(wǎng)站結(jié)構(gòu)挖掘最關(guān)鍵的一個環(huán)節(jié)，其處理得到的數(shù)據(jù)質(zhì)量直接關(guān)系到使用數(shù)據(jù)挖掘和模式分析方法進行分析的結(jié)果。預(yù)處理步驟包括數(shù)據(jù)清洗、用戶識別、會話識別、路徑補充和事件識別。以《中華醫(yī)學(xué)雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log，其內(nèi)容為“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML，+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內(nèi)容，工作人員可以得到相關(guān)信息，如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁面等內(nèi)容。

　　由于服務(wù)器同時部署了多個編輯部網(wǎng)站，這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日志，去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會在日志結(jié)尾包含“Spider”的字樣。同時，還需要去除不是由GET 請求產(chǎn)生的日志以及請求資源不是頁面類型的日志。最后，工作人員還需要去除訪問錯誤的請求，可以根據(jù)日志中請求的狀態(tài)進行判斷。一般認為，請求狀態(tài)在( 200， 300) 范圍內(nèi)是訪問正確的日志，其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下，才識別為一個用戶。會話識別是利用面向時間的探索法，根據(jù)超時技術(shù)來識別一個用戶的多次會話。如果用戶在一段時間內(nèi)沒有任何操作，則認為會話結(jié)束。用戶在規(guī)定時間后重新訪問，則被認為不屬于此次會話，而是下次會話的開始。

　　利用WebLogExplore 分析日志、用戶和網(wǎng)頁信息在獲得了有效的日志數(shù)據(jù)后，工作人員可以利用一些有效數(shù)據(jù)挖掘算法進行模式發(fā)現(xiàn)。目前，主要的數(shù)據(jù)挖掘方法有統(tǒng)計分析、關(guān)聯(lián)規(guī)則、分類、聚類以及序列模式等技術(shù)。本文主要討論利用Apriori 算法來發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關(guān)聯(lián)規(guī)則。本質(zhì)上數(shù)據(jù)挖掘不是用來驗證某個假定的模式的正確性，而是在數(shù)據(jù)庫中自己尋找模型，本質(zhì)是一個歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時出現(xiàn)的概率。如果事件A 與B 同時出現(xiàn)的概率較小，說明事件A 與B 的關(guān)系不大; 如果事件A 與B 同時出現(xiàn)非常頻繁，則說明事件A 與B 總是相關(guān)的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時，事件B 是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%，則事件A 必然會導(dǎo)致事件B 出現(xiàn)。置信度太低，說明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關(guān)系不大。

　　對所有的科技期刊日志數(shù)據(jù)進行預(yù)處理后，利用WebLogExplore 軟件可得到日志匯總表。表中存儲了所有用戶訪問網(wǎng)站頁面的詳細信息，工作人員可將其導(dǎo)入數(shù)據(jù)庫中。以查看到所選擇用戶訪問期刊頁面的詳細信息。

　　同樣，在WebLogExplore 軟件中選擇感興趣的頁面，可以查看所有用戶訪問該頁面的統(tǒng)計信息，如該頁面的訪問用戶數(shù)量等。工作人員可以對用戶訪問排名較高的頁面進行進一步的模式分析。

　　步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中，建立日志總表。

　　步驟2: 在數(shù)據(jù)庫中建立一個新表命名為tj。

　　步驟3: 通過查詢程序得到日志總表中每一個用戶訪問的頁面，同時做distinct 處理。

　　步驟4: 將查詢得到的用戶訪問頁面記錄進行判斷。如果用戶訪問過排名前20 位的某個頁面，則在數(shù)據(jù)庫中寫入true，否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫中。

　　步驟5: 統(tǒng)計每個訪問排名靠前頁面的支持度，設(shè)置一維項目集的最小閥值( 10%) 。

　　步驟6: 統(tǒng)計大于一維閥值的頁面，寫入數(shù)組，并對數(shù)組內(nèi)部頁面進行兩兩組合，統(tǒng)計每個組合2 個頁面值均為true 時的二維項目集的支持度。

　　步驟7: 設(shè)置二維項目集支持度的閥值，依次統(tǒng)計三維項目集支持度和置信度( A≥B) ，即當A 頁面為true 時，統(tǒng)計B 頁面為true 的數(shù)量，除以A 為true 的數(shù)量。設(shè)置相應(yīng)的置信度閥值，找到訪問排名靠前頁面之間較強的關(guān)聯(lián)規(guī)則。

　　4 數(shù)據(jù)挖掘技術(shù)應(yīng)用的意義

　　1) 對頻繁訪問的用戶，可以使用用戶識別技術(shù)分析此用戶的歷史訪問記錄，得到他經(jīng)常訪問的頁面。當該用戶再次登錄系統(tǒng)時，可以對其進行個性化提示或推薦。這樣，既方便用戶使用，也可將系統(tǒng)做得更加友好。很多OA 期刊網(wǎng)站，不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用戶來講其實十分重要，隱含了用戶對文章的篩選過程，所以對用戶經(jīng)常訪問的頁面需要進行優(yōu)化展示，不能僅僅提供鏈接地址，需要將文章題名、作者、關(guān)鍵詞等信息以列表的方式予以顯示。

　　2) 由數(shù)據(jù)挖掘技術(shù)而產(chǎn)生的頻繁項目集的分析，可以對網(wǎng)站的結(jié)構(gòu)進行改進。支持度很高的頁面，說明該頁面的用戶訪問量大。為了方便用戶以及吸引更多的讀者，可以將這些頁面放置在更容易被訪問的位置，科技期刊的網(wǎng)站內(nèi)容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章，也必須通過年卷期的方式來查看，非常不方便而且頁面友好性不高。通過數(shù)據(jù)挖掘的分析，編輯部可以把經(jīng)常被訪問或者高影響因子的文章放在首頁展示。

　　3) 對由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的頻繁項目集的分析，可以發(fā)現(xiàn)用戶的關(guān)注熱點。若某些頁面或項目被用戶頻繁訪問，則可以用這些數(shù)據(jù)對用戶進行分析。一般來說科技期刊的讀者，每個人的專業(yè)和研究方向都是不同的，編輯部可以通過數(shù)據(jù)挖掘技術(shù)來判斷讀者的研究方向和感興趣的熱點，對每一個用戶進行有針對性的內(nèi)容推送和消息發(fā)送。

　　4) 網(wǎng)站管理者可以根據(jù)在不同時間內(nèi)頻繁項目集的變化情況對科技期刊網(wǎng)站進行有針對性的調(diào)整，比如加入更多關(guān)于該熱點的主題資源。目前大多數(shù)科技期刊網(wǎng)站首頁的內(nèi)容，均為編輯部工作人員后臺添加、置頂、高亮來吸引用戶的; 通過數(shù)據(jù)挖掘技術(shù)，完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶訪問哪些頁面頻繁，系統(tǒng)便會自動將這些頁面的文章推向首頁，不需要編輯部的人工干預(yù)，整個網(wǎng)站實現(xiàn)自動化運行。

　　5 后記

　　本文重點討論了數(shù)據(jù)挖掘技術(shù)與科技期刊網(wǎng)站頁面之間的關(guān)系。其實我們還可以從很多方面進行數(shù)據(jù)挖掘，比如可以對網(wǎng)站的用戶和內(nèi)容進行數(shù)據(jù)挖掘，通過分析可以為后期的期刊經(jīng)營做好鋪墊。

　　有一點很重要，沒有一種數(shù)據(jù)挖掘的分析方法可以應(yīng)付所有的需求。對于某一種問題，數(shù)據(jù)本身的特性會影響你的選擇，需要用到許多不同的數(shù)據(jù)挖掘方法以及技術(shù)從數(shù)據(jù)中找到最佳的模型。

　　在目前深化文化體制改革，推動社會主義文化大發(fā)展、大繁榮的政治形勢下，利用數(shù)據(jù)挖掘技術(shù)從中進行提取、分析和應(yīng)用，能有效地幫助企業(yè)了解客戶、改進系統(tǒng)、制訂合理的市場策略、提高企業(yè)的銷售水平和利潤。通過利用數(shù)據(jù)挖掘技術(shù)準確定位優(yōu)質(zhì)客戶，向客戶提供更精確、更有價值的個性化服務(wù)。這將成為未來科技期刊經(jīng)營十分重要的突破點和增長點。

數(shù)據(jù)挖掘論文13

　　摘要：數(shù)據(jù)挖掘就是對潛在的數(shù)據(jù)及數(shù)據(jù)關(guān)聯(lián)進行探索和發(fā)現(xiàn)。隨著信息技術(shù)的不斷發(fā)展，這一技術(shù)在電子商務(wù)領(lǐng)域逐漸得到普遍應(yīng)用。基于此，本文就數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用進行研究，首先就數(shù)據(jù)挖掘中的路徑分析技術(shù)、關(guān)聯(lián)分析技術(shù)、聚類分析技術(shù)和分類分析技術(shù)進行簡要介紹，然后分析數(shù)據(jù)挖掘在電子商務(wù)中的實際應(yīng)用，從而提高數(shù)據(jù)挖掘技術(shù)的應(yīng)用水平，增強電子商務(wù)的發(fā)展實力。

　　關(guān)鍵詞：數(shù)據(jù)挖掘；電子商務(wù)；潛在客戶

　　一、數(shù)據(jù)挖掘在電子商務(wù)中的技術(shù)應(yīng)用

　　就現(xiàn)階段電子商務(wù)對數(shù)據(jù)挖掘技術(shù)的應(yīng)用現(xiàn)狀來看，主要應(yīng)用到的技術(shù)包括以下幾方面內(nèi)容，分別是路徑分析技術(shù)、關(guān)聯(lián)分析技術(shù)、聚類分析技術(shù)和分類分析技術(shù)。就路徑分析技術(shù)來看，主要對客戶互聯(lián)網(wǎng)訪問路徑的頻繁性進行分析，通過大數(shù)據(jù)采集和處理，了解客戶對各種網(wǎng)絡(luò)頁面的喜好程度和特點，從而對自身的設(shè)計進行針對性的改進，為客戶提供更加人性化的服務(wù)；就關(guān)聯(lián)分析技術(shù)來看，主要指的是對隱藏數(shù)據(jù)之間的關(guān)聯(lián)進行分析，并且通過分析掌握其相互關(guān)聯(lián)的規(guī)律，并根據(jù)這一規(guī)律對網(wǎng)絡(luò)站點的結(jié)構(gòu)進行相應(yīng)的改進，使電子商務(wù)中存在相關(guān)性的商品能夠一起被搜索出來，既為客戶提供便利，同時提高交叉銷售的幾率；聚類分析技術(shù)指的是根據(jù)數(shù)據(jù)的信息，按照一定的原則對數(shù)據(jù)進行分類。就分類分析技術(shù)而言，主要通過分析數(shù)據(jù)掌握分類規(guī)則，然后按照這一規(guī)則對數(shù)據(jù)進行分類。

　　二、數(shù)據(jù)挖掘在電子商務(wù)中的實際應(yīng)用

　　1.對潛在客戶進行挖掘在電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠?qū)撛诳蛻暨M行挖掘。例如商家可以對網(wǎng)站的日志記錄進行分析，探究該記錄中存在的規(guī)律，從而按照這一規(guī)律對網(wǎng)站的訪問客戶進行相應(yīng)分類。在分類過程中，商家應(yīng)該對客戶屬性和相關(guān)關(guān)系進行確定，對新客戶與老客戶之間存在重疊的屬性進行識別，從而實現(xiàn)對訪問網(wǎng)站新用戶快速分類，在分類完畢后，商家可以通過分析新客戶的屬性特點，從而對新客戶進行潛在性判斷，如果判斷新客戶可以被作為商家的潛在客戶，就可以為該客戶提供個性化的頁面服務(wù)，從而將新客戶發(fā)展成為老客戶。2.對駐留時間進行延長對于電子商務(wù)而言，商家必須提高客戶在商品頁面的駐留時間，并且使客戶的購買興趣和欲望得到激發(fā)。電子商務(wù)與傳統(tǒng)商務(wù)最大的不同在于銷售商具有虛擬性的特點，因此客戶在購物選擇時，對銷售商的印象是沒有差異的。銷售商在不斷提升自身服務(wù)水平的.同時，應(yīng)該對客戶的瀏覽行為和特點進行分析，從而對客戶的興趣和需求進行進一步的了解，以此為依據(jù)調(diào)整自身的商品頁面，用符合客戶需求的廣告和商品文案吸引客戶的駐留時間，從而提高交易的幾率。3.對網(wǎng)絡(luò)站點進行優(yōu)化電子商務(wù)主要依托于網(wǎng)站，因此網(wǎng)站優(yōu)化也是提高電子商務(wù)發(fā)展水平的有效措施。利用數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)站點進行優(yōu)化主要由兩方面構(gòu)成，一方面是對存在相關(guān)性的網(wǎng)頁進行鏈接設(shè)計。例如對用戶瀏覽頁面的幾率和特點進行分析，然后找出存在相關(guān)性的頁面，增加網(wǎng)頁鏈接這一功能，使客戶的搜索更加便捷；另一方面是對客戶的期望位置進行探索，例如對用戶頻率較高的訪問位置進行分析，從而將頻率較高的位置設(shè)置為客戶的期望位置，并且在實際位置與期望位置間建立鏈接。另外，可以對用戶的網(wǎng)頁瀏覽習(xí)慣和信息喜好進行分析，強化用戶在網(wǎng)頁中的自助服務(wù)，例如將網(wǎng)頁信息參照超市模式進行擺放，根據(jù)相關(guān)性分類，使用戶能夠通過自主瀏覽選擇到心儀的產(chǎn)品，從而提高交易的幾率。4.對營銷手段進行改進在電子商務(wù)的實際運營過程中，很多客戶都會在購買一種物品時同時選擇具有相關(guān)性的其他物品，因此銷售商應(yīng)該對銷售方式進行改進，利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)交叉銷售，從而提高營銷水平。在應(yīng)用交叉銷售這一手段時，主要應(yīng)該利用數(shù)據(jù)挖掘技術(shù)，對客戶的喜好進行分析，從而提供具有針對性的商品。

　　參考文獻：

　　[1]姜寧,牛永潔.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用——以淘寶網(wǎng)為例[J].計算機時代,20xx(7):49-52.

　　[2]王紅玉.數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].電腦編程技巧與維護,20xx(3):49-51.

數(shù)據(jù)挖掘論文14

　　一、數(shù)據(jù)挖掘相關(guān)概念

　　數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學(xué)科，它涉及到數(shù)據(jù)庫和人工智能等多個領(lǐng)域。隨著計算機技術(shù)的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù)，能夠從這些大量數(shù)據(jù)中抽取出有價值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法，關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法，是指從海量數(shù)據(jù)中挖掘出有價值的能夠揭示實體和數(shù)據(jù)項間某些隱藏的聯(lián)系的有關(guān)知識，其中描述關(guān)聯(lián)規(guī)則的兩個重要概念分別是Suppor（t支持度）和Confi-dence（可信度）。只有當Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進一步進行分析和應(yīng)用的規(guī)則。

　　二、使用Weka進行關(guān)聯(lián)挖掘

　　Weka的全名是懷卡托智能分析環(huán)境（WaikatoEnviron-mentforKnowledgeAnalysis），是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法，是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的，Experimenter是對各種實驗計劃進行數(shù)據(jù)測試，KnowledgeFlow和Explorer類似，但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案，Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進行。

　　（一）數(shù)據(jù)預(yù)處理

　　數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算，在這里我們將以上得分分別確定分類屬性值。

　　（二）數(shù)據(jù)載入

　　點擊Explorer進入后有四種載入數(shù)據(jù)的方式，這里采用第一種Openfile形式。由于Weka所支持的標準數(shù)據(jù)格式為ARFF，我們將處理好的xls格式另存為csv，在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多，這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進行移除，只將學(xué)歷、職稱、論文等級、學(xué)術(shù)著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

　　（三）關(guān)聯(lián)挖掘與結(jié)果分析

　　WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法，在這里我們選擇“Associate”標簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”（最小支持度）參數(shù)值設(shè)為0.1，將“upperBoundMinSupprot”（最大支持度）參數(shù)值設(shè)為1，在“metiricType”的參數(shù)值選項中選擇lift選項，將“minMetric”參數(shù)值設(shè)為1.1，將“numRules”（數(shù)據(jù)集數(shù)）參數(shù)值設(shè)為10，其它選項保存默認值，這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

　　三、挖掘結(jié)果與應(yīng)用

　　以上是針對教師基本情況和科研各項總分進行的反復(fù)的數(shù)據(jù)挖掘工作，從挖掘結(jié)果中找到最佳模式進行匯總。以下列出了幾項作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

　　1、科研立項得分與論文、科研總得分關(guān)聯(lián)度高，即科研立項為A級的論文也一定是A。這與實際也是相符的，因為科研立項得A的教師應(yīng)該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項，在課題研究的`過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項，所以這類教師的論文得分也會很高。針對這樣的結(jié)果，在今后的科研工作中，科研處要鼓勵和幫助教師搞科研，為教師的科研工作提供精神上的支持和物質(zhì)上的幫助，這樣在很大程度上能夠帶動整個學(xué)校科研工作的進展。

　　2、副教授類的教師科研立項得分很高，而講師類教師和助教類教師的科研立項得分很低，這樣符合實際情況。因為副教授類的教師有一定的教學(xué)經(jīng)驗，并且很多副教授類的教師還想晉職稱，所以大多數(shù)副教授類教師都會申請一些課題。而對于講師類和助教類的教師，由于教學(xué)經(jīng)驗不足很少能進行省級以上的課題研究，因此這兩類教師的科研立項分數(shù)不高。針對這樣的結(jié)果，在今后的科研工作中，科研處可以采用一幫一、結(jié)對子的形式來幫助年輕教師，這樣可以使青年教師參與到老教師的科研課題研究工作中去，在課題研究工程中提高科研能力和教學(xué)能力。

　　3、講師類教師的論文等級不高。從論文得分能夠推斷出講師類教師所發(fā)表論文的級別不高。為了鼓勵這類教師的論文發(fā)表，在今后的科研量化工作中對省級、國家級的論文級別進行細化，并且降低一般論文的得分權(quán)重，加大高級論文的得分權(quán)重。并且鼓勵講師類教師參加假期培訓(xùn)，提高自身的科研和教學(xué)水平。

數(shù)據(jù)挖掘論文15

　　摘要：近年來，數(shù)據(jù)庫挖掘技術(shù)的普遍應(yīng)用，使數(shù)據(jù)價值實現(xiàn)最大化，在我國金融、商業(yè)、市場營銷等領(lǐng)域得到廣泛應(yīng)用。然而在我國高校管理中并沒有得到推廣，為使高校管理系統(tǒng)中的數(shù)據(jù)充分發(fā)揮應(yīng)有價值，在該系統(tǒng)中使用數(shù)據(jù)庫挖掘技術(shù)意義深遠。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的流程，然后在教師教學(xué)質(zhì)量評估中應(yīng)用數(shù)據(jù)庫挖掘技術(shù)，充分證明數(shù)據(jù)庫挖掘技術(shù)在高校管理中能發(fā)揮重大作用。

　　關(guān)鍵詞：管理決策數(shù)據(jù)挖掘技術(shù)

　　當前，大部分高校都擁有配套的管理系統(tǒng)，該系統(tǒng)具備海量數(shù)據(jù)儲存和管理功能，徹底告別了手工記錄信息和數(shù)據(jù)的年代。不但節(jié)約了紙張，更有效提高了高校管理數(shù)據(jù)和信息的效率。然而我國高校沒有有效利用應(yīng)用數(shù)據(jù)挖掘技術(shù)，因此研究數(shù)據(jù)庫挖掘技術(shù)在高校管理中的應(yīng)用十分必要。

　　1數(shù)據(jù)挖掘技術(shù)的流程

　　數(shù)據(jù)挖掘技術(shù)能夠?qū)⒑Ａ繑?shù)據(jù)展開分析和處理，再把整體數(shù)據(jù)庫中存在規(guī)律的數(shù)據(jù)整合起來，實施該技術(shù)主要包括以下五個環(huán)節(jié)。目標定義：該環(huán)節(jié)中要與有關(guān)領(lǐng)域的背景知識相結(jié)合，清晰、精確的定義出數(shù)據(jù)挖掘目標。數(shù)據(jù)準備：在該環(huán)節(jié)中要搜集、選取數(shù)據(jù)源中的數(shù)據(jù)，處理已選數(shù)據(jù)，將其轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形態(tài)。數(shù)據(jù)挖掘：該環(huán)節(jié)是數(shù)據(jù)挖掘技術(shù)的核心，即采用關(guān)聯(lián)規(guī)則法、分類分析法等各種數(shù)據(jù)挖掘方法把數(shù)據(jù)中隱藏的知識和規(guī)律發(fā)掘出來。結(jié)果表示：在該環(huán)節(jié)中可以以用戶需求為依據(jù)，將挖掘出來的知識和規(guī)律轉(zhuǎn)變?yōu)橛脩裟芙邮芎屠斫獾男螒B(tài)。知識吸收：該環(huán)節(jié)中，主要是把挖掘結(jié)果與指定領(lǐng)域中的需求相結(jié)合，在該領(lǐng)域中應(yīng)用發(fā)掘出來的結(jié)果，為決策者提供知識，是數(shù)據(jù)挖掘的終極目標。

　　2數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評估中的應(yīng)用

　　2。1運用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù)庫中的信息

　　評估老師教學(xué)質(zhì)量不但是評定教學(xué)效果的重要部分，也是評定教師職稱的重要根據(jù)，因此是高校管理工作中不可或缺的.部分。目前評估教學(xué)質(zhì)量的主要措施是搜集、統(tǒng)計學(xué)生的成績和以及對老師的評價，然后加權(quán)算出老師的總得分，作為評估該老師教學(xué)質(zhì)量指標。這種方法非但不科學(xué)，其權(quán)威性也較低，因此需要深挖數(shù)據(jù)的相關(guān)性，本文采用了數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)法挖掘數(shù)據(jù)中的規(guī)律和知識，為評估老師教學(xué)質(zhì)量提供有力根據(jù)。運用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù)，其規(guī)則方法為“XY，置信度為c%，，支持度為s%”。關(guān)聯(lián)規(guī)則中置信度為c%：在整體事件D集合中，如果既能夠符合事件X中擁有c%的需求，也能夠符合Y的要求。那么就用置信度來表示關(guān)聯(lián)規(guī)則的強度，被記錄為confidence（XY），置信度最小值用minConf來表示，通常置信度最小數(shù)值由客戶提供。關(guān)聯(lián)規(guī)則中置信度為s%：在整體事件D集合中，如果既能夠符合事件Y中的s%的需求，又能夠符合X要求。用支持度來表示關(guān)聯(lián)規(guī)則的頻度，把支持度的最小數(shù)記錄用minsup（X）來表示，通常支持度最小數(shù)值由客戶提供。頻繁項集合：當X項集的支持度大于等于用戶設(shè)定好的最小支持度時，那么頻繁項集是X。通常關(guān)聯(lián)規(guī)則包含兩個環(huán)節(jié)：①把全部頻繁項集從整體事件集中選出；②運用頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。在這兩個環(huán)節(jié)中關(guān)聯(lián)規(guī)則效果和性能是否良好取決于第一個環(huán)節(jié)。

　　2。2關(guān)聯(lián)規(guī)則分析在評估教學(xué)質(zhì)量中的運用

　　第一步是準備數(shù)據(jù)期，在某大學(xué)的教學(xué)管理系統(tǒng)中將五百條與教學(xué)評價有關(guān)的記錄從數(shù)據(jù)庫中隨機抽取，并挑選出老師編號、學(xué)歷、性別、教齡、評估分和職稱這六個屬性，并將相關(guān)數(shù)據(jù)從數(shù)據(jù)庫中提取。比如把講師、副教授和教授等職稱轉(zhuǎn)化成11、01、00等編碼，表1就是制定的評價教師教學(xué)記錄表。第二步采用關(guān)聯(lián)規(guī)則分析法把90分以上評價分數(shù)作為檢索目標和判斷標準，也就是將≥90分作為判斷是否是高教學(xué)質(zhì)量闕值。通過檢索有143條記錄符合標準，即設(shè)定最小的支持度為10%，置信度則為15%，得出下表2的關(guān)聯(lián)規(guī)則。最后一步評價本次實驗的結(jié)果。由上表得知，學(xué)生喜歡男老師和女老師的程度大致相同；學(xué)歷愈高的老師，給予他們的教學(xué)評價也就愈高，即學(xué)歷和教學(xué)評價成正比，這也說明了學(xué)歷高的老師其基本功與學(xué)歷低的老師相比，前者基本功更為穩(wěn)固，也有較高的科學(xué)研究水平；有較長教齡和較高職稱的老師，其教學(xué)質(zhì)量也越高；此外，在支持度中可以看出，高校教授和高學(xué)歷人才越多，說明其辦學(xué)能力也就越高。

　　3結(jié)語

　　高校管理系統(tǒng)作為教學(xué)信息化的重要舉措，只是起到搜集和儲存海量教學(xué)信息的作用，并沒有挖掘出海量數(shù)據(jù)之間的相關(guān)性，而在本文中把關(guān)聯(lián)規(guī)則法運用在教師教學(xué)質(zhì)量評估中，在數(shù)據(jù)中挖掘有價值的知識和規(guī)律，使評估教師教學(xué)質(zhì)量更具有科學(xué)性，因此在高校管理中全面應(yīng)用數(shù)據(jù)挖掘技術(shù)，能為高校深化教學(xué)改革提供新的契機。

　　參考文獻

　　[1]江敏，徐艷。數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[J]。電腦知識與技術(shù)，20xx，（24）：541—545+560。

　　[2]楊雪霞。數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J]。軟件，20xx（04）：16—18。

【數(shù)據(jù)挖掘論文】相關(guān)文章：

數(shù)據(jù)挖掘論文07-15

數(shù)據(jù)挖掘論文07-16

旅游管理下數(shù)據(jù)挖掘運用論文11-18

旅游管理下數(shù)據(jù)挖掘運用論文6篇11-18

旅游管理下數(shù)據(jù)挖掘運用論文(6篇)11-18

旅游管理下數(shù)據(jù)挖掘運用論文(匯編6篇)11-18

旅游管理下數(shù)據(jù)挖掘運用論文(集合6篇)11-18

數(shù)據(jù)挖掘工程師的職責內(nèi)容02-23