資料探勘在工商管理中的運用論文
網路經濟的關鍵在於能夠為商品的供應商及其合作者之間提供一個交流的平臺,但是即便是最權威的搜尋引擎也只能夠搜尋到三分之一的web網頁,並且這些Web都是沒有結構的、動態的、複雜的形式出現。人們要從各種各樣的文字網站中尋找自己想要的資訊進而變得更加困難。網路資料探勘技術就是用來解決這一問題的好辦法,利用資料探勘技術能夠有效發現在web網頁中隱藏著的對使用者有力的資料資訊,在對資料的分析中總結出規律。如何實現使用者對於Web上的有效資料的深度挖掘,使其成為工商管理領域中的重要應用,成為了當代許多網路工作者所關注的話題。
一、資料探勘概述
(一)資料探勘
資料探勘(DataMining)指的是,在大量的、不規則的、隨機的、複雜的、有噪聲的實際應用資料中,獲得一些資訊和知識,能夠對使用者祈禱潛在作用的效果的過程。將資料探勘用通俗的話來描述就是在資料庫中發現潛在有用的知識發現(KDDKnowledgeDiscoveryinDatabase)。在這個定義中主要包含了以下幾方面的含義:首先資料來源的特性是大量、隨機、不規則、噪聲;資訊是客戶所感興趣的物件;選取的知識必須是在可接受、可理解、可運用的範圍內的,並不是全部符合要求的都可以,對於問題要有一定的針對性。也就是說對於所發現的知識的篩選是有一定的約束和限制條件的,同時也要符合使用者的理解和學習能力,最好還能夠用通俗的語言來表達最終的結果。
(二)Web資料探勘
Web資料探勘實際上是屬於資料探勘的範疇的。概括的來說,Web資料探勘的資料庫特定的就是Web伺服器上的資料檔案,從中發現使用者感興趣並有所應用潛能的知識。Web資料探勘主要針對的就是頁面內容、頁面之間的結構、使用者訪問資訊、電子商務等內在資訊,透過資料探勘技術來獲得有價值的資訊。Web資料和傳統資料庫存在著很大的差異,傳統的資料庫都是在一定的數學模型範圍之內的,透過模型來描述其中的資料;但是web資料庫相對來講就要複雜許多,沒有通用的模型來描述資料,每個網頁都有其獨特的資料描述方式,丙炔資料自身都是可變的、動態的。因而,Web資料雖然具有一定的結構性,不能用架構化的形式來表達,也可以稱其為半結構化的資料。Web資料的最大特點就是半結構化,加上Web資料的資訊量極大,導致整一個數據庫成為一個巨大的異構資料庫。
二、網路資料探勘的型別
(一)網路內容挖掘
網路內容挖掘的物件是網頁的內容、資料、文件,這通常也是網頁在急性搜尋的時候需要考察的訪問物件。由於網路資訊繁多,按照資訊源的不同可以劃分為Gopher、FTP、Usenet等已經隱藏到WWW形式之後的資源,我們稱之為WWW資訊資源,儲存於資料庫管理資訊系統中的資料,以及不能直接訪問的私人資料。按照網路資源的形式又可以劃分為文字、影象、音訊、影片等資料。
(二)網路結構挖掘
網路結構挖掘的物件就是Web潛在的連結結構模式。這種型別最早出現在引文分析,在建立web自身的連結結構模型的時候借鑑了網頁連結和被連結數量以及物件。在網頁歸類的時候往往會採用這種模式,還能夠得到不同網頁間相似度及關聯度的相關資料。網路結構挖掘能夠幫助使用者在相關領域中找到最有分量的網站。
(三)網路用法挖掘
網路用法挖掘的目的'在於掌握使用者的一系列網路行為資料。網路內容挖掘、網路結構挖掘針對的都是網上的原始資料,而網路用法挖掘針對的是使用者在上網過程中的人機互動的第二手資料,主要有使用者的網頁遊覽記錄、代理伺服器日誌記錄、網頁維護資訊、使用者簡介、註冊資訊、聊天記錄、交易資訊等等。
三、網路經濟環境下資料探勘在工商管理中的運用步驟
(一)識別網站訪問者的特徵資訊
企業對電子商務網站的資料進行挖掘的第一步,就是要明確訪問者的特點,找出訪問者使用的條款特徵。訪問者特徵主要有入口統計、心理狀態和技術手段等要素。人口統計並不是一成不變的,比如家庭地址、收入、購買力等因素都會不斷改變。心理狀態指的是在心理調研中展現出的個性型別,比如對商品的選擇去世、價格優惠心理、技術興趣等。隨著訪問者數量的增加,相關資料也會不斷累積。條款的互動資訊主要包括購買歷史、廣告歷史和優選資訊。網站統計資訊是指每次會話的相關要素。公司資訊主要包括訪問者對接的伺服器所包含的一系列要素資訊。
(二)制定目標
開展網上交易的最大優勢在於企業對於訪問者的反應有著更好的前瞻性。當廠商的目標是明確且具象的時候,就能夠透過資料探勘技術得到較好的效果。企業通常可以設定以下的目標:網頁訪問者的增加量;類此網頁訪問的瀏覽時間增加;每次結賬的平均利潤;退換貨的減少;品牌知名度效應;回頭客的數量等等。
(三)問題描述
開展電子商務的企業最關鍵要面對的一個問題就是如何進行商品的傳播,要實現網頁的個性化又要將商品的資訊完整的展現給顧客,就需要了解同一類訪問者的共有特徵、估計貨物丟失的資料並預測未來行為。所有這一切都涉及尋找並支援各種不同的隱含模式。
(四)關聯分析
對顧客大量的交易資料進行關聯規則分析,能夠發現顧客購買組合商品的趨勢。關聯分析指的是在一次瀏覽或者會話中所涉及到的商品,也叫做市場分析。若電子商務網站能夠將這些商品放在同一個網頁中,就能夠提高顧客同時購買這些商品的機率。如果在關聯的一組商品中有某一項商品正在進行促銷,就能夠帶動其他組合產品的銷量。關聯也能夠用在靜態的網站目錄網頁。在這種情況下,網站排序的主要依據是廠商選擇的且是網站所要檢視的第一頁內容,將其以及其相關的商品資訊放在網頁的首頁。
(五)聚類
聚類指的是將具有相同特徵的商品歸為一類,將特徵平均,以形成一個“特徵向量”。聚類技術能夠確定一組資料有多少類,並用其中一個聚類來表示其餘大多數資料。通常在企業分析訪問者型別的時候使用聚類技術。
(六)決策樹
決策樹描繪的是都想決定在做出的一系列過程中的問題或資料點。比如做出購買電視機這一決定就要經歷對於電視機的需求、電視機的品牌、尺寸等等問題,最終確定好買哪一臺電視機為止。決策樹能夠較一個決策過程進行系統的排序,以便選出最優的路徑來儘可能減少決策的步驟,提高決定的質量和速度。許多企業將決策樹體系新增到自己的產品選擇系統中,能夠幫助訪問者解決特定問題。
(七)估計和預測
估計是對未知量的判斷,預測是根據當前的趨勢做出將來的判斷。估計和預測使用的演算法類似。估計能夠對客戶空白的專案做到預判。如果網站想知道某個訪問者的收入,就可以透過與收入密切相關的量估計得到,最後透過與其有相同特徵的訪問者的收入來衡量這個訪問者的收入和信用值。預測是對未來事項的判斷。尤其是在某些個性化網頁中顯得尤為重要。企業透過資料的彙總增進對客戶的瞭解。即使是對以往事件的分析中也可以得到有效的資訊。預測能夠對訪問者的特徵作出總結和彙總,以便企業能夠找出更有針對性的組合商品來滿足客戶的需求。Web資料和傳統資料庫存在著很大的差異,最大特點就是半結構化,加上Web資料的資訊量極大,導致整一個數據庫成為一個巨大的異構資料庫。能夠幫助使用者在特性是大量、隨機、不規則、噪聲的資訊中發現感興趣的物件。