一種靈活的網路學習行為資料採集與分析系統論文
摘要:網路學習正在日益興起,在多樣化的教與學過程中充分利用網路上日益豐富的學習資源,滿足不同層次求學者的需要。對網路學習中學習者的各項學習行為進行分析,從中找出學習者群體的特徵和個體的特點,從而幫助教育者促進網路教與學的建設是目前迫切學要解決的問題。本文結合當前主流的學習行為資料採集和分析的方法的優點和不足,提出了一種基於資料流獲取的網路學習行為資料採集與分析的方案,詳細介紹了資料採集和資料分析的方法,並探討了實現這套方案的軟體系統設計。該軟體系統具有較強的靈活性和實用性,能夠幫助學習者和教育者進行更加有效網路教與學。
關鍵詞:網路學習;學習行為資料採集;學習行為分析;資料流獲取;文字挖掘
1.引言
現代教育教學除了傳統的課堂教學和實踐培訓外,越來越多地採用了網路學習的方式。網路學習可以分為兩種型別,一種是集中式網路學習,比如遠端網路教育以及企事業內部網路的業務培訓;一種是發散式網路學習,比如在學生在網際網路上廣泛、分散地查閱資料等自主學習。不論哪一種方式的網路學習都能在多樣化的教與學過程中,充分利用網路上日益豐富的學習資源,滿足不同層次求學者的需要。
對網路學習中學習者的各項學習行為進行分析,從中找出學習者的學習規律,可以幫助教育者不斷修正目前還不成熟的網路學與教,促進網路教育的建設。
對網路學習者的學習行為進行分析,首先需要採集學生在網路學習過程中的學習行為資訊資料,然後對這些資料進行整合、分類和分析。目前,基於計算機和網路平臺的網路學習行為資料採集與分析的常用方法主要有兩類,一是基於Web服務(Web Services)的方法[1][2],一是基於Web日誌挖掘(Web Usage Mining)的方法[3][4]。目前,基於Web Services的方法應用較多,但這種方法也存在比較明顯的不足,主要是:只能得到在該網站進行學習的註冊學習者的學習行為資料,並對他們的學習行為進行分析,具有侷限性;這樣的系統開發要與網站程式的設計以及資料庫設計同步進行,才能做到無縫整合,專用性強,靈活性較差。Web Usage Mining的不足在於Web日誌和客戶端資料不容易得到,即使得到了,也和Web安全的相關原則有衝突,而且這些資料都是學習者透過該Web伺服器時留下的,同樣存在侷限性。
透過實際對比分析和研究發現,如果能結合上述兩者,就將是一種比實用的解決方案。本方案的基本思路是:在伺服器或閘道器上使用netmate進行資料流捕獲,然後處理並輸出為文字,然後使用文字挖掘的成熟演算法進行處理,得到網路學習者學習的特點、偏好等學習規律,幫助教育者進行教育學分析,從而有效地指導網路學習和教學的建設。
2.學習行為資料採集
學習行為資料的採集是進行學習行為分析的前提,是整個方案的基礎。學生網路學習行為資料的採集是一種基於開源軟體netmate的資料流自動獲取,這種方式很容易對流經節點伺服器或閘道器的資料流進行實時獲取,然後回根據netmate提供的介面,生成文字已備後續的文字處理。
2.1資料流獲取
資料流獲取是網路學習行為資料採集的第一步。這種獲取是實時的、基於隨機樣本的,由於樣本容量可以取很大,即使出現丟包的情況,也能夠接近實際情況。由於經過節點伺服器或者閘道器的資料流既有流入的也有流出的,因此既能夠獲取到學習者在站或者內部網路上的集中式學習的行為資料,又能夠獲取到學習者透過伺服器或閘道器進入網際網路絡的發散式學習的行為資料。由此可見,這樣的基於資料流的網路學習行為資料採集能夠滿足前述兩種主要的網路學習方式。
首先要在節點伺服器或者閘道器計算機上安裝好netmate及配套的庫(libpcap、readline),然後根據資料獲取的需求在配置檔案(netmate.conf.xml)中進行配置,主要是根據需求制定自己的規則(rule)。在netmate工作過程中,根據制訂好的規則,會將獲取到的資料流以指定的形式進行輸出。
由於netmate部署的位置可以根據需要而改變,獲得的文字可以透過傳送工具傳到指定的目的主機,因此具有很強的靈活。在集中式網路學習中,如果獲取點在遠端教育網站上,則可以獲取在該網站學習的所有學習者的學習資訊,如果獲取點在校園網的Web伺服器上,就可以獲取該校校園網路學習資源的利用情況;在發散式網路學習中,如果獲取點在校園網的網路伺服器上,就可以獲取全校學生在網際網路上的學習情況,如果獲取點在某個院系的`閘道器伺服器上,就可以獲取該院系的學生在實驗室在各個時段的網路學習情況。
3.學習行為的文字挖掘
文字挖掘也被稱作文字資料探勘,是指從文字中得到高質量的、事先未知的、可理解的資訊的過程。在得到透過節點伺服器的資料文字後,就可以進行文字分類,從中找出網路學習行為的特點以及一些規律。
3.1文字預處理
在進行文字分類之前,須先對文字文件進行預處理,並將資訊存放在比文字資料更適合處理的資料結構中。對英文單詞而言,動詞的不同時態一般在動詞後加字尾表示(ing或ed),而單詞的基本意義還是在原形式上,這時就需要進行詞根還原,將一個詞加字尾後的形式還原為它們基本形式。對中文文字的理解在於正確地斷句,由於中文詞與詞之間沒有空格,因此在進行中文文字挖掘之前,需要對文字進行分詞處理,把中文的漢字序列切分成有意義的詞。
在預處理的末期,將得到非常巨大的向量空間,這時需要進行特徵降維處理。由於不同的標準對同一學習行為的界定原本就不是很明確,因此採用了卡方統計(CHI)演算法進行特徵選擇,接下來採用聚類方法進行特徵提取。
3.2文字分類
在特徵降維之後,應用分類器對文字分類。目前的分類器大致可分為兩類:基於統計的分類器和基於語義的分類器。基於統計的方法中,成熟的有中心法,樸素貝葉斯,支援向量機。基於語義的有決策樹等。透過比較演算法實現的難度和演算法能達到的精度,本案採用了基於統計的分類器,透過支援向量機演算法來實現。
4.採集和分析系統的設計
透過前面的描述,對本案採集和分析系統進行了詳細地分析。
系統的軟體設計結合前述採用的演算法和工具,自行開發的一些軟體模組,從而構成一個比較完整的採集和分析系統。軟體的結構如圖1所示。系統採用客戶機/伺服器模式,資料流獲取與傳輸模組作為客戶機端模組,部署在獲取點計算機上,其餘模組作為伺服器端模組,部署在文字處理和分析的主機上。
4.1資料流獲取與傳輸模組
資料流獲取與傳輸負責對網路學習行為資料進行廣泛的採集,然後將資料傳輸到指定的主機上。如前所述,資料流獲取透過netmate進行,當配置為text輸出時,就會取得需要的資料流文字。考慮到當前網路基本都是高速的,在獲取資料流的過程中對伺服器的需求已經很高,因此,將這些文字資料傳輸到遠端主機的學習行為樣本庫中,然後再進行離線處理和分析工作。遠端傳輸部分採用多執行緒的TCP套接字實現。recConfig也採用多執行緒的TCP套接字實現,用來接收來自於遠端主機上Configer的引數,對採集端的配置引數進行修正,然後重啟netmate和remTrans。
4.2學習行為樣本庫
學習行為樣本庫存放從各個獲取點得到學習行為資料樣本,並以文字檔案形式存放。樣本庫中的文字根據其採集時間或者指定來源進行簡單檢索4.3文字分析模組文字分析模組負責對學習行為樣本庫中的文字進行分析,包括文字預處理(Preproceed)、文字分類(Classify)、輸出(Export)和模式調整(RecModify)四個部分。PreProceed和Classify如前面敘述所設計。Export負責把經過分類的文字資料輸出為Weka的資料格式,或者直接把各分類的資料統計結果輸出到螢幕。RecModify接收來自Modifer的模式調整引數,並重啟PreProceed和Classify,以便對文字挖掘的調整馬上生效。
4.4視覺化顯示模組
視覺化顯示模組主要是利用Weka工具提供的視覺化功能,對文字分析的結果進行顯示,或者做進一步的關聯規則分析並可視化輸出。
4.5執行控制模組
執行控制模組主要負責系統執行期間對資料獲取和文字分析兩個模組的執行引數作調整,以便系統能夠靈活處理需求變化。其中,Configer針對netmate配置檔案和遠端傳輸地址進行調整,為多執行緒TCP伺服器套接字設計;Modier對文字預處理和文字分類的模式進行調整。
結束語
本文提出了一個比較靈活的網路學習行為資料採集和分析系統,採用了開源軟體工具和成熟的演算法,在此基礎上進行軟體設計,從而實現網路學習行為資料採集和學習行為的分析。遠端傳輸模組的設計大大方便了對學習行為分析的本地化,在每個階段都設計了相應的反饋和調整模組使得系統在執行過程中能適應具體環境。系統還處在試驗的階段,下一步將繼續完善與改進,除了分類演算法改進外,結果視覺化也需要改進。
參考文獻:
[1]Karin Anna Hummel,Helmut Hlavacs Anytime.AnywhereLearning Behavior Using a Web-Based Platform for a University Lecture.[EB/OLD.www.ani.univie.ac.at/hlavacs/publications/ssgrr_winter03.pdf,2006-3-1]
[2]呂莉,張屹.基於Web服務的網路學習行為採集研究現狀[J].開放教育研究,2009(15)
[3]Chien-Sing Lee and YashwanL Prasud Singly.Student modelingusing Principle component analysis of SOM clusters.Proceedings of theIEEE International Conference on Advanced Learning Technologies,2004
[4]黎孟雄.基於Web挖掘的遠端教學質量跟蹤系統設計[J].河南科技大學學報,2007(28)
[5]黃克斌,王鋒,王會霞.智慧化網路學習行為分析系統的設計與實現[J].中國教育資訊化,2008(3)