張瑾
(鄭州輕工業學院圖書館,河南鄭州450002)
關鍵詞:BP網絡;論文分類;特征提取
摘要:文章將改進BP網絡應用到期刊論文的分類領域中。該方法根據中文期刊論文的特點選擇題名、摘要及關鍵詞作為特征項的來源,計算特征項的權值,設定閥值對特征項向量進行降維處理,最后利用BP神經網絡對不同的閥值分別進行分類實驗,比較其效果。
中圖分類號:TP391文獻標識碼:A文章編號:1003-1588(2014)05-0061-03
收稿日期:2014-03-11
作者簡介:張瑾(1970-),鄭州輕工業學院圖書館館員。
1序言
1960年,Maron發表了第一篇自動分類文章,將貝葉斯定理運用于文本自動分類,標志著自動分類技術的正式產生[1]。1998年,JoachimsT將支持向量機算法應用于文本自動分類[2],Yang Y.和Chute C.G兩位學者提出了 K鄰近的分類方法[3]。相對于國外,國內的文本自動分類研究起步相對較晚,基于機器學習技術的自動分類也是目前我國文本自動分類領域的主流。國內學者的研究對象主要是中文文本自動分類,國內學者學習并應用了各種分類算法,并根據中文的特點構建了我國的中文文本自動分類體系[4]。劉鋒將徑向基神經網絡模型應用到了XML文本的自動分類中[5]。胡清華提出了可變精度的粗糙集模型,引入精度的概念,提高了處理不一致信息的能力[6]。
筆者將文本分類技術應用到期刊論文的自動分類中,根據期刊論文的特點,在選擇數據上進行改進,同時對傳統的BP網絡算法進行改進,構建分類系統,從大規模期刊論文中提取分類的信息,并驗證其分類的可行性。
2期刊論文分類的問題描述
期刊論文分類的任務是:在給定的分類體系下,根據論文的主題自動確定論文的類別。從數學角度看,期刊論文分類是一個映射過程,它將未知分類的論文映射到已有的類別中。該映射可以是單映射,也可以是一對多映射。筆者為了簡化問題,采用一對一映射。
論文分類的映射規則是系統根據已經掌握的每個類別的很多樣本數據信息,總結出分類規律而產生的分類規則,完成分類器的構建。輸入未知類別的論文,根據分類規則確定其相應的類別。
3數據預處理
3.1空間模型
為了使計算機能夠自動分類,必須先將論文轉換為計算機可以識別的格式,筆者采用向量空間模型(即VSM)。其基本思想是以向量模式表示一篇論文:(W1,W2,W3,…,Wn),其中Wi為第i個特征項的權重。
論文在結構上由題名、作者、摘要、關鍵詞及正文等組成,筆者認為這些信息中能夠為論文分類提供依據的有題名、摘要和關鍵詞。筆者采用中國科學院計算技術研究所研制的漢語詞法分析系統ICTCLAS (Institute of puting Technology,Chinese Lexical Analysis system ) ,對題名和摘要進行分詞,然后進行停用詞剔除,將得到的詞語和關鍵詞一起組成特征項。
在文本自動分類研究中,計算特征項的權值時一般采用TF-IDF算法來計算,筆者采用另外一種方式計算特征項權值,即特征項出現在題名中時其權值為3,出現在關鍵詞中權值為5,出現在摘要中權值為2。在正常情況下特征項在題名中重復的概率很低,故不考慮出現的頻率。但在摘要中的特征項重復的概率較高,頻率為m,在計算特征權值時,其權值為2*m。因特征項可能即出現在題名中又出現在關鍵詞或摘要中,此時設定權值取最大值。
3.2特征提取
對期刊論文進行向量空間表示之后,特征空間的維數會很大,因此必須進行特征抽取。特征抽取可以降低空間維數,簡化計算,防止過度擬合。特征抽取常用的方法有:文檔頻率法、信息增益、相互信息法和x2統計法等。筆者采用一個新的方法即設定一個閥值,剔除小于閥值的特征項,保留大于閥值的特征項。
3.3期刊論文類別
目前中國知網的期刊論文的類別是依據《中國圖書館分類法》進行人工標引獲得的分類號。《中國圖書館分類法》共分5個基本部類、22個大類。采用漢語拼音字母與阿拉伯數字相結合的混合號碼,用一個字母代表一個大類,以字母順序反映大類的次序,在字母后用數字作標記。為適應工業技術發展及該類文獻的分類,對工業技術二級類目,采用雙字母。例如:分類號TP391代表信息處理(信息加工)。
4改進BP神經網絡分類器
傳統BP網絡具有思路清晰、結構嚴謹、工作狀態穩定、可操作性強等特點,并且由于隱層節點的引入,使得一個三層的非線性網絡可以以任意精度逼近任何連續函數,從而在模式識別、非線性映射、復雜系統仿真等許多領域得到廣泛應用。但存在幾個缺陷[7]:①傳統的BP網絡既然是一個非線性優化問題,這就不可避免地存在局部極小問題。②學習過程中,學習速度緩慢,易出現一個長時間的誤差平坦區,即出現平臺。其原因主要是其算法中網絡權值以及閾值的每次調節的幅度均以一個與網絡誤差函數或對其權值導數大小成正比的固定因子進行。