欒旭倫
(淮陰師范學院國有資產管理辦公室,江蘇淮安223300)
關鍵詞:情報學研究熱點;詞頻分析;聚類分析
摘要:筆者利用關鍵詞對中國知網《中國優秀碩士學位論文全文數據庫》中所收錄的2008年~2012年間的1,503篇情報學碩士論文進行了詞頻分析,得到了近5年碩士學位論文的高頻關鍵詞,在對其進行共現聚類的基礎上,總結出了情報學近年來的研究熱點。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2013)11-0104-03
收稿日期:2013-09-26
作者簡介:欒旭倫(1982-),淮陰師范學院國有資產管理辦公室副主任科員。
碩士學位論文的發表狀況常被認作是衡量學科發展水平和科技產出的一項重要指標[1]。筆者通過詞頻統計方法和關鍵詞共現聚類方法,對近五年的情報學碩士學位論文進行了詞頻分析,得出了情報學近年來的研究熱點,揭示了情報學的研究現狀。
1數據處理、數據來源及研究方法
文章所采用的研究數據來源于中國知網的《中國優秀碩士學位論文全文數據庫》。以“學科專業名稱”等于“情報學”、畢業時間為“2008年至2012年”為檢索條件,共檢索到情報學碩士學位論文1,503篇。其中2008年284篇、2009年299篇、2010年346篇、2011年280篇、2012年244篇。檢索到的論文單位包含了中國知網上收錄的全部情報學碩士點的院校和科研機構。從檢索到的碩士學位論文中提取作者、學位論文標題、授予學位年代、導師、關鍵詞、摘要等信息,建立文章研究的題錄信息數據庫。
文章采用關鍵詞詞頻方法、關鍵詞共現方法和內容分析法進行研究。通過對5年間各關鍵詞出現的頻次和總頻次的統計,得出高頻關鍵詞。再利用詞頻共現的方法對高頻關鍵詞進行聚類研究,通過聚類結果內容分析來揭示情報學的研究現狀。
2關鍵詞年度頻次分析
詞頻統計(Word Frequency Count)是通過統計一定長度的語言材料中每個詞出現的次數,分析統計結果,來確定某領域研究熱點和發展動向的文獻計量方法[2]。筆者使用武漢大學POST統計軟件中的中文詞統計功能對獲得的情報學碩士論文關鍵詞進行統計分析,選取出現頻次為12次以上的關鍵詞作為分析對象,得到的統計結果如下:
2008年~2012年情報學碩士論文關鍵詞出現次數最多的是“知識管理”“競爭情報”“本體”“高校圖書館”“圖書館”“指標體系”和“數字圖書館”。其中“知識管理”“競爭情報”和“指標體系”是情報學自己獨有的研究領域,特別是指標體系中與情報計量有關的指標體系和信息經濟學中的宏觀指標體系,情報學中的“本體”研究則是對信息檢索方法的深化。“高校圖書館”“圖書館”和“數字圖書館”反映了情報學與圖書館學的聯系,情報學也將圖書館及圖書館服務作為自己研究的一個方向,促進了文獻信息服務水平的不斷提高。從關鍵詞出現頻次由高到低的趨勢,可以看出情報學的研究內容逐步走向寬泛。具體詞頻情況見表1。
3關鍵詞共現聚類分析
通過對高頻關鍵詞進行共現聚類分析可以對情報學的研究熱點進行整體的揭示。如果兩個關鍵詞在一篇學位論文中共同出現則共現次數為“1”,若它們在n篇學位論文中共同出現則共現次數為“n”。筆者將頻率大于11的67個高頻關鍵詞在學位論文中的共現情況進行記錄,轉換為關鍵詞詞篇矩陣。筆者用SPSS統計分析軟件對數據進行層次聚類,選擇“類內連接法”(Within-groups linkage),利用二值方法進行聚類,取用Ochiia系數得到聚類分析圖,通過聚類分析圖,可以把近五年來情報學的研究熱點概括為8大類,每個大類表示一個研究熱點。
3.1文獻計量學與數據挖掘
文獻計量學一直是情報學的一個重要的研究方向,特別是各類文獻數據庫的出現,在數據挖掘方法的帶動下,不少論文開始用文獻計量學的方法分析情報等各個學科的學科結構,比如:中南大學的魏海燕用引文分析的方法對情報學與相關學科進行了研究,得出了它們之間知識的相互轉移、知識吸收、知識擴散和主題交叉情況[3];重慶大學的侯筱蓉將新的引文分析方法應用到專利分析中,通過引文路徑分析來勾勒專利技術演進圖,將得到的結果利用到具體的醫用內窺鏡技術中,并成功預測了其發展趨勢[4]。