孫憶華
(河南省圖書館,河南鄭州450052)
關鍵詞:圖書館學;CNKI;碩士學位論文;選題方向
摘要:對CNKI數據庫中的優秀碩士學位論文全文數據庫中的文獻進行統計,再運用詞頻分析和共詞分析的方法進行分析,以此來得到圖書館學碩士學位論文選題方向,從而得出我國圖書館學碩士研究的熱點。
中圖分類號:G25文獻標識碼:A文章編號:1003-1588(2013)07-0108-03
收稿日期:2013-05-11
作者簡介:孫憶華(1965-),河南省圖書館館員。
1引言
學位論文是高等學校、科研機構的畢業生為獲得各級學位所撰寫的論文,具有選題新穎,理論性、系統性較強,闡述詳細的特點。目前,我國的學位論文類型有三種,即:學士學位論文、碩士學位論文、博士學位論文。其中的碩士學位論文有一定的深度,且見解獨到,通過對CNKI中圖書館學優秀碩士學位論文選題進行研究可以發現本專業領域的碩士學位論文的研究熱點,同時可以為后續的研究指明方向,對我國圖書館學研究也有一定的參考作用。
CNKI數據庫中的每一篇標準的論文都包含有標題、著者、摘要、關鍵詞、正文和參考文獻等這幾部分,而其中的標題和關鍵詞是一篇論文內容的高度概括和集中,能夠代表著者寫作的方向和意圖。所以在某一個時間段內,采用一定的方法和技巧取得CNKI中圖書館學優秀碩士學位論文的標題和關鍵詞集。對關鍵詞出現的次數做統計,再通過對關鍵詞的處理后得到一個關鍵詞出現次數的排序表,然后對高頻的關鍵詞做初步分析。接著統計高頻關鍵詞兩兩之間的關系,列出共詞矩陣并根據共詞矩陣畫出高頻關鍵詞之間的網絡圖譜,再對高頻關鍵詞進行歸類分析就可以得出我國圖書情報學科碩士論文寫作的主題,從而得到圖書情報學科碩士研究的一些熱點問題。
2數據選擇
2.1數據庫及樣本的選擇
筆者通過對2006年~2010年間CNKI中優秀學位論文庫中所收藏的圖書情報專業(圖書館學、情報學和檔案學)的優秀碩士學位論文(標題、關鍵詞)做出統計分析,從而得出我國圖書館學碩士學位論文的選題方向。數據庫選擇2006年~2010年的CNKI中的優秀學位論文數據庫的原因主要有以下幾點:首先, CNKI的信息內容是經過深度加工、編輯、整合、加工后以數據庫形式進行有序的排列,內容標有明確的來源、出處、價值,具有一定的可靠性和參考性,比如:各類期刊雜志、報紙、博士碩士論文、會議論文集、各類圖書、專利文獻等。因此,CNKI的內容均有很高的文獻收藏價值和參考使用價值,更是學術研究、科學決策的依據。其次,據CNKI優秀學位論文庫中的信息顯示,全國設置圖書、情報和檔案學碩士學位點的院校和專業研究機構共有68家,其擁有的導師多為圖書情報檔案學領域的專家名士,無論在數量上還是在質量上都有一定的保證。最后,圖書情報信息都具有半衰期,其中圖書的半衰期約為6年,期刊的半衰期約為2年,由于圖書情報專業發展的速度較其他學科緩慢了一些,因此筆者認為基于CNKI期刊論文數據庫圖書情報學研究的半衰期定為5年較為合適,也就是研究的區間選擇為5年,所以筆者選擇了2006年~2010年這5年間的碩士學位論文來作為統計分析的對象。
2.2樣本采集方法
對2006年~2010年5年間優秀學位論文庫中有關圖書情報學專業碩士學位論文進行統計分析,通過第一次檢索得到關于圖情檔學的64所院校、研究機構的優秀碩士學位論文共2,903篇,其詳細收錄(見表1)。
從表1可以看出,華中師范大學、吉林大學、黑龍江大學、東北師范大學、華東師范大學等13所院校的優秀碩士論文數超過了85篇,院校數為機構總數的23.44%。而13所院校收錄的論文總數是2,116篇,占論文總數的71.28%。基本上與文獻信息分散的“二八律”吻合,說明數據在概率分布上是有效的。對2006年~2010年在結果中進行二次檢索,得到優秀碩士學位論文共計1,993篇,占到收錄論文總數的68.65%。由于其中有些院校機構是自2006年后開始招生的,所以“68.65%”基本上符合圖情檔學論文的半衰期規律。
3樣本初步統計分析
3.1樣本統計
論文集選定后,從2006年~2010年中CNKI收集的820篇圖書情報學優秀碩士學位論文中選擇出每篇論文的主題以及關鍵詞來進行組合。再將每個關鍵詞的組合拆成獨立的關鍵詞,再利用WPS表格軟件進行統計。最后得到未經處理的原始關鍵詞總共是1,879個,出現總次數為3,458次,就是平均每篇論文都有3~4個關鍵詞。其中有36個關鍵詞出現的次數超過了10次(占總數的2.05%),總合計出現786次(占總次數的21.42%)。對所有統計表明:在信息組織中所采用的語言有受控語言和非受控語言,而采用的方法可以分為四類,即主題詞法、元詞法、敘詞法和關鍵詞法,其中前三者屬于受控語言,最后的關鍵詞法屬于非受控語言。而圖書情報優秀論文中的關鍵詞在選取的時候有一定的隨意性,是自然語言,因此屬于非受控語言。所以對所有關鍵詞的統計需要解決的問題有三個:第一個是用不同種類語言進行標記的關鍵詞,如:“博客”與“Blog”、“圖書館2.0”與“Library 2.0”等;第二個是語義相同而字面不同的關鍵詞,如:“高校圖書館”與“大學圖書館”、“語義網”與“語義網絡”、“知識產權”與“版權”等;第三個關鍵詞雖然出現頻次較高但沒有實際的意義,需要刪除,如:“學會”、“讀者服務”及“閱讀”等。