冷玥
(北京大學信息管理系,北京100871)
關鍵詞:全文搜索引擎;檢索幫助;改進;建議
摘要:針對目前全文搜索引擎的檢索效率低,引擎提供的檢索幫助不夠完善的實際情況,結合并借鑒諸多檢索網站的優點,提出了將檢索幫助置于顯見位置、普及和改進高級檢索、在全文檢索中引入分類體系、對搜索引擎的信息來源網站進行主題分類、增加同義詞的檢索幫助以及引導用戶參與設計檢索幫助等方面的改進建議。
中圖分類號:G252.7文獻標識碼:A文章編號:1003-1588(2012)03-0031-03
隨著以百度、Google為代表的全文搜索引擎在人們生活中扮演愈加重要的角色,人們也提出了在使用全文搜索引擎進行檢索過程中遇到的一些實際問題。其中,檢索效率低,需要全文搜索引擎提供更加有效的檢索幫助是一個突出的問題。
1全文搜索引擎的工作原理
全文搜索引擎是真正意義上的搜索引擎,全文搜索引擎的數據庫是通過一個叫“網絡機器人(英文為Spider)”的軟件,將網絡上的各種鏈接自動獲取大量的網頁信息,并按一定的規則分析整理而形成的。全文搜索引擎的“網絡機器人”是一種網絡上的軟件,遍布Web空間,能夠掃描到一定IP地址范圍內的網站,并沿著網絡上的鏈接從一個網頁到另一個網頁,從一個網站再到另一個網站去收集網頁資料。全文搜索引擎的“網絡機器人”為保證收集到的信息資源最新、最全,還會再回訪已抓取過的網頁。“網絡機器人”收集的網頁,還要由其他程序進行分析,根據一定的相關度算法進行大量的計算建立起網頁索引,這樣才能添加到索引數據庫中。平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當用戶輸入關鍵詞進行搜索時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,并按一定的排列規則返給用戶。綜上所述,全文搜索引擎的原理主要分為三個部分:首先是從Inter上抓取網頁。利用“網絡機器人”系統程序從Inter上自動收集網頁,自動訪問Inter,并沿著任何網頁中所有的統一資源定位符爬到其他網頁,再經過多次過程重復,并把爬過的全部網頁收集起來;其次是建立索引數據庫。利用分析索引系統程序對收集起來的網頁內容進行分析,并提取有關的網頁信息,通過復雜大量的計算,算出每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度,再由這些相關的信息建立起網頁索引數據庫;最后是在索引數據庫中搜索排序。當用戶輸入關鍵詞搜索后,利用搜索系統程序從網頁索引數據庫中找出符合所輸入關鍵詞的全部相關網頁。因為全部的相關網頁對所輸入關鍵詞的相關度已經計算出來,并對結果進行了優化,然后再由頁面生成系統將搜索結果的鏈接地址和頁面內容、摘要等有關內容呈現給用戶[1-3]。
2全文搜索引擎檢索幫助存在的薄弱環節
目前,全文搜索引擎得到了快速發展和廣泛應用,其功能也越來越強大,但仍然存在著檢索效率不高的問題,雖然一些搜索引擎和一些具有檢索功能的網站設置了檢索幫助,但通過分析研究發現,全文搜索引擎檢索幫助也有很多薄弱環節,主要體現在受控較弱,很難從一個完整的分類體系的角度為用戶提供有價值的檢索幫助,也可以理解為很難將用戶的檢索范疇限制在想要檢索的信息存在的范圍內,用戶需要在返回的海量信息中尋找自己真正需要的信息。整個網絡就是一個超級大型的信息資源數據庫,而且無法用一個完整的分類體系對信息資源進行分類、分區,用戶依然需要經過對信息資源內容進行篩選,如果用戶面臨的信息資源來自較大的范圍,就不得不花大量的時間在浩如煙海的大型信息資源數據庫中進行信息的篩選。因此可以將思路鎖定于尋找一種可以縮小檢索范圍的檢索幫助之中,從對全文搜索引擎檢索幫助的分析研究中發現,對其檢索幫助進行改進和完善是必要的和可行的[4,5]。
3全文搜索引擎檢索幫助的改進建議
經分析研究,針對全文搜索引擎檢索幫助存在的薄弱環節,結合并借鑒諸多檢索網站的優點,建議從以下幾個方面對全文搜索引擎檢索幫助進行改進。
3.1將檢索幫助區域置于易見位置在分析研究過程中發現,幾家常用的全文搜索引擎的幫助選項都位于頁面的下方而且沒有用顯眼的標志進行標記,用戶一旦遇到了問題,很難發現可以求助于搜索引擎本身,而幫助中的內容,比如說選擇檢索詞的原則,模糊檢索的可能性等等,他是和用戶的檢索工作息息相關、不可分割的。因此改進檢索幫助應該包括讓用戶可以很容易地獲得需要的幫助。目前,很多用戶在使用的過程中都不知道搜索引擎存在專門的檢索幫助鏈接,只能憑借經驗進行搜索,這是一個不應該出現的現象,也應該是檢索幫助的改進方向。