<progress id="pltbd"></progress><cite id="pltbd"><span id="pltbd"><ins id="pltbd"></ins></span></cite><strike id="pltbd"><dl id="pltbd"></dl></strike><strike id="pltbd"><i id="pltbd"><del id="pltbd"></del></i></strike>
<strike id="pltbd"></strike>
<strike id="pltbd"><dl id="pltbd"><del id="pltbd"></del></dl></strike>
<strike id="pltbd"><dl id="pltbd"><del id="pltbd"></del></dl></strike>
<strike id="pltbd"><i id="pltbd"><del id="pltbd"></del></i></strike>
<strike id="pltbd"></strike>
<strike id="pltbd"></strike><strike id="pltbd"></strike>
<strike id="pltbd"><dl id="pltbd"><del id="pltbd"></del></dl></strike><strike id="pltbd"></strike>
<span id="pltbd"></span>
<span id="pltbd"><video id="pltbd"></video></span>
<strike id="pltbd"></strike>
<strike id="pltbd"></strike>
<strike id="pltbd"></strike>
<ruby id="pltbd"><video id="pltbd"><del id="pltbd"></del></video></ruby>
<th id="pltbd"><video id="pltbd"></video></th>
基于聚類算法的圖書館書目推薦服務 http://www.liqianming.com http://www.liqianming.com/LunWen/2017-02-02/94167.html 潘小鳳(南京化工職業技術學院圖書館,江蘇 南京 210048)[摘 要]介紹了數據挖掘中聚類算法的定義、功能及常用算法,并根據南京化工職業技術學院的實際情況,構建數據源,設計基于聚類算法的圖書館書目推薦服務。[關鍵詞]圖書館 數據挖掘 聚類算法[分類號]G250.7目前國內圖書館信息化水平有了較大提高,積累的業務數據成幾何級數增長,數據庫中存在的大量信息為數據挖掘提供了前提條件。但如何開發利用這些閑置的數據,分析內部關聯關系,將隱含在其中的有潛在利用價值的數據進行重新組合,轉化為有用的信息和知識,值得我們

基于聚類算法的圖書館書目推薦服務


  • 時間:2017-02-05 13:49:17
  • 來源:本站發布
  • 作者:潘小鳳

潘小鳳

(南京化工職業技術學院圖書館,江蘇 南京 210048)

[摘 要]介紹了數據挖掘中聚類算法的定義、功能及常用算法,并根據南京化工職業技術學院的實際情況,構建數據源,設計基于聚類算法的圖書館書目推薦服務。

[關鍵詞]圖書館 數據挖掘 聚類算法

[分類號]G250.7

目前國內圖書館信息化水平有了較大提高,積累的業務數據成幾何級數增長,數據庫中存在的大量信息為數據挖掘提供了前提條件。但如何開發利用這些閑置的數據,分析內部關聯關系,將隱含在其中的有潛在利用價值的數據進行重新組合,轉化為有用的信息和知識,值得我們深入探討。

1 數據挖掘在圖書館個性化服務中應用的現狀

數據挖掘(又稱知識發現)是一種探索性數據分析技術,借助這項技術,能夠圍繞個性化服務對讀者行為、文獻資源利用等進行分析,以提高數字資源的使用效率以及師生對圖書館個性化服務的滿意度。

國內數據挖掘技術在讀者個性化服務中的應用研究成果頗為豐富,通過對師生讀者信息、借閱查詢信息和網站訪問信息等進行挖掘,例如建立個性化服務模型、為參考咨詢提供依據以及在“云圖書館”中的應用等;國外相關研究則體現在基于圖書館個性化服務的算法、用戶分類、文獻檢索及推薦、管理與決策支持、應用開發[1]這幾方面。

盡管基于數據挖掘的圖書館個性化服務研究成果不少,但仍存在諸多不足。

①對“數據孤立子”研究還不夠。目前對數據主要采取降噪或者刪除無關屬性等方法,把原本可利用的數據丟棄。“數據孤立子”產生原因很多,部分原因在于系統設計的缺陷,或者用戶業務熟悉程度不夠,或者特殊的業務場景。對于孤立子數據可以具體情況具體分析,通過信息反饋等手段補齊數據;也可以考慮完善數據庫設計,從數據挖掘角度出發,在不增加用戶負擔的情況下,盡可能多地收集信息,通過不斷修改而達到完善。

②數據挖掘算法的效率、成本和可擴展性問題。數據挖掘是直接面向海量數據庫系統和大型文件的,這類數據庫通常有大量屬性和海量的數據記錄,一般數據表之間包含復雜的關系,這就必然導致在數據挖掘過程中其搜索的維數和搜索空間的量激增,也增加了諸多不確定性和出現錯誤模式的可能性。提高算法的效率、具有規模收縮性是在實際應用中遇到的一個重要挑戰[2]。

③實踐層面研究成果不足。個性化數據挖掘需要懂圖書館業務、懂挖掘算法、掌握數據挖掘技術的人來實現,高校圖書館此類人才相對不足,實踐創新能力不足。

2 數據挖掘的聚類算法

圖書館數據挖掘是從圖書館的大型數據庫和網站信息中分析、發現并提取有用的信息,目的是幫助圖書館工作人員尋找業務數據間潛在的聯系,發現被忽略的要素,而這些信息對提供個性化服務非常必要[2]。

從國內外目前的研究進展來看,“現有的數據挖掘方法和技術可以分為6大類:①歸納學習方法;②仿生物技術;③公式發現;④統計分析方法;⑤模糊數學方法;⑥可視化技術”。在圖書館個性化服務的挖掘關系較為密切的算法有:分類、聚類、關聯、偏差分析、時序模式、預測等。

其中,聚類算法(Cluster algorithm)存在模式(Pattern)概念是一個度量的向量,或為多維空間中的一個點,而聚類算法由若干模式構成;聚類的基礎為相似性,相同聚類的模式比其他聚類的模式存在一定的差異。

所謂聚類就是對象進行集合,并組成具有相似性的對象組(類)或簇的過程。即生成的類是一組數據對象的集合,同一類中的對象相似,不同類中的對象相異,通過聚類可發現數據集中的數據分布特征。

圖書館業務數據中,通過聚類方法能從用戶基本信息中發現不同類型的人群,并且可以用來刻畫不同人群的基本特征。聚類算法還可以應用在數據挖掘算法的預處理環節,對聚類后的數據進行其他的研究和處理。

聚類分析的主要方法有:分割聚類、層次聚類、基于密度聚類、基于網格聚類和基于模型聚類。而分割聚類算法通過給定一個有N個元組或者記錄的數據集,把對象按照最相似特征值劃分到不同的類,通過反復迭代對產生的類進行不斷調整,最終達到最優目的。具有代表性的兩大類計算方法如下:①k-means算法。其主要特點是在完成每一次的對象劃分后,以每個類的所有對象特征值的平均值作為該簇新的中心,直到所有的類不再變化。②k-medoid算法。每個類的中心以最接近聚類中心的對象來表示,k-medoid的典型算法有PAM、CLARANS等。分割聚類在大小和密度相似的情況下,能取得較好的聚類效果[3]。

回到頂部

亚洲精品在线播放