August 12, 2005

全文索引引擎Lucene簡介

剛剛閱讀車東的大作 [在應用中加入全文檢索功能 ——基於Java的全文索引引擎Lucene簡介],涵蓋以下議題:
  • 基於Java的全文索引引擎Lucene簡介:關於作者和Lucene的歷史
  • 全文檢索的實現:Luene全文索引和數據庫索引的比較
  • 中文切分詞機制簡介:基於詞庫和自動切分詞算法的比較
  • 具體的安裝和使用簡介:系統結構介紹和演示
  • Hacking Lucene:簡化的查詢分析器,刪除的實現,定製的排序,應用接口的擴展
  • 從Lucene我們還可以學到什麼
相當詳細的介紹 [Lucene] 這個 Apache Foundation 下的專案計畫,同時也可以在這個 search engine 看到許多獨特的設計,比方說針對傳統 B-tree 結構的改進,再者,[關於亞洲語言的的切分詞問題(Word Segment)] 這個議題也是非常重要,作者也提到這個部份還是有改進的空間,後面的部份就是作者的 hacking,很值得一看。
由 jserv 發表於 August 12, 2005 12:46 AM
迴響

目前官方仍然不提供可以使用辭典來斷詞的 Analyzer,通常我會乾脆用 WhitespaceAnalyzer 來吃在外部斷過詞的資料。

最近同事實驗結果發現,Lucene 用 tf*idf 實作出來的效果有瓶頸,不如用 bayesian 的 Indri 來得容易調整。

b6s 發表於 August 12, 2005 11:19 AM

http://newhaven.lti.cs.cmu.edu/indri/

b6s 發表於 August 12, 2005 11:21 AM