跳至內容

Lucene

出自Taiwan Tongues 台語維基
這是此頁批准,以及是最近的修訂。

Lucene是一套用佇全文檢索佮搜揣的開放原始碼程式庫,由 Apache 軟體基金會支援佮提供。Lucene 提供一个簡單煞強大的應用程式介面,會當做全文索引佮搜揣。Lucene 被廣泛應用來揣方面的標準基礎庫。

Lucene 這馬予移植到其他的程式語言,包括講 Object Pascal、Perl、C #、C + +、Python、Ruby 和 PHP。

歷史

Doug Cutting 佇一九九九年編寫矣 Lucene,伊是一位資深的全文索引及檢索專家,曾經是 V-Twin 搜揣 ia̋n-jín 的主要開發者,後來佇咧 Excite 擔任高級系統架構設計師,目前從事佇一寡網際網路底層架構的研究。伊貢獻出 Lucene 的目標是為各種漢小型應用程式加入全文檢索功能。Lucene 上早會當對 SourceForge 網站的頭頁下載,伊佇二空空一年九月加入 Apache 軟體基金會的 Jakarta 開源 Java 產品家族,並且二空空五年二月成做獨立的頂級 Apache 專案。Lucene 這个名是 Doug Cutting 牽手的中央名,嘛是伊外祖母的名。

Lucene 往過有包含真濟子的專案,比如講 Lucene . NET、Mahout、Tika and Nutch。這三个這馬已經成做獨立的頂級 Apache 專案。

二空一空年三月,Apache Solr 等服器搜揣作為 Lucene 子專案加入,合併矣開發者社群。

四四配空版佇二空一二年十月十二號釋出。

二空二一年三月,Lucene 改矣 logo,Apache Solr 閣再成做頂級 Apache 專案,獨立於 Lucene。

功能佮常見用途

雖然理論上 Lucene 適用佇啥物需要全文索引和搜揣功能的應用程式,但是主要是因為佇咧 Internet 搜揣 ia̋n-jín 和在地單站點來搜揣實現中的實用性受著認可。

Lucene 包括基於編輯距離執行霧嗄嗄的功能。

Lucene 嘛予人用佇咧實現推薦系統。比如講,Lucene 的'MoreLikeThis'類會當生做相𫝛文件的推薦。咧將「MoreLikeThis」是因為向量的相𫝛性方法佮基於參照的文件相𫝛性度量(親像共引佮共引鄰近度分析)進行較久,Lucene 的方法佇咧推薦有誠相𫝛的結構特徵佮閣較狹相關性的文件頂懸表現出色。比並之下,是因為參照的文件相𫝛性度量欲往往閣較適合推薦閣較廣泛相關的文件。

是因為 Lucene 的項目

Lucene 本身干焦一个索引和搜尋庫,無包含𬦰取和 HTML 解析功能。猶毋過,以下的專案擴充矣 Lucene 的功能:

  • Apache Nutch—提供誠熟可用的網路爬蟲
  • Apache Solr—是因為 Lucene 核心的高效能搜揣侍服器,提供 JSON / Python / Ruby API
  • Compass–Elasticsearch 較早是身
  • CrateDB–是因為 Lucene 構建的開源分散式 SQL 資料庫
  • DocFetcher—跨平台的本機檔案走揣桌面程式
  • Elasticsearch—企業揣平台,目的是組織資料並使其𠢕取得
  • Kinosearch–用 Perl 和 C 語言實現的搜揣 ia̋n-jín 佮 Lucene 的移植。Socialtext wiki 和 MojoMojo wiki 攏咧使用矣這一搜揣 ia̋n-jín。伊佇人類代謝物組資料庫(HMDB)佮毒素佮毒素目標資料庫 ( T 三 DB ) 中亦有應用。
  • MongoDB Atlas Search–是因為 MongoDB 和 Apache Lucene 的雲原生企業揣來應用程式
  • OpenSearch–是因為 Elasticsearch 七的開源企業級佇咧等服器
  • Swiftype—是因為 Lucene 的企業級搜揣
  • Lucene . NET—提供予 . Net 平台使用者的 Lucene 類別館的封裝
  • Apache Lucy—為動態語言提供全文搜揣的能力,是 Lucene Java 庫的 C 介面
  • Luke—Java 編寫的使用者介面用於編輯 Lucene 的索引,這个案件已經停止開發

參見

  • Solr-使用 Lucene 的企業佇咧等服器,亦由 Apache 軟體基金會所研發。

參考資料

外部連結

  • Lucene homepage
  • Article " Behind the Scenes of the SourceForge . net Search System " by Chris Conrad
  • Schmidt , Marco . Lucene Wikipedia indexer . 兩千空五 [二千空二十一孵二孵七] .(原始內容存檔佇兩千空六五五). Introductory article with Java code for search
  • Simple Lucene Examples
  • Apache Lucene popular APIs in GitHub