BabelNet
BabelNet是一个多語詞彙語義網路佮本體,由羅馬薩皮恩扎大學(羅馬大學)計算機科學系的計算語言學實驗室所創建。BabelNet 是自動構建的,其將上大的多語 Web 百科全書維基百科連結到上捷用的英語計算詞典 WordNet。這款的連結整合,用自動影射的方式完成;對資源欠缺的語言所存在的詞空欠,對統計機械幫贊來補充。其結果是一个「百科詞典」,提供著濟濟的語言的概念佮號名實體,並且包括𪜶之間的豐富的語義關係。通過和免費授權使用的 OmegaWiki、英語維基詞典、維基數據、FrameNet、VerbNet 這寡語義資源建立連結,BabelNet 閣補充其他一寡詞佮定義。和 WordNet 類似,BabelNet 將無仝語言內底的詞類以同義詞集的形式來進行組織,彼个稱為 Babel synset。對著每一个 Babel synset,BabelNet 提供簡短的定義(這號做注釋), 遮的定義有足濟種語言的版本,主要是來自 WordNet 佮維基百科。
BabelNet 的數據統計
節甲二空一六年八月,BabelNet(v 三-c七)已經起百七十一種語言,包括全部的歐洲的語言、大多數亞洲語言佮拉丁語。BabelNet 三更七包含著大約一千四百萬个同義詞集佮七更四六億的詞義(毋管其語言)。 佇每一種語言內底,彼每一个 Babel synset(詞義)平均包含二个同義詞。BabelNet 的語義網路包含著豐富的詞彙語義關係。遮的語義關係有兩个來源:一是,來自 WordNet 的語義關係,這馬上下位關係、部份整體關係、反義、同義關係等,攏總大約三十六交四萬條的關係;二是,來自維基百科的非特定的相關係,攏總大約是三允八億條的關係。BabelNet 三更七將差不多一千一百萬張圖片佮 Babel synset 建立了關聯,並為遮的資源提供了 Lemon RDF 編碼,會過 SPARQL endpoint 得著。BabelNet 三石七為兩百六十七萬个同義詞集指定了領域標籤。
應用
BabelNet 會當廣泛應用佇多語自然語言處理中。BabelNet 中的彼个字詞智識會當下任務中取得最佳效果:
- 語義相關性
- 多語詞義消歧
- 是因為 Babelfy 系統的濟語詞義消岐佮實體連結
- 目的視頻遊戲
獎勵榮譽
BabelNet 是一个多語詞彙語義網路佮本體,因其佇克服語言障礙佮利用異構數據源方面做了誠大的開創性工作,BabelNet 佇二空一五年被授給給 META 獎。
BabelNet 是上新的詞彙智識資源庫,具有大巨大創新性,《 時代周刊》曾專題報導 BabelNet 的研究工課,認為講 BabelNet 欲佇二十一世紀發揮引領作用。
參照
- Babelfy
- EuroWordNet
- 智識得著
- 語言學連結開放數據
- OmegaWiki
- 語義網路
- 語義相關性
- 維基數據
- 維基詞典
- 詞義消歧
- 詞義歸納
- UBY
參考文獻
外部連結
- 官方網站
- SPARQL endpoint
- META prize