跳至內容

詞袋仔模型

出自Taiwan Tongues 台語維基
這是此頁批准,以及是最近的修訂。

詞袋仔模型(英語:Bag-of-words model)是一个佇自然語言處理佮信息檢索(IR)會當看著真簡化的表達模型。現此模型下,一段文本(譬如一个句抑是一个文檔)會當用一个貯遮的詞的袋仔來表示,這款表示方式無考慮文法佮詞的順序。最近詞袋仔模型也被應用佇電腦視覺領域。

詞袋仔模型被廣泛應用佇文件分類,詞出現的頻率會當用來做訓練分類器的特徵。

關於著 " 詞袋仔 " 這个用字的由來會當追溯到澤里格 ・ 哈里斯於一九五四年在《Distributional Structure》的文章 _。_

範例

下列文件會當用詞袋仔表示 :

以下是兩個簡單的文件 :

是以上的兩个文件,會當建構出下列的清單 :

此處有十个無仝的詞,使用清單的索仔引表示長度為十的向量 :

` ` ` ( 一 ) [一 , 二 , 一 , 一 , 二 , 零 , 零 , 零 , 一 , 一] ( 二 ) [一 , 一 , 一 , 一 , 零 , 一 , 一 , 一 , 零 , 零] ` ` `

每一个向量的索引內容對應到清單中詞出現的次數。

比如講伊,第一个向量 ( 文件一 ) 前兩个內容索引是一佮二,頭一个索引內容是 " John " 對應到清單頭一个詞並且該值設定做一,因為乎 " John " 出現一改。

這向量表示法袂保存原始句仔內底詞的順序。該表示法有真濟成功的應用,親像郵件過濾。

Term weighting

咧講的範例,文件向量包含 term 頻率。佇咧 IR 佮文字分類常用無仝方法量 term 權重。常見方法為 tf-idf。

範例:糞埽郵件過濾

分類一个郵件訊息,一个貝氏糞埽郵件分類的假設訊息是一堆字而且隨機倒佇咧兩堆袋仔內底其中一个袋仔內底,了後使用這貝氏機率去決定佗一跤袋仔是較有可能的。

參考文獻

參見

  • w-shingling
  • n 元語法
  • 向量空間模型
  • 自然語言處理
  • Additive smoothing
  • 文件分類
  • 機器學習
  • Document-term matrix
  • Hashing trick
  • 按呢上小哈希
  • 特徵揣出