跳至內容
主選單
主選單
移至側邊欄
隱藏
導覽
首頁
近期變更
隨機頁面
MediaWiki說明
Taiwan Tongues 台語維基
搜尋
搜尋
外觀
建立帳號
登入
個人工具
建立帳號
登入
檢視 詞袋仔模型 的原始碼
頁面
討論
臺灣正體
閱讀
檢視原始碼
檢視歷史
工具
工具
移至側邊欄
隱藏
操作
閱讀
檢視原始碼
檢視歷史
一般
連結至此的頁面
相關變更
特殊頁面
頁面資訊
外觀
移至側邊欄
隱藏
←
詞袋仔模型
由於以下原因,您無權編輯此頁面:
您請求的操作只有這些群組的使用者能使用:
使用者
、taigi-reviewer、apibot
您可以檢視並複製此頁面的原始碼。
'''詞袋仔模型'''(英語:'''Bag-of-words model''')是一个佇自然語言處理佮信息檢索(IR)會當看著真簡化的表達模型。現此模型下,一段文本(譬如一个句抑是一个文檔)會當用一个貯遮的詞的袋仔來表示,這款表示方式無考慮文法佮詞的順序。最近詞袋仔模型也被應用佇電腦視覺領域。 詞袋仔模型被廣泛應用佇文件分類,詞出現的頻率會當用來做訓練分類器的特徵。 關於著 " 詞袋仔 " 這个用字的由來會當追溯到澤里格 ・ 哈里斯於一九五四年在《Distributional Structure》的文章 _。_ ==範例== 下列文件會當用詞袋仔表示 : 以下是兩個簡單的文件 : 是以上的兩个文件,會當建構出下列的清單 : 此處有十个無仝的詞,使用清單的索仔引表示長度為十的向量 : ` ` ` ( 一 ) [一 , 二 , 一 , 一 , 二 , 零 , 零 , 零 , 一 , 一] ( 二 ) [一 , 一 , 一 , 一 , 零 , 一 , 一 , 一 , 零 , 零] ` ` ` 每一个向量的索引內容對應到清單中詞出現的次數。 比如講伊,第一个向量 ( 文件一 ) 前兩个內容索引是一佮二,頭一个索引內容是 " John " 對應到清單頭一个詞並且該值設定做一,因為乎 " John " 出現一改。 這向量表示法袂保存原始句仔內底詞的順序。該表示法有真濟成功的應用,親像郵件過濾。 ==Term weighting== 咧講的範例,文件向量包含 term 頻率。佇咧 IR 佮文字分類常用無仝方法量 term 權重。常見方法為 tf-idf。 ==範例:糞埽郵件過濾== 分類一个郵件訊息,一个貝氏糞埽郵件分類的假設訊息是一堆字而且隨機倒佇咧兩堆袋仔內底其中一个袋仔內底,了後使用這貝氏機率去決定佗一跤袋仔是較有可能的。 ==參考文獻== ==參見== * w-shingling * n 元語法 * 向量空間模型 * 自然語言處理 * Additive smoothing * 文件分類 * 機器學習 * Document-term matrix * Hashing trick * 按呢上小哈希 * 特徵揣出 [[分類: 待校正]]
返回到「
詞袋仔模型
」。