跳至內容

「雙字母組」:修訂間差異

出自Taiwan Tongues 台語維基
TaiwanTonguesApiRobot留言 | 貢獻
從 JSON 檔案批量匯入
 
(無差異)

於 2025年8月24日 (日) 08:10 的最新修訂

雙字母組抑是稱二元語法(英語:bigrams,抑是稱 digrams), 做統計分析文本使用足廣的;伊是由兩字母,抑是講兩个音節,或者是兩个詞構成的雙字母組。

簡介

佇咧予定一个前導詞的情況下,雙字母組會當幫助計算出現某一个詞的概率,這是條件概會當用的場景:

$ $ P ( W _ { n } | W _ { n 影一 } )={ P ( W _ { n 影一 } , W _ { n } ) \ over P ( W _ { n 影一 } ) } $ $

即,佇咧予定頭前一个詞 $ W _ { n 影一 } $ 的前提下,出現某一个詞 $ W _ { n } $ 的概率 $ P ( W _ { n } ) $ 佮𪜶構成的雙字母組的概率一致,換言之,兩个詞同齊出現的概率 $ P ( W _ { n 影一 } , W _ { n } ) $ 被出現前一个詞 $ W _ { n 影一 } $ 的概率除。

_ Gappy bigrams _ 抑是稱 _ skipping bigrams _ 是允准有跳空的詞對組(凡勢想欲避免共詞連接起來,抑是想欲允准某一種模擬的依賴,親像依賴語法)。

_ Head word bigrams _ 是有明確依賴關係的 gappy bigrams。

應用

這種組予人用佇咧上成功的一種語音識別的語言模型中。𪜶是 N 字母組的一種特例。

本術語嘛予人用佇密碼學里,在此領域,試圖破解密碼電文有時 _ 兩元語法頻率攻擊 _ 會去予人用著。參考頻率分析。

英語內底雙字母組的出現頻率

根據小英語料庫的統計結果,上捷看的字母雙字母的頻率是:

` ` ` th 百分之一石五二 en 百分之空抹五五 ng 百分之空七一八 he 百分之一石二八 ed 百分之空抹五三 of 百分之空七一六 in 百分之空抹九四 to 百分之空抹五二 al 百分之空抹空九 er 百分之空抹九四 it 百分之空抹五空 de 百分之空抹空九 an 百分之空抹八二 ou 百分之空抹五空 se 百分之空抹空八 re 百分之空抹六八 ea 百分之空抹四七 le 百分之空抹空八 nd 百分之空抹六三 hi 百分之空抹四六 sa 百分之空抹空六 at 百分之空抹五九 is 百分之空抹四六 si 百分之空抹空五 on 百分之空抹五七 or 百分之空抹四三 ar 百分之空抹空四 nt 百分之空抹五六 ti 百分之空抹三四 ve 百分之空抹空四 ha 百分之空抹五六 as 百分之空抹三三 ra 百分之空抹空四 es 百分之空抹五六 te 百分之空抹二七 ld 百分之空抹空二 st 百分之空抹五五 et 百分之空七一九 ur 百分之空抹空二 ` ` `

會當得著閣較大語料庫提起來完整雙字母頻率。

參考文獻

參見

  • 二合字母
  • N 元語法
  • 字母頻率
  • Dice 係數