跳至內容

Dice係數

出自Taiwan Tongues 台語維基
於 2025年8月23日 (六) 11:59 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

戴斯係數(Dice coefficient), 嘛叫做索倫森-戴斯係數(Sørensen–Dice coefficient), 號名號 Thorvald Sørensen 和 Lee Raymond Dice,是一種集合相仝度量函數,通常用於計算兩个樣本的相仝度:


$ s={ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $

伊佇形式的頂懸和 Jaccard 指數無偌大區別,但是有一寡無仝的性質。

和 Jaccard 類似,伊的範圍做零到一。佮 Jaccard 無仝的是,相應的差異函數


$ d=一-{ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $

毋是一个合適的距離度量措施,因為伊無三角形不等性的性質。比如講予定 { a } , { b } , 和 { a , b } , 前兩个集合的距離為一,第三个集合佮其他的任意兩个集合的距離做三分之一。

佮 Jaccard 類似,集合操作會用得用兩个向量 _ A _ 和 _ B _ 的操作來表示 :

$ $ s _ { v }={ \ frac { 二 | A \ cdot B | } { | A | ^ { 二 } + | B | ^ { 二 } } } $ $

上式予出兩个向量的距離輸出,嘛予出閣較一般情形下向量之間的相𫝛度量措施。 戴斯係數會當計算兩字符串的相𫝛度:Dice(s 一 , s 二)=二 \ * comm ( s 一 , s 二 ) / ( leng ( s 一 ) + leng ( s 二 ) )。 其中,comm ( s 一 , s 二 ) 是 s 一、s 二中相仝字符的個數 leng ( s 一 ),leng ( s 二 ) 是字符合 s 一、s 二的長度。

佇信息檢索當中,予定關鍵詞集合 _ X _ 和 _ Y _,相𫝛度定義為兩倍共同信息 ( 重疊部份 ) 除以基數的總和   :

當做字符串之間的相𫝛度量的時陣,計算兩字符串之間的係數,_ x _ 和 _ y _,使用 bigrams 公式如下 :


$ s={ \ frac { 二 n _ { t } } { n _ { x } + n _ { y } } } $

其中 _ n _ t 兩字符串共有的 bigrams 的數,_ n _ x 是 _ x _ 中 bigrams 的數,_ n _ y 是 _ y _ 中 bigrams 的數。譬如講愛計算下跤兩字符合之間的相𫝛度 :


` night `


` nacht `

咱會當佇各單詞內底提出如下 bigrams 集合矣 :


{ ` ni ` , ` ig ` , ` gh ` , ` ht ` }


{ ` na ` , ` ac ` , ` ch ` , ` ht ` }

逐个集合有四个元素,這个兩个集合干焦一个仝款的元素 : ` ht ` .

代入公式咱會當計算出,_ s _  =  ( 二  ·  一 )   /   ( 四   +   四 )  =  空九二五 .

仝見

  • 雅卡爾指數(Jaccard index), 等仝款 : $ D=二 J / ( 一 + J ) $ and $ J=D / ( 二-D ) $
  • Tversky index
  • Levenshtein distance
  • Sørensen similarity index

參考文獻

參考資料