Dice係數
戴斯係數(Dice coefficient), 嘛叫做索倫森-戴斯係數(Sørensen–Dice coefficient), 號名號 Thorvald Sørensen 和 Lee Raymond Dice,是一種集合相仝度量函數,通常用於計算兩个樣本的相仝度:
- $ s={ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $
伊佇形式的頂懸和 Jaccard 指數無偌大區別,但是有一寡無仝的性質。
和 Jaccard 類似,伊的範圍做零到一。佮 Jaccard 無仝的是,相應的差異函數
- $ d=一-{ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $
毋是一个合適的距離度量措施,因為伊無三角形不等性的性質。比如講予定 { a } , { b } , 和 { a , b } , 前兩个集合的距離為一,第三个集合佮其他的任意兩个集合的距離做三分之一。
佮 Jaccard 類似,集合操作會用得用兩个向量 _ A _ 和 _ B _ 的操作來表示 :
$ $ s _ { v }={ \ frac { 二 | A \ cdot B | } { | A | ^ { 二 } + | B | ^ { 二 } } } $ $
上式予出兩个向量的距離輸出,嘛予出閣較一般情形下向量之間的相𫝛度量措施。 戴斯係數會當計算兩字符串的相𫝛度:Dice(s 一 , s 二)=二 \ * comm ( s 一 , s 二 ) / ( leng ( s 一 ) + leng ( s 二 ) )。 其中,comm ( s 一 , s 二 ) 是 s 一、s 二中相仝字符的個數 leng ( s 一 ),leng ( s 二 ) 是字符合 s 一、s 二的長度。
佇信息檢索當中,予定關鍵詞集合 _ X _ 和 _ Y _,相𫝛度定義為兩倍共同信息 ( 重疊部份 ) 除以基數的總和 :
當做字符串之間的相𫝛度量的時陣,計算兩字符串之間的係數,_ x _ 和 _ y _,使用 bigrams 公式如下 :
- $ s={ \ frac { 二 n _ { t } } { n _ { x } + n _ { y } } } $
其中 _ n _ t 兩字符串共有的 bigrams 的數,_ n _ x 是 _ x _ 中 bigrams 的數,_ n _ y 是 _ y _ 中 bigrams 的數。譬如講愛計算下跤兩字符合之間的相𫝛度 :
- ` night `
- ` nacht `
咱會當佇各單詞內底提出如下 bigrams 集合矣 :
- { ` ni ` , ` ig ` , ` gh ` , ` ht ` }
- { ` na ` , ` ac ` , ` ch ` , ` ht ` }
逐个集合有四个元素,這个兩个集合干焦一个仝款的元素 : ` ht ` .
代入公式咱會當計算出,_ s _ = ( 二 · 一 ) / ( 四 + 四 ) = 空九二五 .
仝見
- 雅卡爾指數(Jaccard index), 等仝款 : $ D=二 J / ( 一 + J ) $ and $ J=D / ( 二-D ) $
- Tversky index
- Levenshtein distance
- Sørensen similarity index