跳至內容
主選單
主選單
移至側邊欄
隱藏
導覽
首頁
近期變更
隨機頁面
MediaWiki說明
Taiwan Tongues 台語維基
搜尋
搜尋
外觀
建立帳號
登入
個人工具
建立帳號
登入
檢視 Dice係數 的原始碼
頁面
討論
臺灣正體
閱讀
檢視原始碼
檢視歷史
工具
工具
移至側邊欄
隱藏
操作
閱讀
檢視原始碼
檢視歷史
一般
連結至此的頁面
相關變更
特殊頁面
頁面資訊
外觀
移至側邊欄
隱藏
←
Dice係數
由於以下原因,您無權編輯此頁面:
您請求的操作只有這些群組的使用者能使用:
使用者
、taigi-reviewer、apibot
您可以檢視並複製此頁面的原始碼。
'''戴斯係數'''(Dice coefficient), 嘛叫做索倫森-戴斯係數(Sørensen–Dice coefficient), 號名號 Thorvald Sørensen 和 Lee Raymond Dice,是一種集合相仝度量函數,通常用於計算兩个樣本的相仝度: : $ s={ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $ 伊佇形式的頂懸和 Jaccard 指數無偌大區別,但是有一寡無仝的性質。 和 Jaccard 類似,伊的範圍做零到一。佮 Jaccard 無仝的是,相應的差異函數 : $ d=一-{ \ frac { 二 | X \ cap Y | } { | X | + | Y | } } $ 毋是一个合適的距離度量措施,因為伊無三角形不等性的性質。比如講予定 { a } , { b } , 和 { a , b } , 前兩个集合的距離為一,第三个集合佮其他的任意兩个集合的距離做三分之一。 佮 Jaccard 類似,集合操作會用得用兩个向量 _ A _ 和 _ B _ 的操作來表示 : $ $ s _ { v }={ \ frac { 二 | A \ cdot B | } { | A | ^ { 二 } + | B | ^ { 二 } } } $ $ 上式予出兩个向量的距離輸出,嘛予出閣較一般情形下向量之間的相𫝛度量措施。 戴斯係數會當計算兩字符串的相𫝛度:Dice(s 一 , s 二)=二 \ * comm ( s 一 , s 二 ) / ( leng ( s 一 ) + leng ( s 二 ) )。 其中,comm ( s 一 , s 二 ) 是 s 一、s 二中相仝字符的個數 leng ( s 一 ),leng ( s 二 ) 是字符合 s 一、s 二的長度。 佇信息檢索當中,予定關鍵詞集合 _ X _ 和 _ Y _,相𫝛度定義為兩倍共同信息 ( 重疊部份 ) 除以基數的總和 : 當做字符串之間的相𫝛度量的時陣,計算兩字符串之間的係數,_ x _ 和 _ y _,使用 bigrams 公式如下 : : $ s={ \ frac { 二 n _ { t } } { n _ { x } + n _ { y } } } $ 其中 _ n _ t 兩字符串共有的 bigrams 的數,_ n _ x 是 _ x _ 中 bigrams 的數,_ n _ y 是 _ y _ 中 bigrams 的數。譬如講愛計算下跤兩字符合之間的相𫝛度 : : ` night ` : ` nacht ` 咱會當佇各單詞內底提出如下 bigrams 集合矣 : : { ` ni ` , ` ig ` , ` gh ` , ` ht ` } : { ` na ` , ` ac ` , ` ch ` , ` ht ` } 逐个集合有四个元素,這个兩个集合干焦一个仝款的元素 : ` ht ` . 代入公式咱會當計算出,_ s _ = ( 二 · 一 ) / ( 四 + 四 ) = 空九二五 . ==仝見== * 雅卡爾指數(Jaccard index), 等仝款 : $ D=二 J / ( 一 + J ) $ and $ J=D / ( 二-D ) $ * Tversky index * Levenshtein distance * Sørensen similarity index ==參考文獻== ==參考資料== [[分類: 待校正]]
返回到「
Dice係數
」。