F-score
F 值,亦被稱做F-measure,是一種量測算法的精確度定定用的指標,定定用來判斷演算法的精確度。目前咧辨識、偵測相關的演算法內底常在會分別講著精確率(precision)和召回率(recall), F-score 會當同時考慮這兩个數值,平衡地反映這个演算法的精確度。
定義
一般式的
- $ F-score \ ; \ ;=\ ; \ ; { \ frac { ( \ ; 一 + \ beta ^ { 二 } \ ; ) \ ; precision \ ; \ times \ ; recall } { \ beta ^ { 二 } \ ; precision \ ; + \ ; recall } } $
$ \ beta $ 是使用者家己定義的參數,由一般式可見 F-score 會當同時考慮 precision 和 recall 這兩種數值。分子為 precision 和 recall 相乘,根據這个式仔,只要 precision 抑是 recall 較近無,F-score 就會佇較近零,代表著這个演算法的精確度非常的低。一个好的演算法,上好會當平衡 recall 和 precision,而且盡量予兩種指標攏真懸。所以有一套判斷方式會當同時考慮 recall 和 precision
Precision 和 Recall 權重仝款的時
一般來講,講著 F-score 而且無特別的定義的時陣,是講 $ \ beta=一 $ 時的 F-score,亦有寫作F 一-score。代表使用者仝款的注重 precision 和 recall 的這兩个指標。其分數會當講是 precision 和 recall 調和平均,式的如下:
- $ F 一-score \ ; \ ;=\ ; \ ; 二 \ ; { \ frac { precision \ ; \ times \ ; recall } { precision \ ; + \ ; recall } } $
F-score 上理想的數值是較近一般,做法是予 precision 和 recall 攏有足懸的值。若兩項攏為一,予得 $ 二 \ cdot { \ frac { 一 } { 二 } }=一 $,著 F-score=一(百分之一百), 代表該算法有著最佳的精確度。
F-score 的組成元素
TP , FN , FP , TN
頭前的 true / false 修飾後壁的 positive / negative,後壁的 positive / negative 是咱的方法的判斷。
- TP ( true positive ):阮的方法判斷為真,這个判斷是著的。即事實上為真,而且予咱的方法判斷做真的情形。
- FN ( false negative ):咱的方法判斷為無真,這判斷是毋著的。即事實上為真,煞去予咱的方法判斷做無真的情形。
- FP ( false positive ):阮的方法判斷為真,這判斷是毋著的。即事實上不為真,煞去予咱的方法誤判做真正的情形。
- TN ( true negative ):咱的方法判斷為無真,這个判斷是著的。即事實上不為真,而且予咱的方法判斷甲無情形。
掠犯人做例,TP 是有罪而且被掠著的情形,FP 是無罪但是予人誤掠的情形,FN 是有罪但是無予人掠著的情形,TN 是無罪而且無被誤掠的情形
Precision 和 Recall
$ precision={ \ frac { TP } { TP + FP } }=+ P \ ; \ ; $ ( positive prediction rate )
Precision 對母仔為兩種判斷做真的的情形的總和(范恩圖內底完整綠色的部份)
- 解說:當辨識結果為著 FP 的代價足懸的時陣,F-score 應該對遮指標,亦即 precision 欲足懸的。
- 例:辨識電郵信箱里的糞埽郵件的時,若是某封被誤判做糞埽郵件(即 FP)時,使用者可能就此錯過重要的通知。
$ $ recall={ \ frac { TP } { TP + FN } } $ $
Recall 的分母為事實上為真的情形的總和(范恩圖內底完整紫色的部份)
- 解說:當辨識結果為著 FN 的代價足懸的時陣,F-score 應該對遮指標,亦即 recall 欲足懸的。
- 舉例:一个傳染病診斷辨識系統當中,若是某一个傳染病的患者被誤判做陰性(即 FN), 當地的社區的居民就落入去予傳染的高風險內底。
- 舉例:真正犯罪的人當中,有偌濟比例的罪犯予人掠著。抑是,一張相片當中,有偌濟人面去予人偵測著。
Precision 和 Recall 的異同
- 𪜶的分子攏為 TP。
- F-score 的 recall 和 precision 之間存在權衡的關係,會過 β 調整閣較重視的這个部份。
以警察掠犯人的故事做例:
一个警察足厲害的,掠足濟犯人的,但是遮的犯人當中,只有少部份真正有罪,其他攏是予人冤枉的。
- recall 懸,因為該掠佮無該掠的犯人攏掠著矣。
- precision 低,因為真濟攏是無犯罪的人。
- 「寧可錯掠一百,嘛無通好放一个」
- recall 懸,猶毋過 precision 低。
一个警察非常的嚴,干焦逮捕真正有犯罪的人,無掠實在是無法度肯定的犯人。
- precision 懸,因為通常予人掠著的攏是有罪的。
- recall 低,因為無細膩放掉一大陣犯人。
- 「寧可錯囥一百,嘛袂使冤枉一个」
- precision 懸,猶毋過 recall 低。
應用
F-score 定定用佇咧評估資訊的檢索的結果,如:
- 圖像檢索
- 機器學習模型
性質
F-score 是等於取回物品集佮相關物品集的 Dice 係數
參考
- 國立台灣大學電信工程學研究所丁建均教授。高等數位訊號處理 . [二千空二十五七孵一] .(原始內容存檔佇兩千空二十五鋪八).
- F 度量(F-measure). 國家教育研究院雙語詞彙資料庫 . [二千空二十五七孵一] .(原始內容存檔佇兩千空二十鋪七堵三).