線性判別分析

線性判別分析(LDA) 是嘿費舍爾的線性鑑別方法的歸納，這種方法使用統計學，模式識別佮機器學習方法，試圖揣著兩類物體抑是事件的特徵的一个線性組合，以一寡較特徵化抑是區分別。所得的組合會使用來做一个線性分類器，抑是講，閣較捷看著的是，為紲後的分類做降維處理。

LDA 佮變化的分析（ANOVA）佮迴歸分析真密相關，這兩種分析方法嘛來試圖透過一寡特徵或者是測量值的線性組合來表示一个應變數。毋過，變異數分析使用類別型的自變數佮連續型的應變數，判別分析是使用連紲寫自變數佮類別型應變數（即類標籤）。邏輯迴歸佮機率迴歸比變異數分析閣較類似 LDA，因為𪜶嘛是用連紲型自變數來解說類別型應變數。LDA 的基本假使是自變數是常態分布的，當這一假使無法度滿足的時陣，佇咧實際應用是閣較傾向共用描述的其他方法。

LDA 嘛佮主成份析（PCA）佮因素的分析真密相關，𪜶攏咧走揣最佳解說數據的變數線性組合。LDA 明確地試看無仝款的數據類之間建立模型，而且 PCA 是無考慮類別的無仝（只是保留大部份訊息的提著降低維護度數），因素分析是根據相各位毋是相仝的所在來建立特徵組合。判別分析佮因素分析的差別猶佇咧，伊毋是一个互相依存技術：著愛分出自變數佮應變數（也講準做準則變數）的無仝。

當自變數每一改的觀察測量值攏是連紲量的時陣，LDA 會當發揮作用。若是處理類別型自變數，佮 LDA 相對應的技術叫做判別反應分析。

二類 LDA

考慮佇咧已經知類別 _ y _ 中每一个物件抑是事件的一組觀察量 $ { \ vec { x } } $（嘛叫特徵、屬性、變數抑是測量）；這組樣本稱為訓練集。分類問題即為在給定觀察量 $ { \ vec { x } } $ 為 _ y _ 類似的情形下揣一个良好的預測器，予任意具有仝款分布的樣品（未必來自訓練集合）攏會去予正確來判斷。

LDA 的方法是，透過假設條件的機率密度函數 $ p ( { \ vec { x } } | y=零 ) $ 和 $ p ( { \ vec { x } } | y=一 ) $ 攏是定態分布，分別有齊值佮共變異數 $ \ left ( { \ vec { \ mu } } _ { 零 } , \ Sigma _ { 零 } \ right ) $ 和 $ \ left ( { \ vec { \ mu } } _ { 一 } , \ Sigma _ { 一 } \ right ) $。根據這一假設，貝葉斯是上好解決方案若預測點的可能性比率之對數值較低於某一丈值 T，其就屬於第二類：

$ ( { \ vec { x } }-{ \ vec { \ mu } } _ { 零 } ) ^ { T } \ Sigma _ { 零 } ^ { 影一 } ( { \ vec { x } }-{ \ vec { \ mu } } _ { 零 } ) + \ ln | \ Sigma _ { 零 } |-( { \ vec { x } }-{ \ vec { \ mu } } _ { 一 } ) ^ { T } \ Sigma _ { 一 } ^ { 影一 } ( { \ vec { x } }-{ \ vec { \ mu } } _ { 一 } )-\ ln | \ Sigma _ { 一 } | \ > \ T $

若無任何進一步的假設，所得著的分類器號做 QDA（兩改的判別分析）。

反倒轉來，LDA 做出額外簡化的同變異數性假設（無仝類之間的共變異數仝款，$ \ Sigma _ { 零 }=\ Sigma _ { 一 }=\ Sigma $），並且共變異數是滿秩的。佇這个情形下，消一寡物件：

$ { \ vec { x } } ^ { T } \ Sigma _ { 零 } ^ { 影一 } { \ vec { x } }={ \ vec { x } } ^ { T } \ Sigma _ { 一 } ^ { 影一 } { \ vec { x } } $

$ { \ vec { x } } ^ { T } { \ Sigma _ { i } } ^ { 影一 } { \ vec { \ mu _ { i } } }={ \ vec { \ mu _ { i } } } ^ { T } { \ Sigma _ { i } } ^ { 影一 } { \ vec { x } } $ 因為乎 $ \ Sigma _ { i } $ 是埃爾米特矩陣如此一來，頂懸的判斷準無就變做判斷點積的被風值是毋是因為某常算 _ c _

$ { \ vec { w } } \ cdot { \ vec { x } } > c $

而且

$ { \ vec { w } }=\ Sigma ^ { 影一 } ( { \ vec { \ mu } } _ { 一 }-{ \ vec { \ mu } } _ { 零 } ) $

$ c={ \ frac { 一 } { 二 } } ( T-{ \ vec { \ mu _ { 零 } } } ^ { T } \ Sigma _ { 零 } ^ { 影一 } { \ vec { \ mu _ { 零 } } } + { \ vec { \ mu _ { 一 } } } ^ { T } \ Sigma _ { 一 } ^ { 影一 } { \ vec { \ mu _ { 一 } } } ) $

這意味對，一个輸入 $ { \ vec { x } } $ 屬於類 _ y _ 的標準就純粹成做一个已經知影觀察值的線性組合的函數。

對幾若種學的角度來看這个結論通常會有一寡幫助：判斷一个輸入 $ { \ vec { x } } $ 敢是為類 _ y _ 的標準就是一个共多維空間的點 $ { \ vec { x } } $ 投影到向量 $ { \ vec { w } } $（阮干焦考慮其方向）的函數。嘛會使講，若相對應的 $ { \ vec { x } } $ 就是一个垂直的 $ { \ vec { w } } $ 的超平面的某一爿，遮觀察值就屬於 _ y _ 類。平面的位置是由此值 c 來決定。

_ k _ 類正則判別分析

正則判別分析法（CDA）走揣上優區分類別的坐標題（_ k _ 建一个正則坐標，_ k _ 為類別的數量）。遮的線性函數是無相關的，實際上，𪜶通過 _ n _ 維數據云定義一个最佳化的 _ k 影一 _ 個空間，會當上優的區分 _ k _ 個類（通過其實佇空間的投影）。詳細請參見下跤的「多類 LDA」。

費舍爾的線性判別

_ 費舍爾的線性判別 _ 和 _ LDA _ 的叫法往往是會當相換使用，雖然厚工上早的文章實際上欲描述一个小可無仝的判別，伊無做出一寡類似 LDA 所作的假使講，譬如講常態分布的各類抑是相等的類共變異數。

假觀察的兩个類分別有齊值 $ { \ vec { \ mu } } _ { 零 } , { \ vec { \ mu } } _ { 一 } $ 佮共變異數 $ \ Sigma _ { 零 } , \ Sigma _ { 一 } $。遐爾仔特徵的線性組合 $ { \ vec { w } } \ cdot { \ vec { x } } $ 就是共具有總值 $ { \ vec { w } } \ cdot { \ vec { \ mu } } _ { i } $ 佮共變異數 $ { \ vec { w } } ^ { T } \ Sigma _ { i } { \ vec { w } } $ 其中 $ i=零 , 一 $。費心計共區分做這兩類分布的規則為類間變化數佮類內變化數的比率：

$ S={ \ frac { \ sigma _ { \ text { between } } ^ { 二 } } { \ sigma _ { \ text { within } } ^ { 二 } } }={ \ frac { ( { \ vec { w } } \ cdot { \ vec { \ mu } } _ { 一 }-{ \ vec { w } } \ cdot { \ vec { \ mu } } _ { 零 } ) ^ { 二 } } { { \ vec { w } } ^ { T } \ Sigma _ { 一 } { \ vec { w } } + { \ vec { w } } ^ { T } \ Sigma _ { 零 } { \ vec { w } } } }={ \ frac { ( { \ vec { w } } \ cdot ( { \ vec { \ mu } } _ { 一 }-{ \ vec { \ mu } } _ { 零 } ) ) ^ { 二 } } { { \ vec { w } } ^ { T } ( \ Sigma _ { 零 } + \ Sigma _ { 一 } ) { \ vec { w } } } } $

對某一種意義佇咧講，這步數是測量類標籤的信噪比。伊會當顯示，當滿足如後條件的時陣，會產生上大的區分

$ { \ vec { w } } \ propto ( \ Sigma _ { 零 } + \ Sigma _ { 一 } ) ^ { 影一 } ( { \ vec { \ mu } } _ { 一 }-{ \ vec { \ mu } } _ { 零 } ) $

當 LDA 的假使滿足的時陣，欲講看的方式就是 LDA。

一定愛注意的硬死 $ { \ vec { w } } $ 是判別超平面的法線。以二維空間做例，能區分兩類的上優線就是佮 $ { \ vec { w } } $。

一般來講，欲判別數據點投影到 $ { \ vec { w } } $；然後對一維分布中選取區分數據的最佳到分值。選取交值無通用的規則。毋過，若是兩類的投影點顯示出近若像的分佈，遐爾仔選取兩个均值的投影 $ { \ vec { w } } \ cdot { \ vec { \ mu } } _ { 零 } $ 和 $ { \ vec { w } } \ cdot { \ vec { \ mu } } _ { 一 } $ 之間的超平面是較合適的。佇這个情形下，$ { \ vec { w } } \ cdot { \ vec { x } } > c $ 條件下跤的追值參數 c 會當明確表達為：

$ c={ \ vec { w } } \ cdot { \ frac { 一 } { 二 } } ( { \ vec { \ mu } } _ { 零 } + { \ vec { \ mu } } _ { 一 } )={ \ frac { 一 } { 二 } } { \ vec { \ mu } } _ { 一 } ^ { T } \ Sigma ^ { 影一 } { \ vec { \ mu } } _ { 一 }-{ \ frac { 一 } { 二 } } { \ vec { \ mu } } _ { 零 } ^ { T } \ Sigma ^ { 影一 } { \ vec { \ mu } } _ { 零 } $ .

大津算法佮費舍爾的線性判別有一寡相關，伊的建立是通過上優選取烏白間的被值，來二元化灰度圖像中像素的直方圖，使烏白像素兩類間的變異數上大化，閣會使兩類內容隨人的變化又閣上小化。

多類 LDA

當出現超過兩類的情形，會使使用由費舍爾判別派生出的分析方法，伊延伸為一个走揣一个保留了所有類的變化性的子空間。這是由 C . R . Rao 總結出來的。準講，C 內底每一个類攏有平均值 $ \ mu _ { i } $ 佮仝款的共變異數 $ \ Sigma $。遐爾，類間的變化會當通過類均值的共變異數來定義

$ \ Sigma _ { b }={ \ frac { 一 } { C } } \ sum _ { i=一 } ^ { C } ( \ mu _ { i }-\ mu ) ( \ mu _ { i }-\ mu ) ^ { T } $

遮 $ \ mu $ 是各類均值的齊值。佇咧 $ { \ vec { w } } $ 的方向區分類有下式予出

$ S={ \ frac { { \ vec { w } } ^ { T } \ Sigma _ { b } { \ vec { w } } } { { \ vec { w } } ^ { T } \ Sigma { \ vec { w } } } } $

攏感覺這意思若 $ { \ vec { w } } $ 是 $ \ Sigma ^ { 影一 } \ Sigma _ { b } $ 的特徵向量，等仝用對應的特徵值進行分類。

若是 $ \ Sigma ^ { 影一 } \ Sigma _ { b } $ 是會當對角化矩陣，特徵之間的變化性就會予人保留佇咧 _ C 影一 _ 上大特徵值對應的特徵向量構成子空間內（因為乎 $ \ Sigma _ { b } $ 上大可能的秩是 _ C _ − 一）。佮 PCA 相仝，遮的特徵向量的主要用途是縮減特徵數。較細的特徵值對應的特徵向量對訓練數據的選擇非常敏感，所以定定需要使用下段中描述的調整方法。

若是干焦為著欲分類，毋免降維持，猶閣一寡替代技術通用。比如講，較濟身體就是分離的，會當用費舍爾判別抑是講 LDA 著每一个區進行分類。一个捷看著的例是「一个對賰的」，是對一个類里出來的點，囥入去一組內底，其他的歸入另外一組，這就會用得 LDA。這个致使著 C 類分類器，伊的結果是組合做伙的。另外一个捷看的方法就是配對分類，予每一對類別創建一个分類器（攏總有 _ C _ ( _ C _ − 一 ) / 兩个分類器 )，閣將逐个分類器的結果綜合會到尾仔結果。

增量 LDA

愛實現典型的 LDA 技術前提是所有的樣本攏愛提前準備完畢。但是有的狀況之下，無現成的完整數據集或者是輸入觀察數據是流的形式。按呢乎，就要求講 LDA 的特徵提出有能力隨著觀察新樣本的增加來更新 LDA 的特徵，毋是佇規个數據集頂咧運行算法。比如講，移動機器人抑是實時面部識別等實時應用，提的 LDA 特徵會當隨著新觀察值實在更新是非常重要的。這種會當通過簡單觀察新樣本來更新 LDA 特徵的技術就號做增量 LDA 算法，佇過去二十冬內，伊已經予人廣泛的研究過。 Catterjee 和 Roychowdhury 提出一種增加自組織 LDA 算法來更新 LDA 特徵。另外咧，Demir 和 Ozmehmet 提出利用誤差改正和赫布學習規則的線頂本地的學習算法來更新 LDA 特徵。最後咧，Aliyari 等人提供快速增量 LDA 算法。

實際使用

佇實際上內底，類的均值佮共變異數攏是未知的。毋過，𪜶會使對訓練集合中估算出來。上大概似估計佮上大事了後機率估計攏會當用來替代上述方程式內底的相應值。雖然共變異數的估值佇咧某一種意義頂頭是上優的，準做對類的常態分布假設是正確的，嘛並無法度表明用遮的估值替換會著的判別是上優的。

另外一个應用 LDA 佮費舍爾判別的複雜情況是，每一个樣品測量值的數量（每一个數據向量的維度）超過類中的樣品數量。佇這个情形下，共變異數估值毋是滿秩，因為按呢袂使取逆。有幾種方法會當應對這種情形。一種是欲上述公式中使用廣義逆陣替代通常的逆矩陣。猶毋過，先共問題投影著 $ \ Sigma _ { b } $ 構成的子空間上會使得著閣較好的數字穩定性。一个處理小樣本的策略是，用共變異數矩陣的收縮估算，會當表達為以下的數學式按呢

$ \ Sigma=( 一-\ lambda ) \ Sigma + \ lambda I \ , $

遮 $ I $ 的單位矩陣，$ \ lambda $ 是啊 _ 收縮度 _ 抑是 _ 歸一參數。_ 這產生了歸一判別分析抑是收縮判別分析的框殼。

此外，佇真濟實際情形中線性判別是無合適合的。LDA 佮費舍爾判別會當通過核函數擴展到非線性分類。原始的觀察值有效的影射著一个高維的非線性空間內底。佇這个非線性的空間內底的線性分類，就佮原始這个空間內底的非線性分類。上捷用的例就是核函數費舍爾判別。

LDA 會當推廣到多類判別分析，其中 _ c _ 變做是一个有 _ N _ 個可能狀態，毋是兩个狀態的類別變數。類似地，若各種的條件機會密度 $ p ( { \ vec { x } } \ mid c=i ) $ 攏是常態分布有共同的共變異數，遐爾 $ P ( c \ mid { \ vec { x } } ) $ 的充分統計量就是共變異數逆矩陣佇 _ N _ 個均值構成的子平面上仿射的 _ N _ 一个投影值。遮的投影值會當通過解廣義特徵值問題來揣著，頂司是以平均值為咱本構成的共變異數矩陣，分母是共有共變異數矩陣。詳細參見面喝「多類 LDA」。

應用領域

除了下跤予出的實例，LDA 應用佇市場定位佮產品管理。

破產預測

佇基於財務比率佮其他金融變數的破產預測內底，LDA 是頭一个用來系統解說公司進入破產抑是存活的統計學工具。就算講受著財務的比率無遵守 LDA 常態分布假設的限制，Edward Altman 的一九六八年模型猶原是實際應用的領先者。

面部識別

佇計算機化的面模仔看別中，每一个面由大量像素值表達。LDA 佇遮的主要作用是共特徵的數量降到可管理的數量了後才閣進行分類。每一个新的維度攏是模板里像素值的散性組合。使用費舍爾線性判別得著的線性組合稱做 _ 費氣面 _，通過主成分析（PCA）得著稱為 _ 特徵面 _。

市場行銷

佇市場行銷，判別分析捌定定用佇通過市場調查或者是其他數據收集手段，揣出遐的能區分無仝客戶抑是產品類型的濟一个因素。如今用的閣較濟的是邏輯迴歸抑是按怎方法。佇市場行銷中使用判別分析的具體方法是按怎來描述：

一 . 制定的問題並收集數據-- 抹壁堵消人知影影影響品的一寡有允著影一用定量市場研究技術（譬如講市場調查）對潛在消費者內面收集關於𪜶對產品所有屬性的評分數據。數據收集階段通常是由專業的市場調查公司完成的。調查人員選擇一系列屬性，請參與者對𪜶共出一到五（抑是一到七，一到十）的評分。通常選五到二十个屬性。通常包括：𠢕用度，重量，準確度，耐用性，色彩度，價數，抑是 sài-sù。根據研究的產品選擇無仝款的屬性。佇調查中對所有的產品攏問仝款的問題。大部份的產品的數據編碼了後，輸入統計分析程序，比如講 R，SPSS 抑是 SAS。（這步和因為分析法仝款）。二 . 估計的判別函數的係數並確定統計顯著水準佮有效性-- 選擇適當的判別分析方法。直接的方法牽連估計判別函數，通好所有的預測器同時被評估。每一步的方法順序進入的預測器。應變數只有兩類抑是狀態的時陣，適用兩組的方法。應變數加於三个是，用多類判別方法。佇咧 SPSS 抑是講 SAS 里的 F 統計包，用 Wilks's Lambda 檢定顯著水準。上捷用的有效性檢定方法是，共樣的本分做兩組：估計 / 分析樣本和驗證樣本。估計本底用來構建判別函數，驗證樣本構建分類矩陣，其中包括正確分類和無正確分類的數量。正確分類案例的百分比稱做命中率。三 . 共結果畫佇兩維圖內底，定義維度，並解說結果。統計程序（抑是相關模塊）會將結果做出圖。圖內底包括逐个產品（通常為二維空間）。每一个產品之間的距離表明𪜶無仝款的程度。研究者著愛予逐个維度註明的標籤。規个過程需要主觀判斷，非常的挑戰。參見感知影映射。

生物醫學研究

判別分析佇醫學的主要應用是評估患者的嚴重程度佮對疾病結果的預後判斷。比如講，佇回顧分析中間，根據患者的病情分做幾組：輕微，中度佮嚴重。通過對臨床佮實驗室分析結果的研究，揭示予人研究組中佗一寡變數是統計上無仝的。使用遮的變數建立判別函數，幫助共未來的患者客觀的劃分著輕微，中度佮嚴重的類別里。

佇生物學中，類似的原則被用劃分佮定義無仝的生物物件。比如講，用傅立葉轉換紅外光譜定義沙門氏菌的食菌體類別，檢測大腸桿菌的動物來源以研究伊的毒力因為等等。

地球科學

這種方法會當佇咧分蝕變帶。比如講，當足濟帶咧無仝數據攏現成的時，判別分析會當對數據中揣著模式並有效的著伊分類。

參考

數據挖
決定樹仔學習
因為分析
核函數費舍爾判別分析
邏輯迴歸
多維標度
模式識別
感知
偏好迴歸
二次分類器

引用

擴展閱讀

Duda , R . O . ; Hart , P . E . ; Stork , D . H . ( 兩千 ) . _ Pattern Classification _ ( 二 nd ed . ) . Wiley Interscience . ISBN 空九四百七十一鋪五千六百六十九鋪三 . MR 一百八十五空兩千九百九十三 .
Hilbe , J . M . ( 二千空九 ) . _ Logistic Regression Models _ . Chapman & Hall / CRC Press . ISBN 九百七十八石一孵四千兩百抹七千五百七十五孵五 .
Mika , S . ; et al . ( 一千九百九十九 ) . " Fisher Discriminant Analysis with Kernels " . _ IEEE Conference on Neural Networks for Signal Processing IX _ : 四十一–四十八 . doi : 十席一一空九 / NNSP . 一千九百九十九分七八一二一 .
Mark Burdon and Paul Harpur ,『Re-Conceptualising Privacy and Discrimination in an Age of Talent Analytics』( 二千空一十四 ) 三十七 University of New South Wales Law Journal , 二 , 六百七十九–七百一十二追一
Miranda Terry and Paul Harpur ,『The New Era of Segmenting Society on Ability Lines : Workplace Analytics and Disability Discrimination』( Society for Disability Studies , Atlanta USA , 十–十三 June 二千空一十五 ) .
H . Richard McFarland and Donald St . P . Richards ,「Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions . I . The Equal-Means Case」Journal of Multivariate Analysis , 兩千空一 , vol . 七十七 , issue 一 , pages 二十一–五十三 link to article
H . Richard McFarland and Donald St . P . Richards ,「Exact Misclassification Probabilities for Plug-In Normal Quadratic Discriminant Functions . II . The Heterogeneous Case」Journal of Multivariate Analysis , 兩千空二 , vol . 八十二 , issue 二 , pages 兩百九十九石三百三十 link to article

外部連結

ALGLIB contains open-source LDA implementation in C # / C + + / Pascal / VBA .
Psychometrica . de open-source LDA implementation in Java
LDA tutorial using MS Excel
Biomedical statistics . Discriminant analysis
www . powercam . cc / chli ( 中文的影片介紹包含 Kernel Method , PCA , KPCA , LDA , GDA , and SVMs )