線性迴歸
佇統計學中,線性迴歸(英語:linear regression)是利用稱做線性迴歸方程式的最小平方函數對一个濟濟自變數佮應變數之間關係進行建模的一種迴歸分析。這款函數是一个抑是幾若个號做迴歸係數的模型參數的線性組合。干焦一个自變數的情形叫做簡單迴歸,大於一个自變數情形的號做多元迴歸(multivariable linear regression)。
佇線性迴歸中,數據使用線性預測函數來建模,並且未知的模型參數嘛是通過數據來估計。遮的模型予人叫做線性模型。上捷用的線性迴歸建模是予定 X 值的 y 的條件攏值是 X 的仿射函數。無啥會一般的狀況,線性迴歸模型會當是一个中位數抑是一寡其他的予定 X 的條件下跤 y 的條件分布的位數作為 X 的線性函數表示。像所有的形式的迴歸分析仝款,線性迴歸嘛共焦點囥佇咧共定 X 值的 y 的條件機率分布,毋是 X 和 y 的聯合機率分布(多元分析領域)。
線性迴歸是迴歸分析中第一種經過嚴格研究並且佇實際應用中廣泛使用的類型。這是因為線性依賴才無知影參數的模型比非線性依賴才無知影參數的模型閣較容易擬合,而且產生的估計的統計特性嘛閣較會確定。
線性迴歸有真濟實際用途。分做以下兩大類:
一 . 抑若目標抑是預測抑是映射,線性迴歸會當用來對觀測數據集的佮 X 的值擬合出一个預測模型。當完成按呢一个模型了後,對一个新增加的 X 值,佇無咧共定佮伊相配著的 y 的狀況之下,會當用這个擬合過的模型預測出一个 y 值。 二 . 予定一个變數 y 佮一寡變數 $ X _ { 一 } $ , . . . , $ X _ { p } $,遮的變數有可能佮 y 相關,線性迴歸分析會當用來量化 y 佮 Xj 之間相關性的強度,評估出與 y 無相關的 $ X _ { j } $,而且識別出佗一寡 $ X _ { j } $ 的子集包含著關於著 y 趁錢的訊息。
線性迴歸模型定定用上細平方逼近來擬合,毋過𪜶也可能用別的方法來擬合,比如講用上細化「擬合缺陷」佇一寡其他規範里(比如講上細絕對攏誤差迴歸), 抑是講佇橋迴歸中上小化上小平方的損失函數的懲罰。相反,上細平方逼近會當用來做合彼非線性的模型。所以,就算講「上小平方法」和「線性模型」是相連誠密,但是𪜶是袂當畫等號的。
簡介
理論模型
予一个隨機樣本 $ ( Y _ { i } , X _ { i 一 } , \ ldots , X _ { ip } ) , \ , i=一 , \ ldots , n $,一个線性迴歸模型假做迴歸子 $ Y _ { i } $ 佮迴歸量 $ X _ { i 一 } , \ ldots , X _ { ip } $ 之間的關係是除了 X 的影響以外,閣有其他的變數存在。咱加入一个誤差項 $ \ varepsilon _ { i } $(嘛是一个隨機變數)來掠著除了 $ X _ { i 一 } , \ ldots , X _ { ip } $ 以外任何著 $ Y _ { i } $ 的影響。所以一个多變數線性迴歸模型表示為以下的形式:
- $ Y _ { i }=\ beta _ { 零 } + \ beta _ { 一 } X _ { i 一 } + \ beta _ { 二 } X _ { i 二 } + \ ldots + \ beta _ { p } X _ { ip } + \ varepsilon _ { i } , \ qquad i=一 , \ ldots , n $
其他的模型可能予人認定做無線性模型。一个線性迴歸模型無需要是變數的線性函數。線性佇遮表示 $ Y _ { i } $ 的條件攏值佇參數 $ \ beta $ 內底是線性的。比如講:模型 $ Y _ { i }=\ beta _ { 一 } X _ { i } + \ beta _ { 二 } X _ { i } ^ { 二 } + \ varepsilon _ { i } $ 佇咧 $ \ beta _ { 一 } $ 和 $ \ beta _ { 二 } $ 內底是線性的,猶毋過佇 $ X _ { i } ^ { 二 } $ 內底是非線性的,伊是 $ X _ { i } $ 的非線性函數。
數據佮估計
區分隨機變數佮遮的變數的觀察值是誠重要的。通常來講,觀察值抑是數據(以小寫字母表記)包括著矣 _ n _ 個值 $ ( y _ { i } , x _ { i 一 } , \ ldots , x _ { ip } ) , \ , i=一 , \ ldots , n $ .
阮有 $ p + 一 $ 個參數 $ \ beta _ { 零 } , \ ldots , \ beta _ { p } $ 需要決定,為著估計遮的參數,使用矩陣表記是真有路用的。
- $ Y=X \ beta + \ varepsilon \ , $
其中 _ Y _ 是一个包括觀察值 $ Y _ { 一 } , \ ldots , Y _ { n } $ 的列向量,$ \ varepsilon $ 包括未觀測的隨機成份 $ \ varepsilon _ { 一 } , \ ldots , \ varepsilon _ { n } $ 猶閣有迴歸量的觀察值矩陣 $ X $:
- $ X={ \ begin { pmatrix } 一 & x _ { 十一 } & \ cdots & x _ { 一 p } \ \ 一 & x _ { 二十一 } & \ cdots & x _ { 二 p } \ \ \ vdots & \ vdots & \ ddots & \ vdots \ \ 一 & x _ { n 一 } & \ cdots & x _ { np } \ end { pmatrix } } $
_ X _ 通常包括一个常數項。
若是 _ X _ 列佇線性相依,遮的參數向量 $ \ beta $ 就袂當以上細平方法估計除非 $ \ beta $ 予人限制,比如講要求伊的一寡元素之佮為零。
古典假設
- 平本是佇咧母體之中隨機抽取出來的。
- 應變數 Y 佇實直線頂懸是連紲的,
- 殘差項是獨立而且相仝分布的 ( iid ),也就是講,殘差是獨立隨機的,而且也好高斯分布。
遮的假使會當設意著殘差項無依賴自變數的值,所以乎 $ \ varepsilon _ { i } $ 佮自變數 X(預測變數)中間是互相獨立的。
佇遮假影下,建立一个顯式線性迴歸做條件按算模型的簡單線性迴歸,會當表示講:
- $ { \ mbox { E } } ( Y _ { i } \ mid X _ { i }=x _ { i } )=\ alpha + \ beta x _ { i } \ , $
上細平方法分析
上細平方法估計
迴歸分析的上原初目的是估計模型的參數以便達到對數據的最佳擬合。佇決定一个最佳擬合的無仝標準內底,上小平方法是非常優越的。這款估計會當表示講:
- $ { \ hat { \ beta } }=( X ^ { T } X ) ^ { 影一 } X ^ { T } y \ , $
迴歸推論
對著每一个 $ i=一 , \ ldots , n $,阮用 $ \ sigma ^ { 二 } $ 是代表精差的項件 $ \ varepsilon $ 的變異數。一个無偏誤的估計是:
- $ { \ hat { \ sigma } } ^ { 二 }={ \ frac { S } { n-p } } , $
其中 $ S :=\ sum _ { i=一 } ^ { n } { \ hat { \ varepsilon } } _ { i } ^ { 二 } $ 是精差平方佮(殘差平方佮)。 估計值佮實際值之間的關係是:
- $ { \ hat { \ sigma } } ^ { 二 } \ cdot { \ frac { n-p } { \ sigma ^ { 二 } } } \ sim \ chi _ { n-p } ^ { 二 } $
其中 $ \ chi _ { n-p } ^ { 二 } $ 服對卡方分布,自由度是 $ n-p $
對普通方程式的會當敨為:
- $ { \ hat { \ boldsymbol { \ beta } } }=( \ mathbf { X ^ { T } X ) ^ { 影一 } X ^ { T } y } . $
這表示估計項是因變數的線性組合。進一步來講,若所觀察的精差服對定態分布。參數的估計值將服對聯合常態分布。佇咧當前的抑是假影下,估計的參數向量是精確分布的。
- $ { \ hat { \ beta } } \ sim N ( \ beta , \ sigma ^ { 二 } ( X ^ { T } X ) ^ { 影一 } ) $
其中 $ N ( \ cdot ) $ 表示多變數常態分布。
參數估計值的標準差是:
- $ { \ hat { \ sigma } } _ { j }={ \ sqrt { { \ frac { S } { n-p } } \ left [\ mathbf { ( X ^ { T } X ) } ^ { 影一 } \ right] _ { jj } } } . $
參數 $ \ beta _ { j } $ 的 $ 一百 ( 一-\ alpha ) \ % $ 信賴區間會當用以下式子來計算:
- $ { \ hat { \ beta } } _ { j } \ pm t _ { { \ frac { \ alpha } { 二 } } , n-p } { \ hat { \ sigma } } _ { j } . $
精差項會當表示:
- $ \ mathbf { { \ hat { r } }=y-X { \ hat { \ boldsymbol { \ beta } } }=y-X ( X ^ { T } X ) ^ { 影一 } X ^ { T } y } . \ , $
單變數線性迴歸
單變數線性迴歸,閣講簡單線性迴歸(simple linear regression , SLR), 是上簡單的但是用途足闊的迴歸模型。其回歸式為著:
- $ Y=\ alpha + \ beta X + \ varepsilon $
為著欲對一組樣本 $ ( y _ { i } , x _ { i } ) $(其中 $ i=一 , \ 二 , \ ldots , n $)掠中估計上合(精差上細)的 $ \ alpha $ 和 $ \ beta $,通常採用上細平方法,拍算目標為上細化殘差平方佮:
- $ \ sum _ { i=一 } ^ { n } \ varepsilon _ { i } ^ { 二 }=\ sum _ { i=一 } ^ { n } ( y _ { i }-\ alpha-\ beta x _ { i } ) ^ { 二 } $
使用微分法求極值:將頂式分別著 $ \ alpha $ 和 $ \ beta $ 做一坎偏微仔分,並令其等於零:
- $ \ left \ { { \ begin { array } { lcl } n \ \ alpha + \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ \ beta=\ sum \ limits _ { i=一 } ^ { n } y _ { i } \ \ \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ \ alpha + \ sum \ limits _ { i=一 } ^ { n } x _ { i } ^ { 二 } \ \ beta=\ sum \ limits _ { i=一 } ^ { n } x _ { i } y _ { i } \ end { array } } \ right . $
此二元一次線性方程組可用克萊姆法則求解,得解 $ { \ hat { \ alpha } } , \ { \ hat { \ beta } } $:
- $ { \ hat { \ beta } }={ \ frac { n \ sum \ limits _ { i=一 } ^ { n } x _ { i } y _ { i }-\ sum \ limits _ { i=一 } ^ { n } x _ { i } \ sum \ limits _ { i=一 } ^ { n } y _ { i } } { n \ sum \ limits _ { i=一 } ^ { n } x _ { i } ^ { 二 }-\ left ( \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ right ) ^ { 二 } } }={ \ frac { \ sum \ limits _ { i=一 } ^ { n } ( x _ { i }-{ \ bar { x } } ) ( y _ { i }-{ \ bar { y } } ) } { \ sum \ limits _ { i=一 } ^ { n } ( x _ { i }-{ \ bar { x } } ) ^ { 二 } } } \ , $
- $ { \ hat { \ alpha } }={ \ frac { \ sum \ limits _ { i=一 } ^ { n } x _ { i } ^ { 二 } \ sum \ limits _ { i=一 } ^ { n } y _ { i }-\ sum \ limits _ { i=一 } ^ { n } x _ { i } \ sum \ limits _ { i=一 } ^ { n } x _ { i } y _ { i } } { n \ sum \ limits _ { i=一 } ^ { n } x _ { i } ^ { 二 }-\ left ( \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ right ) ^ { 二 } } }={ \ bar { y } }-{ \ bar { x } } { \ hat { \ beta } } $
- $ S=\ sum \ limits _ { i=一 } ^ { n } ( y _ { i }-{ \ hat { y } } _ { i } ) ^ { 二 }=\ sum \ limits _ { i=一 } ^ { n } y _ { i } ^ { 二 }-{ \ frac { n ( \ sum \ limits _ { i=一 } ^ { n } x _ { i } y _ { i } ) ^ { 二 } + ( \ sum \ limits _ { i=一 } ^ { n } y _ { i } ) ^ { 二 } \ sum \ limits _{ i=一 } ^ { n } x _ { i } ^ { 二 } 鋪二 \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ sum \ limits _ { i=一 } ^ { n } y _ { i } \ sum \ limits _ { i=一 } ^ { n } x _ { i } y _ { i } } { n \ sum \ limits _ { i=一 } ^ { n } x _ { i } ^ { 二 }-\ left ( \ sum \ limits _ { i=一 } ^ { n } x _ { i } \ right ) ^ { 二 } } } $
- $ { \ hat { \ sigma } } ^ { 二 }={ \ frac { S } { n 鋪二 } } . $
共變異數矩陣是:
- $ { \ frac { 一 } { n \ sum _ { i=一 } ^ { n } x _ { i } ^ { 二 }-\ left ( \ sum _ { i=一 } ^ { n } x _ { i } \ right ) ^ { 二 } } } { \ begin { pmatrix } \ sum x _ { i } ^ { 二 } &-\ sum x _ { i } \ \-\ sum x _ { i } & n \ end { pmatrix } } $
平均響應信賴區間為:
- $ y _ { d }=( \ alpha + { \ hat { \ beta } } x _ { d } ) \ pm t _ { { \ frac { \ alpha } { 二 } } , n 鋪二 } { \ hat { \ sigma } } { \ sqrt { { \ frac { 一 } { n } } + { \ frac { ( x _ { d }-{ \ bar { x } } ) ^ { 二 } } { \ sum ( x _ { i }-{ \ bar { x } } ) ^ { 二 } } } } } $
預報響應信賴區間為:
- $ y _ { d }=( \ alpha + { \ hat { \ beta } } x _ { d } ) \ pm t _ { { \ frac { \ alpha } { 二 } } , n 鋪二 } { \ hat { \ sigma } } { \ sqrt { 一 + { \ frac { 一 } { n } } + { \ frac { ( x _ { d }-{ \ bar { x } } ) ^ { 二 } } { \ sum ( x _ { i }-{ \ bar { x } } ) ^ { 二 } } } } } $
變異數分析
咧變異數分析(ANOVA)中,總平方佮分解做兩个抑是閣較濟的部份。
總平方佮SST ( sum of squares for total ) 是:
- $ { \ text { SST } }=\ sum _ { i=一 } ^ { n } ( y _ { i }-{ \ bar { y } } ) ^ { 二 } $,其中:$ { \ bar { y } }={ \ frac { 一 } { n } } \ sum _ { i } y _ { i } $
仝等的所在:
- $ { \ text { SST } }=\ sum _ { i=一 } ^ { n } y _ { i } ^ { 二 }-{ \ frac { 一 } { n } } \ left ( \ sum _ { i } y _ { i } \ right ) ^ { 二 } $
迴歸平方佮SSReg ( sum of squares for regression。嘛聽好寫做模型平方佮,SSM,sum of squares for model ) 是:
- $ { \ text { SSReg } }=\ sum \ left ( { \ hat { y } } _ { i }-{ \ bar { y } } \ right ) ^ { 二 }={ \ hat { \ boldsymbol { \ beta } } } ^ { T } \ mathbf { X } ^ { T } \ mathbf { y }-{ \ frac { 一 } { n } } \ left ( \ mathbf { y ^ { T } uu ^ { T } y } \ right ) , $
殘差平方佮SSE ( sum of squares for error ) 是:
- $ { \ text { SSE } }=\ sum _ { i } { \ left ( { y _ { i }-{ \ hat { y } } _ { i } } \ right ) ^ { 二 } }=\ mathbf { y ^ { T } y-{ \ hat { \ boldsymbol { \ beta } } } ^ { T } X ^ { T } y } . $
總平方佮 SST 閣寫做 SSReg 和 SSE 的佮:
- $ { \ text { SST } }=\ sum _ { i } \ left ( y _ { i }-{ \ bar { y } } \ right ) ^ { 二 }=\ mathbf { y ^ { T } y }-{ \ frac { 一 } { n } } \ left ( \ mathbf { y ^ { T } uu ^ { T } y } \ right )={ \ text { SSReg } } + { \ text { SSE } } . $
迴歸係數R 二是:
- $ R ^ { 二 }={ \ frac { \ text { SSReg } } { \ text { SST } } }=一-{ \ frac { \ text { SSE } } { \ text { SST } } } . $
其他的方法
廣義上小平方法
廣義上細平方法會當用咧做觀測誤差有各樣的精差或者是自我相關的狀況下。
母體上細平方法
母體上細平方法用佇自變數有誤時。
廣義線性模式
廣義線性模式應用佇做誤差分布函數毋是常態分布的時陣。比如指數分布,伽瑪分布,逆高斯分布,卜瓦松分布,二項式分布等等。
穩健迴歸
共平均絕對差上小化,無仝佇咧線性迴歸中是將平均方精差上小化。
線性迴歸的應用
趨勢線
一條趨勢線代表著時間序列數據的長期走勢。伊共阮講一組特定數據(如 GDP、石油價數佮股票價數)敢是佇一段時期內增加或者是下降。雖罔咱會當用肉眼觀察數據點佇咧坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性迴歸計算出趨勢線的位置佮趨率。
流行病學
有關係著薰對死亡率佮發病率的影響早期證據來自採用了迴歸分析的觀察性研究。為著欲分析觀測數據時減少偽相關,除上有興趣的流數以外,通常研究人員閣會佇𪜶的迴歸模型里包括一寡加額外變數。比如講,準講有一个回歸模型,佇這个迴歸模型中食薰行為是咱上感興趣的獨立變數,其相關的變數是經數年觀察會著的食薰者壽命。研究人員可能將社會經濟地位當做一个額外的獨立變數,已經確保任何經觀察所得的食薰對壽命的影響毋是因為教育抑是收入差異引起的。毋過,咱無可能共所有可能相濫結果的變數攏加入去到實證分析中。比如講,某一種不存在的基因可能會增加人死亡的機率,閣會予人食薰的增加。所以,比如採用觀察數據的迴歸分析得出的結論,隨機對照試驗定定會產生閣較予人信服的因果關係證據。彼會當控實驗袂當時,迴歸分析的衍生,如工具變數迴歸,會當試用來估計觀測數據的因果關係。
金融
資本資產定價模型利用線性迴歸以及 Beta 係數的概念分析佮計算投資的系統風險。這是對聯繫投資回報佮所有風險性資產回報的模型 Beta 係數直接提出的。
經濟學
線性迴歸是經濟學的主要實證工具。比如講,伊是用來預測消費支出,固定投資支出,儉貨投資,一國出口產品的買物件,進口支出,要求持有流動性資產,勞動力需求、勞動力供給。
參考文獻
引用
來源
冊
刊物文章
延伸閱讀
參見
外部連結
- Least-Squares Regression , PhET Interactive simulations , University of Colorado at Boulder