決策樹
決策論當中(如風險管理),決策樹(Decision tree)由一个決策圖佮可能的結果(包括資源成本佮風險)組成,用來創建到達目標的規劃。決策樹仔建立並用來輔助決策,伊是一種足特殊的樹仔結構。決策樹是一个利用親像樹仔仝款的圖形抑是決策模型的決策支持工具,包括隨機事件結果,資源代價佮實用性。伊是一个算法顯示的方法。決策樹仔定定咧走傱學中使用,特別是佇決策分析中,伊幫助確定一个會當上可能達成目標的策略。若佇咧實際中,決策不得不在沒有完備智識的情況下被在線採用,一个決策樹仔應該愛平行概率模型成做最佳的選擇模型抑是佇線選擇模型算法。決策樹的另外使用是做為計算條件概率的描述性手段。
簡介
機器學習當中,決策樹是一个預測模型;伊代表的是對象屬性佮對象值之間的一種映射關係。樹仔內底逐个點表示某一个對象,每一个分叉路徑是代表某一个可能的屬性值,逐个葉節點著愛對根節點著該葉節點所經歷的路徑所表示的對象的值。決策樹仔干焦有單一輸出,如果要有複數輸出,會當建立獨立的決策樹仔以處理無仝輸出。 數據挖著決策樹仔是一種定定愛用著的技術,會當用於分析數據,仝款嘛會當提來做預測。
對數據產生決策樹的機器學習技術叫做決策樹學習, 通俗講就是講決策樹。
一个決策樹仔包含三種類型的節點:
一 . 決策節點:通常用矩形框來表示二 . 機會儉點:通常用箍仔來表示三 . 終結點:通常用三角形來表示決策樹學習嘛是數據挖空中一个普通的方法。佇遮,逐个決策樹攏表示一種樹型結構,伊由伊的分支來對該類型的對象依靠屬性進行分類。每一个決策樹仔會當倚靠對源資料庫的分割進行數據測試。這个過程會當遞歸式的嘿樹仔進行修剪。當袂當閣進行分割抑是講一个單獨的類會當予應用佇某一分支的時,遞歸過程就完成矣。另外咧,隨機森林分類器共誠濟決策樹仔敆起來以提升分類的正確率。
決策樹同時嘛會當靠計算條件概率來構造。
決策樹若倚靠數學的計算方法會當取得閣較理想的效果。 資料庫已經如下所示:
( x , y )=( x 一 , x 二 , x 三…, xk , y )
相關的變量 Y 表示阮去試講去理解講,分類抑是閣較一般化的結果。 其他的變量 x 一 , x 二 , x 三等則是幫助咱達到目的變量。
類型
決策樹仔有幾種產生方法:
- 分類樹仔分析是做預計結果可能是離散類型(比如講三个種類的花,輸贏等)使用的概念。
- 回歸樹仔分析是當局域結果可能為實數(譬如講厝價,患者蹛院等等)使用的概念。
- CART分析是結合了成做二者的概念。CART 是 Classification And Regression Trees 的縮寫 .
- CHAID(Chi-Square Automatic Interaction Detector)
建立方法
一 . 用資料母群體為根節點。 二 . 作單因為人變異數分析等,揣出變化化上大的項作為分割準則。(決策樹逐个葉節點就算做一大串法則的分類結果。) 三 . 若判斷結果的正確率抑是涵蓋率無滿足的條件,則閣照上大變異量條件長出必叉。
佇教學中的使用
決策樹,影響性圖表,應用函數佮其他的這个決策分析工具佮方法主要的授課對象是學校里商業、健康經濟學佮公共衛生專業的本科生,屬於運籌學佮管理科學的範圍。
舉例闡述
下面咱用例來說明:
小王是一家出名高爾夫俱樂部的經理。毋過伊予人倩員數量問題舞甲心情足厲害。某一寡天敢若所有的人攏來𨑨迌高爾夫,所以這若所有辛勞攏無閒團轉抑是應付毋過來,毋知影啥物原因嘛無來,俱樂部為雇員數量浪費了袂少資金。
小王的目的是通過後禮拜的天氣報揣啥物時陣人會拍高爾夫,以適時的調整倩員的數量。所以起先伊著愛先了解人決定敢是拍球的原因。
佇兩禮拜的時間內咱得著以下的記錄:
天氣狀況有晴,雲和雨;氣溫用華氏溫度表示;相對溼度用百分比;猶閣有無風。當然閣有人客是毋是佇咧遮的日子光顧俱樂部。終其尾伊得著十四行五列的數據表格。
決策樹模型就予人起起來用來解決問題。
決策樹是一个有向無環圖。根結點代表所有的數據。分類樹算法會當通過變量 outlook,揣出上好來解說非獨立變量 play(拍高爾夫的人)的方法。變量 outlook 的範圍去予人劃做以下三个組:
出日頭,多雲天和雨天。
咱著出第一个結論:你若天氣是濟雲,人總是選擇耍高爾夫,干焦少數足吸引的甚至佇咧雨天嘛會耍。
紲落來咱共晴天組的分做兩部份,阮發現顧客無佮意溼度懸於百分之七十的天氣。終其尾阮閣有發現講,若是雨天閣有風風,就袂有人欲拍矣。
這就通過分類樹仔予出一个解決方案。小王(頭家啊)佇咧好天,溼澹的天氣抑是透風的雨天欲倩大部份的員工,因為這種天氣袂曉有人拍高爾夫。啊若其他的天氣會有足濟人拍高爾夫,所以會當倩一寡臨時員工來做工課。
公式
C 四配五和 C 五孵空生成樹算法使用鼻。這擺量是基於資訊科學理論中樞的概念。
$ $ I _ { E } ( i )=-\ sum _ { j=一 } ^ { m } f ( i , j ) \ log _ { 二 } ^ { } f ( i , j ) $ $
決策樹仔的優點
相對的其他的數據挖算法,決策樹仔佇以下幾个方面有優勢:
- 決策樹仔好理解佮實現 .咱咧通過解說了後攏有能力去理解決策樹所表達的意義。
- 對決策樹,數據的準備往往是簡單抑是無必要的 .其他的技術往往要求先共數據一般化,譬如講去加額的抑是空白的屬性。
- 會當同時處理數據型佮常規型屬性。其他的技術往往要求數據屬性的單一。
- 是一个白盒模型若予定一个觀察的模型,遐爾仔根據所產生的決策樹真容易推出相應的邏輯表達式。
- 𠢕通過靜態測試來對模型進行評測。表示講有可能測量這个模型的可信度。
- 佇相對短的時間內會當對大型數據源做出可行而且效果良好的結果。
決策樹仔的缺點
決策樹:
- 對遐的各類別樣本數量無仝款的數據,咧決策樹仔當中信息增益的結果偏向著遐的具有閣較濟數值的特徵。
決策樹仔的剪枝
剪枝是決策樹仔停止分支的方法之一,鉸枝椏有分預先鉸枝佮後鉸枝兩種。預先鉸枝是佇樹仔的成長過程中設定一个指標,達到彼个指標的時陣就停止生長,按呢做容易產生「視界局限」,就是一旦停止分支,會當予伊較節點 N 成做葉節點,就斷去矣其後繼節點進行「好」咧分支操作的任何可能性。無嚴格的講這會已經停止的分支會誤導學習算法,致使產生的樹仔無純度降差上大的所在傷過份較倚根節點。後鉸枝中樹首先愛充分生長,到葉節點攏有上細葉的不純度為止,因為會使克服「視界局限」。 然後對所有相鄰的成對葉節點考慮敢是消去𪜶,若消去會當引起予人滿意的無純度增長,遐爾執行消去,並令𪜶的公共父節點成做新的葉節點。這種「合併」葉節點的做法佮節點分的過程拄好顛倒反,啊經過剪枝了後葉節點定會分布佇真闊的層次上,樹嘛變甲非平衡。後鉸枝技術的優點是克服矣「視界局限」效應,而且無需要保留部份樣本用佇交叉驗證,所以會當充分利用全部訓練集的批息。但後鉸枝的計算量代價比預鉸枝方法較大的部份,特別是佇大樣本集中,毋過對細項的情形,後剪枝方法抑是真優剪枝方法的。
決策樹擴展做決策圖
佇決策樹中所有對根到葉節點的路草攏是透過「佮」(AND)運算連接。咧決策圖內底會當使用「抑是」來連接加於一个的路徑。
決策樹仔的實現
Bash
決策樹的代碼實現會當參考:決策樹仔算法實現—— Bash
相關條目
- 貝葉斯定理
- 貝葉斯概率
- 專家系統
- 真值表
- 運籌學
- 形態學分析
- 決策表
- 馬爾科夫鏈
參考文獻
- [一] T . Menzies , Y . Hu , Data Mining For Very Busy People . IEEE Computer , October 兩千空三 , pgs . 十八否二十五 .
- [二] 決策樹仔分析 mindtools . com
- [三] J . W . Comley and D . L . Dowe , " Minimum Message Length , MDL and Generalised Bayesian Networks with Asymmetric Languages " , 第十一章 ( pp 兩百六十五孵兩百九十四 ) in P . Grunwald , M . A . Pitt and I . J . Myung ( eds ) . , Advances in Minimum Description Length : Theory and Applications , M . I . T . Press , April 兩千空五 , ISBN 二四六千兩百空七陽兩千六百二十九 .(本論文共決策樹成做貝葉斯網絡使用 Minimum Message Length ( MML 的內部結點 ) . 早期版本:Comley and Dowe ( 兩千空三 ) , . pdf .)
- [四] P . J . Tan and D . L . Dowe ( 兩千空四 ) , MML Inference of Oblique Decision Trees , 人工智慧講義三千三百三十九 , Springer-Verlag , pp 一千空八十二追一千空八十八 .(此論文使用 Minimum Message Length .)
- [五] Eruditionhome 數據挖的資源大詞典
- [六] 決策樹基礎 vanguardsw . com
- [七] General Morphological Analysis : A General Method for Non-Quantified Modelling From the Swedish Morphological Society
- [八] decisiontrees . net Interactive Tutorial
- [九] [Morgan . Kaufmann . Data . Mining . Practical . Machine . Learning . Tools . and . Techniques . Second . Edition] Jun . 兩千空五 , 非常好的一本紹介決策樹仔的冊,是一本會當對基礎學起的好冊,另外介紹的 weka 決策樹軟體嘛袂䆀。是 JAVA 編的。