檢視 Kepler(微架構) 的原始碼

'''克卜勒'''（Kepler）是英偉達佇二空一二年四月發佈的圖形處理器微架構的代號，是費米架構的繼承者。Kepler 是英偉達頭一款專注於節能的微架構。大多數啦 GeForce 六百系列、GeForce 七百系列和部份 GeForce 八百系列顯卡是因為 Kepler 架構，攏總使用二十八奈米製程。Kepler 架構嘛用佇咧 Tegra K 一 SOC 頂懸的圖處理器 GK 二十 A 以及 NVIDIA Quadro Kxxxx 系列顯卡、Quadro NVS 五百十顯卡佮 NVIDIA Tesla 計算卡。Kepler 的後繼者為麥斯維爾，並且佮 Maxwell 架構一併用於 GeForce 七百系列佮 GeForce 八百系列顯卡。

Kepler 架構的號名來自十七世紀科學革命使其的出名德國數學家約翰內斯 ・ 克卜勒（Johannes Kepler）。

==概覽==

佇咧 Kepler 的前一代架構 Fermi 中，英偉達主要專注提升計算和曲面細分的性能。毋過佇 Kepler 架構內底，英偉達轉向矣提升效率、可程式性佮性能。效率提升來自採用矣統一的 GPU 時鐘、簡化的靜態指令調度佮閣較優化的每瓦性能。做你廢棄過去 GPU 中採用的著色器時鐘需要額外的核心來達到高性能，但通過遮爾仔做猶原著通使用效率提升。這毋但是因為新的核心更加節能（根據英偉達的數據，兩个 Kepler 核心的功了不止仔成做一个 Fermi 核心的功磨的百分之九十）， 同時嘛是因為統一 GPU 時鐘予這部份的功了降低百分之五十。

有可程式性是通過 Kepler 架構的 Hyper-Q 技術、動態而且閣行較濟新的 Compute Capabilities 三 . x 功能到實現的。通過遮會當佇 GK 系列 GPU 中實現 GPU 懸利用率佮簡化的代碼管理，自按呢使得針對 Kepler 系列 GPU 的編程閣較靈活。

佇性能上，另外執行資源（閣較濟的 CUDA 核心、暫存器佮慢存）以及 Kepler 架構支持的六 GHz 內存速度予得 Kepler 架構的性能較過去的英偉達 GPU 顯示增強。

==功能==

GK 系列 GPU 包含著來自老的 Fermi 架構的佮新的 Kepler 架構的功能。猶毋過 Kepler 架構的 GPU 包含以下額外的基本功能：

* PCI Express 承喙
* DisplayPort 一孵二
* HDMI 一孵四 a 四 K x 二 K 視頻輸出
* NVIDIA PureVideo 硬體解碼加速（上大解碼四 K x 二 K H . 兩百六十四）
* 硬體 H . 兩百六十四編碼加速模塊（NVENC）
* 支持最大四路獨立的二維顯示器，抑是三路環踅 / 三 D 顯示器（NV Surround）
* 後一代流處理器（SMX）
* Polymorph-Engine 二孵空
* 簡化指令調度器
* Bindless Textures
* CUDA 版本三更空到三更五
* GPU Boost（佇咧 GK 一百十頂懸升級到甲二允空）
* TXAA 支持
* 台灣積體電路製造二十八 nm 製程
* 新的 shuffle 指令
* 動態並行
* Hyper-Q（Hyper-Q 的 MPI 功能只有 Tesla 支持）
* Grid 管理單元
* NVIDIA GPUDirect（GPU Direct 的 RDMA 功能只有 Tesla 支持）

===後一代流處理器（SMX）===

The Kepler architecture employs a new Streaming Multiprocessor Architecture called " SMX " .
Kepler 架構使用矣新的流處理器架構「SMX」。 SMX 因為採用著統一的 GPU 時鐘而成為著 Kepler 架構節能的主要原因。就算講採用統一時鐘的 SMX 來表現出的效果為濟个低主頻的 Kepler 的 CUDA 核比濟个高主頻的 Fermi 的 CUDA 核的功了低百分之九十，Kepler 架構需要閣較濟的處理單元來佇每一个時鐘來執行一組 wrap（執行緒束）。 共每組 CUDA 陣列的數量對十六个翻倍至三十二个解決矣 wrap 的執行問題。同時 SMX 前端也將 wrap 的調度器佮分配器翻倍，毋過暫存器堆嘛予人翻倍到六十四 K 條來滿足額外的執行單元的需要。面對晶片面積暴增的風險，SMX 的 PolyMorph Engine 並無嘛綴其他的部份翻倍，是升級到甲二四界零版本予伊會當佇閣較少的周期內地畫圖多邊形。專用的雙精度 CUDA 核心予人用來彌補 Kepler CUDA 核心為著節省晶片的面積放棄的雙精度計算能力。英偉達佇咧 SMX 上做的改進帶來矣 GPU 佇性能佮效率頂懸的提升。GK 一百十八葩的四十八葩 KB 材質緩存會被用於計算負載。佇計算負載中，材質緩存變為著一个干焦讀數據緩存，專供非對齊的內存訪問負載使用。同時，錯誤糾正功能嘛致使需要 ECC 的負載會當閣較安全地來運行。佇咧 GK 一百十中逐个執行緒的暫存器數嘛翻倍到甲兩百五十五个。

===簡化指令調度器===

另外的晶片面積是通過將複雜的硬體調度器簡化為軟體調度器紮來的。通過軟體調度，wraps 的調度被囥佇咧編譯階段。同時因為簡省了後 GPU 的計算流水線延遲固定，英偉達咧執行緒級並行以外嘛實現矣指令級並行。因為指令是予靜態調度的，通過採用固定延遲的指令會使實現一致性，而且靜態調度的編譯器降低一層複雜度。

===GPU Boost===

GPU Boost 是一个基本類似講 CPU 穗頻的新技術。GPU 總是會當一个上低的頻率運行，彼个稱為「基礎頻率」。 這个頻率是通過測試佇最高負載以下嘛會當保持佇 TDP 以內的方法出的。毋過當負載較低時，佇一定空間來提升頻率無超過 TDP。這款情形下，GPU Boost 將會一級沓沓仔提高 GPU 頻率，一直到 GPU 達到一个預設的功磨（恬恬認為一百七十 W）。 通過這種方法，GPU 會動態提懸抑是降低家己的頻率，對會使予伊佇 TDP 規範哪提供上大的速度。

預設功了佮每一級提升的頻率攏會當通過第三方工具調整，並且提供了予基於 Kepler 架構的 GPU 有夠頻的方法。

===Microsoft Direct 三 D 支持===

是因為 Fermi 和 Kepler 架構 GPU 的 GeForce 六百系列支持 Direct 三 D 十一孵空規範。英偉達原本聲稱 Kepler 規支持持 DirectX 十一孵一，包括講 Direct 三 D 十一孵一。
毋過以下「Modern UI」Direct 三 D 十一孵一功能並無予人支持：

* 目標獨立光柵化（干焦限二 D 渲染）
* 十六 xMSAA 光柵化（干焦限二 D 渲染）
* 正交線渲染模式
* 非像素著色階段的 UAV（Unordered Access View）

根據微軟的定義，Direct 三 D feature level 十一 \ _ 一必須愛完備，若無無法度執行 Direct 三 D 十一孵一
Kepler 架構內底的 Direct 三 D 功能佮採用 Fermi 架構的 GeForce 四百系列顯卡一致

===後一代 Microsoft Direct 三 D 支持===

是因為 Kepler 架構的 GeForce 七百分之六百系列顯卡支持 Direct 三 D 十二 feature level 十一 \ _ 零。

===TXAA 支持===

TXAA 是英偉達設計的新的抗鋸齒技術，敢有需要遊戲 ia̋n-jín 直接實這馬其中，而且干焦限於講 Kepler 系列 GPU。TXAA 是偌重採用抗鋸齒佮定製的濾鏡。TXAA 予人解決一个遊戲內底的關鍵問題：閃爍抑是 temporal aliasing。TXAA 通過柔化動態場景來確保遊戲的場景無包括任何的齒水齒佮閃爍爍。

===Shuffle 指令===

佇底層，GK 一百十一有額外的指令佮操作來進一步提升性能。新的 shuffle 指令允准佇一个 wrap 內底執行緒佇無訪問內存的情況下共享數據，予規个過程比原來的 load / share / store 方式閣較猛醒。原子操作嘛予人重新設計予原子操作的速度會當提升。同時閣添一寡原底只針對單精度浮點的操作的雙精度支持。

===Hyper-Q===

Hyper-Q 將 GK 一百十二的硬體工作隊列對原本的唯一一个提升到三十二个。佇咧 Fermi 架構內底，有時唯一的工作隊列被占據時工作量其實並無夠予逐个流處理器攏有頭路。擁有三十二个工作隊列，GK 一百十咧足濟情形下會當予原本的閬縫 SMX 工課起來對而達到閣較懸的利用率。Hyper-Q 的這種特質猶因為伊會當予閣較輕可仔炤著 MPI—— 一个常見的佇高性能計算中使用的通訊接口—— 被進一步增強。傳統的為濟个處理器系統設計的是因為 MPI 的算法所面臨的錯誤依賴問題通過 Hyper-Q 得著了解決。通過增加 MPI 做工課的數量，程式設計師將會當佇無修改代碼的情形下應用 Hyper-Q 來提升算法性能。

===動態並行===

動態並行（Dynamic Parallelism）會使得 kernel（核函數）有能力分發其他 kernel。佇咧 Fermi 架構內底，只有 CPU 嘛會使分發 kernel，自按呢增加佮 CPU 通批的開銷。會過通過予 kernel 分配子 kernel 的能力，GK 一百十會當既然會當減少佮 CPU 的通訊開銷，閣會當予 CPU 空落來去執行其他的任務。

===Grid 管理單元===

為著會當使用動態並行，GPU 需要一个新的 grid 管理系統佮分發控制系統。新的 Grid 管理單元（Grid Management Unit，GMU）管理 grid 的執行並決定𪜶執行的優先級。GMU 會用暫停新的 grid 的分發、將 grid 囥入隊列和終止 grid 到位𪜶準備好予執行。按呢乎，GMU 將會當提供支持運行如動態並行按呢強大的運行時的靈活性。
佇咧 Kepler 架構內底，CUDA Work Distributor（CWD）記持著將愛被分發的 grid。新的 CWD 有能力分發三十二个活動的 grid，比較 Fermi 架構的 CWD 反一倍。Kepler 架構的 CWD 佮 GMU 通過一个雙向連接進行交互，予得 GMU 會用暫停分發新的 grid、待機和甚至講終止 grid 一直到 CWD 需要。GMU 同時嘛有一个佮 SMX 單元的單向連接予使用動態並行來添加新的工課的 grid 會當共新做工課傳回予 GMU 進行排優先級佮分發。若準講加新的頭路的 kernel 暫停矣，GMU 共保持其休眠一直到伊依賴的工課完成。

===NVIDIA GPUDirect===

NVIDIA GPUDirect 是一項允准佇仝一台電腦抑是佇網路內底的濟台侍服器的 GPU 會當佇無需訪問 CPU 和系統內存的情形下交換數據的技術。GPUDirect 的 RDMA 功能夠額第三方設備如 SSD、NIC 和 IB 適配器等直接訪問仝一台機器上濟个 GPU 的內存，對而且顯示降低經過 MPI 讀寫 GPU 內存的延延。這項技術同時減輕了對系統內底貯闊的需求，並且使得 GPU 的 DMA 會當閒出來來執行其他的 CUDA 任務。是因為 Kepler 架構的 GK 一百十一猶閣支持包括 P 二 P 和 GPUDirect for Video 等 GPUDirect 功能。

===視頻解碼 / 編碼===

====NVDEC====

====NVENC====

NVENC 時英偉達的高效率固定編碼 ia̋n-jín，會當解碼、預處理佮編碼 H . 兩百六十四內容。NVENC 的輸入編碼干焦限制 H . 兩百六十四。毋過彌補這塊短板的是 NVENC 會當編碼四千空九十六 x 四千空九十六的內容。

如同 Intel 的 Quick Sync 技術，NVENC 的使用需要用著專有的 API。毋過英偉達並無計畫提供佇咧 CUDA 內調用 NVENC 的方法。

==性能==

Kepler 架構的 GPU 的理論單精度浮點運算能力以 GFLOPS 為單位大約二 ( 操作逐 FMA 指令逐 CUDA 核心逐指令周期 ) × CUDA 核心數 × 核心速度（以 GHz 為單位）。 值得注意的是佮上代的 Fermi 架構仝款，Kepler 架構袂使像 Tesla 架構仝款通過雙發射 MAD 和 MUL 指令來提升處理性能。

是因為 Kepler 架構的 GK 二百十分之一百十一 GPU 的理論雙精度浮點性會當大約是其單精度浮點性能的三分之一。毋過這个性能指標干焦佇專業級的 NVIDIA Quadro、NVIDIA Tesla 顯卡佮高端的 GeForce TITAN 顯卡上提供。面向普通消費者的 GeForce 顯卡驅動限制了雙精度浮點性能到單精度浮點性能的二十四分之一。GK 十 x 的雙精度浮點性能嘛予類似地限制到位矣單精度浮點性能的二十四分之一。

==是因為 Kepler 架構的晶片==

* GK 一百空四
* GK 一百空六
* GK 一百空七
* GK 一百十一
* GK 兩百空八
* GK 兩百十一
* GK 二十 A ( 圖穗 )

==注釋==

==參見==

* NVIDIA 顯示核心列表

==參考文獻==

[[分類: 待校正]]