跳至內容

漢字內碼擴展規範

出自Taiwan Tongues 台語維基
於 2025年8月22日 (五) 18:06 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

漢字內碼擴展規範,簡稱GBK,攏號做《漢字內碼擴展規範 ( GBK )》一孵空版,由中華人民共和國全國信息技術標準化技術委員會一九九五年十二月初一制訂,國家技術監督局標準化司佮電子工業部科技佮質量監督司一九九五年十二月十五號聯合以《技術標函 [一千九百九十五] 兩百二十九號》文件的形式公布。GBK 將收錄二石一千八百八十六个漢字佮圖形符號,其中漢字(包括部首佮構件)二嬸一千空三个,圖形符號八百八十三个。

GBK 為「國家標準擴展」的漢語拼音(GuójiāBiāozhǔnKuòzhǎn)中的「國」「標」「擴」頭一个聲母。英文全稱 Chinese Internal Code Extension Specification。

GBK 只為講「技術規範指導性文件」,無屬於國家標準。國家質量技術監督局佇二空空年三月十七推出了 GB 一孵八千空三十五二千標準,以取代 GBK。GB 一孵八千空三十五二千除保留全部 GBK 編碼漢字,佇第二字節共用的範圍閣再進行擴展,增加大約一百个漢字佮四字節編碼空間,但是將 GBK 作為子集全部保留。請參看 GB 一孵八千空三十。

歷史

一九九三年,Unicode 一孵一版本推出,收錄中國大陸、台灣、日本和韓國通用字符集的漢字,攏總有二十 , 九百空二个。中國大陸定著等仝款 Unicode 一孵一版本的「GB 一爿三千學一爿九十三」「信息技術通用多八位編碼字符集(UCS)第一部份:體系結構佮基本誠濟文種平面」。

因為 GB 二千三百十二塗八十只收錄六千七百六十三个漢字,有袂少漢字,按呢若部份佇 GB 二千三百十二顧八十推出了後才簡省的漢字(如「ua-sá-bih」), 部份的人名用字(如講中國前總理朱鎔基的「ua-sá-bih」字), 台灣佮香港用的繁體字,日語和韓語漢字等等,並無收錄在內。所以廠商就按呢軟軟仔利用 GB 二千三百十二孵八十未使用的編碼空間,收錄 GB 一孵三千石一爿九十三全字符制定矣 GBK 編碼。

根據微軟的資料,GBK 是嘿 GB 兩千三百十二孵八十的擴展,也就是講 _ CP 九百三十六字碼表(Code Page 九百三十六)_ 的擴展(進前 CP 九百三十六佮 GB 兩千三百十二孵八十一模一樣), 上早實現於 Windows 九十五簡體中文版。雖然 GBK 收錄 GB 一交三千學一交九十三的全部字符,猶毋過 GBK 是一種編碼方式並且向下兼容 GB 二千三百十二;而且 GB 一爿三千石一爿九十三等仝款 Unicode 一孵一是一字符集,伊的幾種編碼方式如 UTF 八、UTF 十六 LE 等,佮 GBK 完全無兼容。

編碼方式

字符有一字節佮雙字節編碼,` 零 `–` 七 F ` 範圍內底是第一字節,和 ASCII 保持一致,此範圍內嚴格頂懸講有九十六个文字佮三十二个控制符號。

了後的雙字節內底,頭前一字節是雙字節的第一位。總體上講第一字節的範圍是 ` 八十一 `–` FE `(也就是無含 ` 八十 ` 和 ` FF `), 第二字節的一部份領域佇咧 ` 四十 `–` 七 E `,其他的領域佇咧 ` 八十 `–` FE `。

具體來講,定義的是下列字節:

雙字節符號會當表達的六十四 K 空間如下圖所示。綠色佮黃色的區域是 GBK 的編碼,紅色是用戶定義區域。無色水的區域是無正確的代碼組合。

佮其他編碼的關係

GBK 向下跤完全兼容 GB 兩千三百十二孵八十編碼。支持 GB 二千三百十二顧八十編碼不支持的部份中文姓,中文繁體,日文假名,閣包括希臘字母佮俄語字母等字母。猶毋過這種編碼無支持韓國字,嘛是其實際使用中佮 unicode 編碼顛倒比欠缺的部份。

寫真濟 GBK / 一和 GBK / 二的領域即 GB 二千三百十二塗八十用通常方法編碼的區域。GB 二千三百十二(正確講法是按怎根據 EUC-CN 的編碼)和 ISO / IEC 二千空二十二中調用 GR 其他九十四 ² 字符集仝款,` A 一 `–` FE ` 的範圍開始讀字節著。這是伊頂圖中正下角的部份。猶毋過,GB 二千三百十二中對著 ` AA `–` AF ` 和 ` F 八 `–` FE ` 區域是空的,無予伊編碼。所以 GBK 就佇遮的領域內底進行拓展。二者賰的部份作為用戶定義區。

閣較重要的是,GBK 進行了字節範圍的擴展。ISO / IEC 二千空二十二中 GR 區域的字數有九十四 ²=八 , 八百三十六字的限制。只要放棄 ISO / IEC 二千空二十二中針對圖形文字佮控制文字予嚴格的範圍的模式,下位字節做單字節文字,頂頭字節對保留對應字符的功能,藏佇的一百二十八 ²=十六 , 三百八十四的代碼位置就會當使用。GBK 採用其中的一部份,第一字節對 ` A 一 `–` FE `(每一字節有九十四个選項)擴展做 ` 八十一 `–` FE `(一百二十六个選項), 第二字節的範圍是 ` 四十 `–` FE `(彼百九十一个選項), 總共有二鋪四千空六十六(百二六 \ * 一百九十一)個位置。

佮 CP 九百三十六字碼表較

小可仔軟佇咧新小可仔 CP 九百三十六中使用單字節零 x 八十代表歐元字符(U + 二十 AC), 而且《規範》之 GBK 編碼無插這个字符。

輸入方法

  • VimIM 佇咧 Vim 環境內底,會當直接鍵入十進位抑是十六進位 GBK 碼。也毋免啟動輸入法,嘛無需要碼表。

參見

  • 國家標準代碼
  • Unicode

注釋

外部連結

  • ICU : UNICODE
  • -GBK table
  • 微軟 CP 九百三十六編碼表
  • GBK 編碼表