跳至內容

GB二千三百十二

出自Taiwan Tongues 台語維基
於 2025年8月22日 (五) 15:22 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

GB / T  二千三百十二GB / T  二千三百十二—八十抑是GB / T  二千三百十二—一千九百八十是中華人民共和國國家標準簡體中文字符集,全稱《信息交換用漢字編碼字符集 ・ 基本集》,通常簡稱GB(「 國標」漢語拼音首字母), 閣稱GB 零,因為中國國家標準總局佇一九八空年發佈,一九八一年五月初一實施。GB / T  兩千三百十二編碼通行佇中國大陸;新加坡遮的所在嘛是採用這个編碼。中國大陸差不多所有的中文系統佮國際化的軟體攏支持 GB / T  二千三百十二。

GB / T  二千三百十二標準共收錄六千七百六十三个漢字,其中一級漢字三千七百五十五个,二級漢字三千空八个;同齊咧收錄矣包括拉丁字母、希臘字母、日文平假名佮片假名字母、俄語西里爾字母在內的六百八十二个字符。

GB / T  二千三百十二的出現,基本滿足了漢字的計算機處理需要,伊所收錄的漢字已經崁著中國大陸百分之九十九石七五的使用頻率。猶毋過對人名、古漢語等方面出現的罕用字佮繁體字,GB / T  二千三百十二袂當處理,是由一系列的國標輔助集負責編碼佮顯示(如 GB / T  一孵兩千三百四十五《信息交換用漢字編碼字符集第一輔助集》、GB / T  七千五百八十九《信息交換用漢字編碼字符集第二輔助集》佮 GB / T  七千五百九十《信息交換用漢字編碼字符集第四輔助集》)。 後來 GBK 佮 GB  一鋪八千空三十漢字符集相繼續出現以解決遮的問題。

GB / T  二千三百十二中嘿所收漢字進行矣「分區」處理,每一區含有九十四个漢字/符號,計共是九十四个區。實際上,GB / T  兩千三百十二只使用八十七區。

用所在的區和位來表示字符(實際上就是碼位)的方法講是區位碼(檢采叫「區位號」更為恰當)。 比如講「ua-sá-bih」字佇四十五區八十二位,所以乎「ua-sá-bih」字的區位碼是四十五孵八十二(四十五是「區碼」,八十二是「位碼」)。 阮咧儉入去電腦的時陣,電腦會佇區位碼頂懸加上特定數字了後才保存入去內存以確保佮其他編碼兼容(如 ASCII)。 捘碼了後,區位碼的「區碼」會變做是「高位字節」,而且「位碼」會變做是「低位字節」。

下列是 GB / T  兩千三百十二分區了後佇區段內儲存的字符:

  • 一 ~ 九區(六百八十二个): 特殊符號、數字、英文字符、制表符等,包括拉丁字母、希臘字母、日文平假名佮片假名字母、俄語西里爾字母等在內的六百八十二个全形字符;
  • 十 ~ 十五區:空區,愛留待擴展;佇附錄三,第十區推薦做 GB  一千九百八十八—八十中的九十四个圖形字符區域(即第三區字符之半形版本)。
  • 十六 ~ 五十五區(三千七百五十五个): 常用漢字(也講一級漢字), 照拼音排序;
  • 五十六 ~ 八十七區(三千空八个): 足濟用漢字(嘛講二級漢字), 照起工 / 筆畫排序;
  • 八十八 ~ 九十四區:空區,愛留待擴展。

佇咧 GB  兩千三百十二內,每一个漢字佮符號的碼位使用兩字節來表示。第一字節號做「高位字節」,對應分區的編號(共區位碼的「區碼」加上特定值); 第二字節號做「低位字節」,對應區段內底的一个別碼位(共區位碼的「位碼」加上特定值)。

ISO 二千空二十二-CN(國標碼、交換碼)

為著欲避開 ASCII 字符中的 CR 零不可顯示字符(十六進位為 ` 零 × 零 ` 至 ` 零 × 一 F `,十進位為零至三十一)佮空格字符(十六進位為 ` 零 × 二十 `,十進位為三十二), 國標碼(閣號做交換無)參考 ISO 二千空二十二規定表示非 ASCII 字符雙字節編碼範圍為十六進位為 ` < 二十一二十一 > `-` < 七 E 七 E > `,十進位為 ( 三十三 , 三十三 ) 至 ( 百二六 , 百二六 )。所以,咧進行碼位轉換的時陣,須將「區碼」和「位碼」分別加上三十二(十六進位為 ` 零 × 二十 `)成做國標碼。

佇這个編碼的模式內底,軟體需要使用低端控制字符(C 零), 高端控制字符(C 一)和 US-ASCII 字符集(GL)標註字符屬於單字節(ASCII)抑是雙字節,相對容易造成亂碼(若擲失控制 / 轉義字符)。

佇咧 GB / T  兩千三百十二內,高位字節使用了 ` 零 x 二十一—零 x 七十七 `(共一—八十七區的區號加三十二抑是 ` 零 × 二十 `), 低位字節使用了 ` 零 x 二十一—零 x 七 E `(共一—九十四加上三十二抑是 ` 零 × 二十 `)。

例:「 ua-sá-bih」字(區位碼四十五孵八十二)的 ISO 二千空二十二碼十進位為:( 四十五 + 三十二 , 八十二 + 三十二 )=( 七十七 , 一百十四 ),十六進位為:` < 四 D 七十二 > `

EUC-CN(機內碼、內碼)

因為國標碼佮通用的 ASCII 碼衝突,所以後續為著方便辨認單字節佮雙字節的編碼,部份廠商佇咧 ISO 二千空二十二的基礎頂懸共雙字節字符的二進位上懸位攏換做一,即比一於共 ISO 二千空二十二的每一字節攏閣加百二十八(十六進位為 ` 零 × 八十 `)得著「機內碼」表示,簡稱「內碼」。 共「區碼」和「位碼」分別加上一百六十(十六進位為 ` 零 ×A 零 `)嘛會用得得著仝款的機內碼表示,這種格式也就是講 EUC。使用 GB / T  二千三百十二的程序通常採用 EUC 儲存方法,通好兼顧 ASCII。這種格式號做EUC-CN。瀏覽器編碼表頂的「GB 二千三百十二」就是講這款表示法。

佇咧 GB / T  兩千三百十二內,高位字節使用了 ` 零 xA 一—零 xF 七 `(共一—八十七區的區號加百六十抑是 ` 零 ×A 零 `), 低位字節使用了 ` 零 xA 一—零 xFE `(共一—九十四加上百六十抑是 ` 零 ×A 零 `)。 非 ASCII 字符雙字節編碼範圍為十六進位為 ` < A 一 A 一 > `-` < FE FE > `,十進位為 ( 一百六十一 , 一百六十一 ) 至 ( 兩百五十四 , 兩百五十四 )。

例:「 ua-sá-bih」字(區位碼四十五孵八十二)的 EUC 碼十進位為:( 四十五 + 百六 , 八十二 + 百六 )=( 兩百空五 , 兩百四十二 ),十六進位為:` < CD F 二 > `

HZ

HZ 編碼是由李楓峰佇一九八八年發明的編碼系統。其目的是佇七位元組的限制之下(若電子批件)儲存 GB / T  兩千三百十二的雙字節符。其在 ISO 二千空二十二編碼字符的前後分別加上轉義字符 ` ~ { `(` 七 E 七 B `)和 ` ~ } `(` 七 E 七 D `)後,使用正常的 ASCII 轉碼變做 ASCII 字符。部份的機器嘛會當接受使用 EUC-CN 編碼的轉義字符。

例:「 ua-sá-bih」字(區位碼四十五孵八十二)的 ISO 二千空二十二碼十六進位做 ` < 四 D 七十二 > `。加上轉義字符了後,字符串變做 ` 七 E 七 B四 D 七十二七 E 七 D `。HZ 的這个編碼即為 ` ~ { Mr ~ } `(` M ` 的 ASCII 碼是 ` 零 × 四 D `,` r ` 的 ASCII 碼是 ` 零 × 七十二 `)。

  • 收兩个無合乎中華人民共和國的標準的簡化字:
  • ua-sá-bih(六十八—四十一): 由「ua-sá-bih [審]」類推簡化而來,猶毋過《簡化字總表》已經將「ua-sá-bih」簡化罔做「沈」。 舊版《新華字典》收有這个字,釋為「汁」;新版取消,併入「沈」。
  • ua-sá-bih(七十九—六十四): 由「ua-sá-bih [ua-sá-bih]」類推簡化而來,猶毋過《簡化字總表》已經將「ua-sá-bih」簡化罔做「旋」。
  • 收三个繁體字:
  • 鍾(七十九—八十一): 原版收入使用繁體偏邊之「鍾」字,猶毋過《簡化字總表》已經將「鍾」和「鐘」簡化罔做「ua-sá-bih」;後壁的字模附錄共修正做「ua-sá-bih」。
  • 後(六十五—六十五): 該當字已經佇咧《簡化字總表》簡化還併成「后」(二十六—八十三)字,而且無說明在語義無清時用「後」來表示,可是 GB / T  二千三百十二葩爾爾。
  • 麴(八十四—八十): 原版收入使用繁體偏邊之「麴」字,猶毋過《頭一批異體字整理表》已經將「麴」和「ua-sá-bih」簡化罔做「曲」。 對應的簡省字「ua-sá-bih」是由日本的簡化漢字「ua-sá-bih」提交上 Unicode。二空一三年《通用規範漢字表》收錄「ua-sá-bih」以作人名使用(二千空一十三 : 七千七百四十八)。

GB  五千空七孵一—八十五《信息交換用漢字二十四 x 二十四點陣字模集》頭一遍的附錄嘿 GB / T  二千三百十二之閣較正,包括講:

  • 調整拉丁字母「g」的字型
  • 補充六个拼音符號 ɑ ḿ ń ň ǹ ɡ,用漢語的拼音
  • 「鍾」更正為「ua-sá-bih」
  • 佇第十區補充九十四个半字圖形字符(第三區之半形版本,相當於是 GB  一千九百八十八—八十)
  • 佇第十一區加入第八區首三十二个拼音符號(包括以上補充六个)之半形版本。

GB  五千空七孵一—八十五捌將「麴」(八十四—八十)換做「ua-sá-bih」,猶毋過後壁修訂(GB  五千空七孵一—兩千空一和 GB / T  五千空七孵一—二千空一十)佮其他字模集猶原保留 GB / T  兩千三百十二的繁體偏邊仔「麥仔」之「麴」。

GB / T  兩千三百十二本身一直無修訂,毋過這寡修訂部份收入相關字模集(下詳細)、 GB / T  一孵兩千三百四十五、後壁了 GBK 佮 GB  一孵八千空三十。

GB / T  兩千三百十二亦用於 ISO-IR 刣百六五。

有兩種無仝的 GB / T  兩千三百十二實現,𪜶之間存在少量的差別,其中上無有一个是錯誤的。

GBK 子集佮 GBK / GB 一孵八千空三十兼容,GB 二千三百十二 . TXT 無兼著。後者是因為 ftp . unicode . org 捌提供的 GB 二千三百十二 . TXT 實現,佇二空一一年由官方來棄用,二空一六年九月時已經無原文件影跡。此外猶閣有足濟種廠商實現。

節甲二空一五年   ( 二千空一十五-Missing required parameter 一=_ month _ ! ),微軟 . NET 使用的是「GBK 子集」實現。ICU、libiconv 抹一爿四、php 抹五鋪六、ActivePerl 抹五鋪二空、Java 一鈕七、Python 三-c四攏使用「GB 二千三百十二 . TXT」實現。Ruby 二嬸二兼容兩个編碼,但是內部使用「GBK 子集」實現。W 三 C 的編碼技術指南規定,應將 ` gb 二千三百十二 ` 字節流看做是 GBK 編碼,佮 GB 一孵八千空三十一併使用同一解碼器解碼。

  • GB 五千空七孵一—八十五《信息交換用漢字二十四 x 二十四點陣字模集》
  • GB 五千空七堵二—八十五《信息交換用漢字二十四 x 二十四點陣字模數據集》
  • GB 五千一百九十九尺一—八十五《信息交換用漢字十五 x 十六點陣字模集》
  • GB 五千一百九十九尺二—八十五《信息交換用漢字十五 x 十六點陣字模數據集》
  • GB 六千三百四十五孵一—八十六《信息交換用漢字三十二 x 三十二點陣字模集》
  • GB 六千三百四十五孵二—八十六《信息交換用漢字三十二 x 三十二點陣字模數據集》
  • GB 一孵二千空三十四—八十九《信息交換用漢字三十二 x 三十二點陣仿宋體字模集佮數據集》
  • GB 一孵二千空三十五—八十九《信息交換用漢字三十二 x 三十二點陣楷體字模集佮數據集》
  • GB 一孵二千空三十六—八十九《信息交換用漢字三十二 x 三十二點陣烏體字模集佮數據集》
  • GB 一孵二千空三十七—八十九《信息交換用漢字三十六 x 三十六點陣宋體字模集佮數據集》
  • GB 一孵二千空三十八—八十九《信息交換用漢字三十六 x 三十六點陣仿宋體字模集佮數據集》
  • GB 一孵二千空三十九—八十九《信息交換用漢字三十六 x 三十六點陣楷體字模集佮數據集》
  • GB 一孵二千空四十—八十九《信息交換用漢字三十六 x 三十六點陣烏體字模集佮數據集》
  • GB 一孵二千空四十一—八十九《信息交換用漢字四十八 x 四十八點陣宋體字模集佮數據集》
  • GB 一孵二千空四十二—八十九《信息交換用漢字四十八 x 四十八點陣仿宋體字模集佮數據集》
  • GB 一孵二千空四十三—八十九《信息交換用漢字四十八 x 四十八點陣楷體字模集佮數據集》
  • GB 一孵二千空四十四—八十九《信息交換用漢字四十八 x 四十八點陣烏體字模集佮數據集》
  • GB / T 一孵三千四百四十三—九十二《信息交換用漢字百二八 x 一百二十八點陣楷體字模集佮數據集》
  • GB / T 一孵三千四百四十四—九十二《信息交換用漢字百二八 x 一百二十八點陣仿宋體字模集佮數據集》
  • GB / T 一孵三千四百四十五—九十二《信息交換用漢字兩百五十六 x 兩百五十六點陣楷體字模集佮數據集》
  • GB / T 一孵三千四百四十六—九十二《信息交換用漢字兩百五十六 x 兩百五十六點陣仿宋體字模集佮數據集》
  • GB / T 一孵三千八百四十四—九十二《圖形信息交換用硬時行漢字單線宋體字模集佮數據集》
  • GB / T 一爿三千八百四十五—九十二《圖形信息交換用硬躘漢字宋體字模集佮數據集》
  • GB / T 一爿三千八百四十六—九十二《圖形信息交換用矢量漢字仿宋體字模集佮數據集》
  • GB / T 一孵三千八百四十七—九十二《圖形信息交換用硬躘漢字楷體字模集佮數據集》
  • GB / T 一爿三千八百四十八—九十二《圖形信息交換用硬躘漢字烏體字模集佮數據集》
  • GB 二千三百十二八十信息交換用漢字編碼字符集基本集-中華人民共和國教育部政府入口網站
  • TransWiki 中文-GB 二千三百十二漢字拼音對照表
  • GB 兩千三百十二簡體中文編碼表
  • 信息交換用漢字編碼字符集屬性(官方)
  • GB 兩千三百十二孵八十 ( CJKV Information Processing , Appendix E ) " STSong-Light " font designed by Changzhou SinoType Technology
  • 容冊館員 のコンピュータ 基礎講座:GB 兩千三百十二孵八十 コード 表(日本語)
  • 仝一个時期的其他漢字的編碼:大五碼(Big 五)、 國家標準中文交換碼(CNS 一孵一千六百四十三)、 CCCII、香港增補字符集(HKSCS)、 JIS X 兩百空八
  • Unicode、通用字符集(ISO / IEC 一孵空六百四十六)
  • 中日韓統一表意文字
  • GB / T  一孵兩千三百四十五