跳至內容

GB一孵八千空三十

出自Taiwan Tongues 台語維基
於 2025年8月22日 (五) 18:04 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

GB 一孵八千空三十,全稱《信息技術中文編碼字符集》,是中華人民共和國的國家標準所規定的變長多位元組字元集。其實乎 GB 兩千三百十二岫一千九百八十完全向下相容,佮 GBK 基本向下跤相容,並支援 Unicode(GB 一爿三千)的所有的碼位。

GB 一爿八千空三十主要有以下特點:

  • 用變長濟位元組編碼,逐字會當由一个、兩个抑是四个元組組成。
  • 編碼空間傷大,上濟會當定義百六十一萬个字。
  • 完全支援 Unicode,免動用造字區即可支援中國國內少數民族文字、中日韓和繁體漢字以及 emoji 等字元。

GB 一孵八千空三十佇咧微軟 Windows 系統中的頁碼是五更四千九百三十六。

GB 一孵八千空三十毋是一个漢字規範,無定義漢字的寫法。中國大陸佇這方面的規定由《通用規範漢字表》管理。

標準內容

本規格第一版 GB  一孵八千空三十五二千《信息技術信息交換用漢字編碼字符集基本集的擴充》」 是由中華人民共和國信息產業部電子工業標準化研究所起草,由國家質量技術監督局佇二空空年三月十七發布佮實施。該標準佇咧 GBK 基礎上增加矣 CJK 統一漢字擴充 A 的漢字。

本規格第二版做 GB  一孵八千空三十五二千空五《信息技術中文編碼字符集》,為國家品質監督檢驗總局佮中國國家標準化管理委員會佇二空空五年十一月初八發佈,二空空六年五月一號實施;是佇咧 GB 一孵八千空三十五二千基礎頂面增加 CJK 統一漢字擴充 B 的漢字。GB 一孵八千空三十五二千空五共收錄漢字七十 , 兩百四十四个。此標準內的單位元組編碼部份、雙位元組編碼部份,佮四个元組編碼部份收錄的少數中日韓統一表意文字擴充 A 區漢字,為強制性標準。其他的部份攏是屬於規模性標準。佇中華人民共和國境內所有軟體產品,攏需要支援這个同時包含單位元組、雙位元組佮四位元組編碼的規格。

GB 一孵八千空三十的第三版本,而且上新的版本為 GB 一孵八千空三十五二千空二十二《信息技術中文編碼字符集》,替國家市場監督管理總局佮國家標準化管理委員會佇二空二二年七月十九發佈、二空二三年八月一號實施。此版本咧保留總體結構的基礎頂懸,對條文強制改做全文強制,猶毋過增加「實現的級別」一章,定義三个實現級別,並要求「任何本檔案使用的產品攏應該滿足實現級別一」,佮頂一版的「部份強制」相比並,實際要求「增加四位元組編碼的部份的 CJK 統一漢字」的六十六字。另外咧,該版本完整崁二空一三年發布的《通用規範漢字表》,佇資料性附錄 E 著明確矣《通用規範漢字表》八千一百空五个漢字的代碼位置,並規定愛通過「實現級別二」來支援。

Unicode 支援

GB 一石八千空三十佇咧其標準中以碼表形式定義除去代理對外的全部 Unicode 碼位的定義,因此算是一種 Unicode 的變換格式的(UTF)。 因為 GB 一丈八千空三十基本上是踅開已經分配的碼點去指定需要對應的 Unicode,其變換和 UTF 鋪八相比欲複雜甲較濟。佇日常實現上,定定會直接使用一个偏移量表。

GB  一孵八千空三十—兩千空五佮 GB  一孵八千空三十—兩千、GBK 相比並,去除了真濟原來對映佇咧 PUA 中的編碼;尾仔賰的二十四个 PUA 碼位嘛佇咧 Unicode 四配一中加上。

佇咧 GB  一孵八千空三十—二千空二十二中,賰的二十四个 PUA 碼位已經予人去除抑是閣較改對應,所有的意義字元攏已經對映到正式的 Unicode 碼位頂。

位元組結構

GB 一孵八千空三十包含三種長度的編碼:單位元組的 ASCII、雙位元組的 GBK(略帶擴充)、 佮用於添補所有 Unicode 碼位的四位元組 UTF 區段。GBK 雙位元組部份通過查表定義,四位元組部份則根據進前兩个部份無講著的通用字元集碼位順序添補。因為佮 GBK 相容,GB 一孵八千空三十咧搜揣 ASCII 字元的時陣嘛需要用特別代碼來進行判斷。

一、兩位元組區段基本就是 GBK 編碼,另外加上了專門的歐元字元、祀排版本的標點符號,佮造字區嘿 Unicode 造字區的對應。四位元組區段會當看做兩段形似 GBK 兩位元組區段結構的部份,每一段的第一位元組會當替零 x 八十一到零 xFE,第二位元組做零 x 三十到零 x 三十九。因為結構類似,會當安全於 GBK 的字串尋尋程式對著 GB 一孵八千空三十來講嘛基本的安全(正如基於位元組的搜尋程式對 EUC、UTF 學八嘛基本安全一般。)

四个元組區段攏總會當表達一 , 五百八十七 , 六百(百二六 × 十 × 百二六 × 十)種字元,會使共崁 Unicode 的一 , 一百十二 , 六十四(十七 × 六嬸五千五百三十六 − 兩千空四十八个代理嘿)有效碼位。

因為四位元組區段通過填空定義,愛寫出處理這段轉換的程式需要同時知影 GBK 的崁範圍,無簡單:

` ` ` U + 零 DE ( Þ ) → 八十一三十八十九三十七 U + 零 DF ( ß ) → 八十一三十八十九三十八 U + 零 E 零 ( à ) → A 八 A 四 U + 零 E 一 ( á ) → A 八 A 二 U + 零 E 二 ( â ) → 八十一三十八十九三十九 U + 零 E 三 ( ã ) → 八十一三十八 A 三十 ` ` `

WHATWG 和 W 三 C 的 GB 一孵八千空三十實現通過一張「位偏徙表」記錄 GB 一鋪八千空三十四位元組區象連紲的幾塊碎片,通好好處理轉換。ICU 和 glibc 也攏對大塊連紲的區域使用了類似的策略。

版本

  • GB 一孵八千空三十五二千,相容 Unicode 三更空中日韓統一表意文字(就擴充 A 區), 收二十七 , 五百三十三个漢字;二空空空年三月十七發布、二空空空年七月一號實施。
  • GB 一孵八千空三十五二千空五,更新至 Unicode 三逢一中日韓統一表意文字(就擴充 B 區), 並刊載少數民族包括朝鮮文、蒙古文(包括滿文、托忒文、錫伯文、阿禮嘎禮文)、 德宏傣文、藏文、維吾爾文/哈薩克文/柯爾克茲文佮茲文的文字。把它有七十 , 兩百四十四个漢字;二空空五年十一月初八發布、二空空六年五月一號實施。
  • GB 一孵八千空三十五二千空二十二,更新至 Unicode 十一中日韓統一表意文字(補基本區的六十六字,並且咧擴充 A、B 區的基礎上增加擴充 C、D、E、F 區), 新增康熙部首,以及滇東北苗文、鋪排、西雙版納新傣文、西雙版納老傣文、德宏傣文等等少數民族文字佮蒙古文 BIRGA 符號,收錄漢字八十七 , 八百八十七个佮漢字部首兩百二十八个,比上一版增加錄入了一四七萬餘個生僻漢字;佇二空二二年七月十九發布、二空二三年八月一號實施。

參見

  • 國家標準代碼
  • GBK
  • 中文電碼
  • 一九八三年《標準電碼本(修訂本)》 的維基詞典頁面

注釋

參考資料

外部連結

  • 新湧網:關於著 GB 一石八千空三十漢字編碼標準集
  • 新湧網:電腦漢字無夠用電腦嘛愛「掃青盲」
  • Update on GB 一孵八千空三十 : 兩千空五 , Ken Lunde , 二千空六孵十一孵十三
  • http : / / source . icu-project . org / repos / icu / data / trunk / charset / data / xml / gb 抹一爿八千空三十五二千 . xml
  • ICU Converter Explorer : GB 一孵八千空三十(英語)
  • 軟膏膏有關 GB 一孵八千空三十編碼的介紹(英語)
  • 微軟:舊軟體可能發生的相容問題(英語)
  • 微軟 Win 兩千 GB 一孵八千空三十支援包
  • GB 一爿八千空三十佮 Unicode 對照表