GB2312原文到GB2312机内码

Asura 2018年03月27日 90次浏览

GB2312原文到GB2312机内码

ANSCII

汉字编码国家标准

区位码

01-09区 为特殊字符区
10-15区 为自定义区
16-87区 为汉字编码区

兼容演变:

1. 区位码标准中没有定义控制字符
    解决方案:
    将整个区位码向后移动32位(具体表现为每一字节都加上0x20)得到GB2312原码(国标码)
2. 原版ASCII与我们的初版国际码不兼容
    解决方案:
    将整个BG2312源码向后移动0x80(具体表现为每一字节都加上0x80)得到GB2312机内码

机内码解析

当小于 0x80的时候 则被视为ANSCI码,被解析为英文
当大于 0x80 的时候(最高位为一),这个时候会将此位和后面一位,一起作为gb2312解析

字符集和编码方式的关系

字符集就是一堆字符的排序排列方式的集合。可以说跟电脑没关系
编码方式 指的是字符与计算机存储对应的映射关系

文件BOM头

BYTE ORDER MARK (字节顺序标记)