GB2312原文到GB2312机内码
ANSCII
汉字编码国家标准
区位码
01-09区 为特殊字符区
10-15区 为自定义区
16-87区 为汉字编码区
兼容演变:
1. 区位码标准中没有定义控制字符
解决方案:
将整个区位码向后移动32位(具体表现为每一字节都加上0x20)得到GB2312原码(国标码)
2. 原版ASCII与我们的初版国际码不兼容
解决方案:
将整个BG2312源码向后移动0x80(具体表现为每一字节都加上0x80)得到GB2312机内码
机内码解析
当小于 0x80
的时候 则被视为ANSCI码,被解析为英文
当大于 0x80
的时候(最高位为一),这个时候会将此位和后面一位,一起作为gb2312解析
字符集和编码方式的关系
字符集就是一堆字符的排序排列方式的集合。可以说跟电脑没关系
编码方式 指的是字符与计算机存储对应的映射关系
文件BOM头
BYTE ORDER MARK (字节顺序标记)