字符集相关概念

编码: 字符串->字节数组

解码:字节数组->字符串

相关字符集介绍

  • ASCII (american standard code for information interchange 美国信息交换标准代码)7 bit 表示来表示一个字符,共计可以表示128中字符

  • Ios-8859-1 8 bit 表示一个字符 ,即使用一个字节 8 bit表示一个字符 共计可以表示 256个字符

  • Gb2312 2个字节表示一个汉字

  • Gbk 对 Gb2312的扩展 支持生僻字

  • Gb18030 表示汉字最多的

  • Big5 繁体中文

  • Unicode 最广泛的编码,两个字节表示一个字符 包含全球所有文字

缺点 : 存储空间会变大(英文国家)

  • Utf unicode是一个编码方式,而utf是一个存储方式 utf-8 是unicode的实现方式之一

  • Utf-16LE(小端) UTF16BE(大端)

    文件起始位置 0xFEFF (BE) 0XFFFE(LE)

  • Utf-8 变长字节表示形式

一般来说,utf-8 会通过3个字节表示一个中文