字符串编码方案

常用的UTF格式

  1. UTF-8 : 1~4字节不等长方案
  2. UTF-16 : 2个字节无符号整数存储Unicode字符
  3. UTF-32 : 4个字节无符号整数存储Unicode字符

基本上所有操作平台都以UTF-8为默认存储编码方案。
UTF-16因为等长,浪费空间少,拥有更好的处理性能,如: DotNet 、Java等使用2个字节Unicode Char

按照大小端划分,UTF又可以分为BE与LE

为方便系统识别,需要在字符串头部添加BOM信息

"FE FF" 表示 BE

"FF FE" 表示 LE