常用的UTF格式
- UTF-8 : 1~4字节不等长方案
- UTF-16 : 2个字节无符号整数存储Unicode字符
- UTF-32 : 4个字节无符号整数存储Unicode字符
基本上所有操作平台都以UTF-8为默认存储编码方案。
UTF-16因为等长,浪费空间少,拥有更好的处理性能,如: DotNet 、Java等使用2个字节Unicode Char
按照大小端划分,UTF又可以分为BE与LE
为方便系统识别,需要在字符串头部添加BOM信息
"FE FF" 表示 BE
"FF FE" 表示 LE