字符编码

总结

  1. ASCII编码 1字节代替,0~127,共28个字符
  2. GBK字符用于编码汉字
  3. Unicode是等长编码,编码所有语言数字
  4. UTF-8是变长编码,Unicode的改进版
  5. UTF-16和UTF-32是定长编码,UTF-8和Unicode是变长编码
    1. 定长方便访问,变长要全部遍历,所以慢
    2. 定长好计算长度
    3. 分割、连接、插入、删除容易
  6. 编码语言的字符编码不同
    1. java、js、c#用UTF-16,不够用,所以会出现代理对
    2. python使用 Unicode 编码,并采用一种灵活的字符串表示
    3. GO和Rust用UTF-8
  7. 文件存储或网络传输中,通常 UTF-8 格式,优兼容性和空间性

内容来源

3.4   字符编码 * - Hello 算法