|
发表于 2006-12-30 18:48:05
|
显示全部楼层
以下是Unicode和UTF-8之间的转换关系表:- U-00000000 - U-0000007F: 0xxxxxxx
- U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
- U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
- U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
- U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
复制代码 我们不讨论 UNICODE 与 UTF-8 之间的转换,只要楼主注意到 UTF-8 的码形规律,即:
通过一个编码的首字节的最高位的 1 的个数就可以判断出它是一个几字节的编码 |
|