中文在UTF8和GBK編碼中的範圍 - 程式人生
文章推薦指數: 80 %
編碼範圍 1. GBK (GB2312/GB18030) x00-xff GBK雙位元組編碼範圍 x20-x7f ASCII xa1-xff 中文 x80-xff 中文. 2. UTF-8 (Unicode) u4e00-u9fa5 (中文)
程式人生>>中文在UTF8和GBK編碼中的範圍
中文在UTF8和GBK編碼中的範圍
阿新••發佈:2019-01-26
文章來源:http://www.reai.us/chinese-in-utf8-and-gbk
編碼範圍
1.GBK(GB2312/GB18030)
x00-xffGBK雙位元組編碼範圍
x20-x7fASCII
xa1-xff中文
x80-xff中文
2.UTF-8(Unicode)
u4e00-u9fa5(中文)
x3130-x318F(韓文)
xAC00-xD7A3(韓文)
u0800-u4e00(日文)
ps:韓文是大於[u9fa5]的字元
正則例子(使用PHP):
preg_replace(“/([x80-xff])/”,”",$str); //GBK中匹配
preg_replace(“/([u4e00-u9fa5])/”,”",$str); //UTF8中匹配
另外一些:
有時候我們也會用到全形英文、特殊符號等
全形英文的UTF8是:uff21–uff5a,是從大寫A開始到小寫的z。
utf8中的uff20是@
utf8中的uff01到uff09是我們美式鍵盤上shift+從1到9鍵上的特殊符號。
要注意的是因為@是uff20,所以uff02是雙引號,同時6的……是兩個符號的組合,所以也不存在,正題提前一位(也就是說ff06是&,ff09是))。
utf8中的全形數字是uff10–uff19,對應關係自然是 0–9。
solr索引庫的維護
«上一篇
前端ajax跨域問題分析下一篇»
相關推薦
中文在UTF8和GBK編碼中的範圍
文章來源:http://www.reai.us/chinese-in-utf8-and-gbk
編碼範圍
1.GBK(...
java中如何從字串中刪選中文字元(GBK編碼和UTF-8編碼)
1.GBK編碼中文佔兩個位元組,英文佔一個位元組。
...
JAVA漢字在UTF-8和GBK編碼中佔用位數
做JAVA開發好久了,發現好多基礎的東西竟然還是不知道,平時也沒有寫筆記的習慣,就用CSDN來做...
C++實現utf8和gbk編碼字串互相轉換
不同系統或者伺服器之間訊息傳遞經常遇到編碼轉換問題,這裡用C++實現了一個輕量的gbk和utf8互相轉換,可跨平...
linux&windowsutf8和gbk編碼識別&互相轉換
linux預設是utf8編碼,Windows預設是gbk編碼,linux系統下可用locale命令檢視系統編碼。
...
php實現gbk和uft8編碼中英文字元擷取函式的應用
延伸文章資訊
- 1utf-8 繁体中文编码表范围是多少 - 百度知道
UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去 ...
- 2中文在UTF8和GBK编码中的范围- 爱E族 - 发现
编码范围 1. GBK (GB2312/GB18030). x00-xff GBK双字节编码范围; x20-x7f ASCII字符; x80-xff 中文(GBK中文范围). xa1-xff 中...
- 3UTF-8 - 维基百科,自由的百科全书
其中ASCII only曲线包括所有仅包含ASCII字符的网页,无论元数据中声明如何。 自2009年以来,UTF-8一直是万维网的最主要的编码形式(对所有,而不仅是Unicode范围 ...
- 4UTF-8 中文编码范围 - CSDN博客
网上一般给出的编码范围:UTF-8 (Unicode) - u4e00-u9fa5 (中文) - x3130-x318F (韩文) - xAC00-xD7A3 (韩文) - u0800-u4e0...
- 5UTF8中文编码范围 - Bill's Blog