unicode 或utf8 中文编码范围- xiao913 - 博客园

文章推薦指數: 80 %
投票人數:10人

常被提起中文编码范围[/u4E00-/u9FA5]但随便复制了个韩文下来,或者'お',都不行。

然后把范围扩大到^[/u2E80-/u9FFF]+$,这样倒是都通过了, ... 首页 新闻 博问 专区 闪存 班级 我的博客 我的园子 账号设置 简洁模式... 退出登录 注册 登录 xiao913 unicode或utf8中文编码范围 常被提起中文编码范围[/u4E00-/u9FA5]但随便复制了个韩文下来,或者'お',都不行。

然后把范围扩大到^[/u2E80-/u9FFF]+$,这样倒是都通过了,应该就是匹配中日韩文字的正则表达式了,包括臺灣使用的繁體字。

而关于中文的正则表达式,应该是^[/u4E00-/u9FFF]+$,和常被提起的^[/u4E00-/u9FA5]+$很接近。

需要注意的是^[/u4E00-/u9FA5]+$专门用于匹配简体中文的正则表达式,实际上繁体字也在里面,测试了下'中華人民共和國',也通过了,当然,^[/u4E00-/u9FFF]+$也是一样的结果。

emoji字符过滤用(char&0xF8)==0xF0)可以过滤大部分。

posted@ 2017-06-0917:52  xiao913  阅读(2358)  评论(0)  编辑  收藏  举报 刷新评论刷新页面返回顶部 Copyright©2022xiao913 Poweredby.NET6onKubernetes



請為這篇文章評分?