python中去掉字符串中的\xa0、\t、\n - CSDN博客
文章推薦指數: 80 %
\xa0 是不间断空白符 我们通常所用的空格是\x20 ,是在标准ASCII可见字符0x20~0x7e 范围内。
而\xa0 属于latin1 ( ...
python中去掉字符串中的\xa0、\t、\n
wangbowj123
于 2017-09-2212:21:52 发布
86184
收藏
77
分类专栏:
Python
python从入门到精通
文章标签:
python
爬虫
xa0
分割字符串
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wangbowj123/article/details/78061618
版权
Python
同时被2个专栏收录
59篇文章
3订阅
订阅专栏
python从入门到精通
38篇文章
7订阅
订阅专栏
今天帮女朋友从网络上收集一些信息,但是发现提取出的信息中有“\xa0”,并且无法去掉,查阅了相关资料,后发现该字符表示空格。
\xa0是不间断空白符 我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。
latin1字符集向下兼容ASCII(0x20~0x7e)。
通常我们见到的字符多数是latin1的,比如在MySQL数据库中。
有如下信息:
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,','V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',
我们如何将其中的\xz0去掉呢,试了re模块的sub方法,发现没有作用,于是又开始查阅相关资料,终于解决了该问题。
方法如下:
>>>inputstring=u'\nDoor:\xa0Novum\t'
>>>move=dict.fromkeys((ord(c)forcinu"\xa0\n\t"))
>>>output=inputstring.translate(move)
>>>output
'Door:Novum'
另外还有一种更简单的方法,利用split方法:
>>>s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>>out="".join(s.split())
>>>out
'T-shirt短袖圆领衫,体恤衫'
可以发现利用translate方法、split()可以完美解决,并且还可以替换\t\n字符,由此又学到了新知识!
关于ord函数:ord()函数是chr()函数(对于8位的ASCII字符串)或unichr()函数(对于Unicode对象)的配对函数,它以一个字符(长度为1的字符串)作为参数,返回对应的ASCII数值,或者Unicode数值,如果所给的Unicode字符超出了你的Python定义范围,则会引发一个TypeError的异常。
关于fromkeys方法:dict中的fromkeys方法目的是创建一个只有key的字典,内部利用for循环,使三个字符的asii码值成为可迭代对象(本来的整数是不可迭代的),分别对其迭代,存入字典。
关于translate方法:Pythontranslate()方法根据参数table给出的表(包含256个字符)转换字符串的字符,要过滤掉的字符放到del参数中。
接收到move返回的表(字典),之后对字符串进行替换。
join()方法:join():连接字符串数组。
将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串。
可见该处用join方法真的是神来之笔,可谓绝妙!
值得注意的是,split方法中不带参数时,表示分割所有换行符、制表符、空格。
wangbowj123
关注
关注
47
点赞
踩
77
收藏
打赏
12
评论
python中去掉字符串中的\xa0、\t、\n
今天帮女朋友从网络上收集一些信息,但是发现提取出的信息中有“\xa0”,并且无法去掉,查阅了相关资料,后发现该字符表示空格。
\xa0是不间断空白符 我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace
复制链接
扫一扫
专栏目录
Python技巧:\r,\n,\t,\xa0,\u3000,\x20的含义
weixin_49340599的博客
04-28
776
\n软回车:在Windows中表示换行且回到下一行的最开始位置。
\r软空格:返回到这一行的开头
\t制表符:移至下一列,相当于tab
\r\n一般一起用,用来表示键盘上的回车键,也可只用\n。
\xa0:表示空格,表示不间断空白符 (non-breakingspace),属于latin1(ISO/IEC_8859-1)中的扩展字符集字符。
在html代码中每输入一个转义字符 就表示一个空格,输入十个  ,页面中就显示10个空格位置。
.
Python如何去除\xa0
水月灯花的博客
11-07
3567
\xa0代表空白符 
使用.split()
评论 12
您还未登录,请先
登录
后发表或查看评论
python中去掉字符串中的\xa0、\t、\n,\u3000
每日提升一点点
03-19
2360
https://blog.csdn.net/wangbowj123/article/details/78061618?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
网页爬虫中\xa0、\u3000等字符的解释及去除
pengjunlee的博客
03-05
1万+
\xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。
单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行:
使用re.sub
使用正则表达式可以轻松匹配所有空白字符,它对于Unicode字符也是有效的,比如:
>>>importre
>>>s...
解决\xa0、\u3000导致的编码问题
小龙在线
10-19
4710
当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的:原有编码->内部编码(UNICODE)->目的编码在读取文件的时候,可以让codecs来代劳。
codecs读文件results.txt两部委:到2020年底重点城市生活垃圾得到有效分类(图)
英雄惜英雄!传奇为格策叫冤:已尽力不应被批
中华关爱失能老兵和老人公益行活动启动仪式在京举行(组图)
国安酷暑作战满意拿分谢峰
学Linux的你还在为正则表达式而挠头?
m0_51141557的博客
11-03
69
linux正则表达式1正则表达式1.1字符匹配1.2匹配次数1.3位置锚定1.4分组和引用和或者2实例
介绍grep命令,正则表达式是grep命令的一种使用方法
注意正则表达式与通配符的区别
在文本过滤工具grep中,都是用正则表达式,针对的是文件内容的过滤查找
通配符经常用在文件名上,比如find、ls、mv、cp等
1正则表达式
正则表达式常用元字符
1.1字符匹配
字符
描述
.
匹配任意单个字符
.*
匹配任意长度任意字符
[]
匹配指定范围内的单个字符
[^]
python爬取内容去掉\xa0字符的最简便方法
weixin_55643951的博客
05-10
3728
刚学Python爬虫,爬取网页时,不可避免会遇到\xa0字符串,你会发现,正则re.sub(r’\xa0’,‘’)和字符串的replace都不管用。
\xa0是不间断空白符 ,自己做前端页面的时候也会经常用到这个符号。
通常我们所用的空格的ASCII码是\x20,在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。
latin1字符集
python之去掉爬取内容中的\xa0字符
jiangkejkl的博客
11-15
2018
\xa0是不间断空白符 ,自己做前端页面的时候也会经常用到这个符号。
通常我们所用的空格的ASCII码是\x20,在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。
latin1字符集可向下兼容ASCII(0x20~0x7e)。
爬取到的内容包含\xa0字符内容也不影响实际使用。
方法1:
爬取获取值时使用字符串的strip()方
Python爬虫处理\xa0、\u3000、\u2002、\u2003等空格
东隅已逝,桑榆非晚。
12-10
2388
Python爬虫正则匹配特殊特殊空格\u3000、\xa0等
关于Pandasreplace函数的使用
最新发布
dadaowuque的博客
03-31
1943
目录问题背景解决办法其他小知识点
问题背景
最近准备使用pandas来读取Excel数据进行处理,但是遇到表格中有特殊字符“\xa0”的存在,想到了使用pandas的replace()函数进行替换,但是始终无法进行替换。
解决办法
replace()函数其实是可以直接替换普通的字符的,但是替换特殊字符的时候无法成功。
&n
python去除字符中得'\xa0'
thindi的博客
11-10
1734
有一个字符串列表,
file_size_lis=['738.7\xa0MB','746.5\xa0MB','4.4\xa0GB','2.2\xa0GB','3.6\xa0GB','3.6\xa0GB','4.7\xa0GB','6.0\xa0GB','6.0\xa0GB','1.9\xa0GB']
现在要将列表中得字符'\xa0'批量去掉,有个简易方法
...
Python进制转换后去掉“0b“,“0x“,“0o“
kongtaoxing的博客
08-14
7642
Python在进制转换之后会带上“0b”、“0x”、“0o”的进制转换符,而在具体使用过程中,很多时候我们又并不希望输出的结果带上进制前缀,因此就需要方法去除进制前缀,可以通过以下两种方式解决:
使用截取字符串的方法:
由于Python进制转换之后的结果是字符串型的,因此可以用截取字符串的方法,从结果的第三位开始取,进而去掉0b等,具体代码实例见下:
#二进制
>>>bin(3)[2:]
‘11’
#八进制
>>>oct(10)[2:]
'12'
#十六进制
>&
python爬虫爬取内容时,\xa0、\u3000的含义与处理方法
热门推荐
thewindkee的博客
04-11
3万+
python爬虫爬取内容时,\xa0、\u3000的含义转自:https://www.cnblogs.com/BlackStorm/p/6359005.html处理方法str.replace(u'\xa0',u'')最近用scrapy爬某网站,发现拿到的内容里面含有\xa0、\u3000这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少233。
\xa0是不...
爬虫怎么去除抓取数据中的'\xa0\xa0\xa0\xa'
weixin_41586246的博客
03-26
1万+
字符串去空格问题起因:爬58同城网时,抓取一组数据时,出现'1室1厅1卫 \xa0\xa0\xa0\xa038㎡'尝试用.stripped_strings#不能去掉尝试用strip()#不能去掉尝试用replace()#不能去掉....解决方法:>>>s='1室1厅1卫 \xa0\xa0\xa0\xa...
对于\xa0的处理
liushaohui6323883的博客
07-23
9816
在用Python3处理英文文档时遇到split('')无法分开的空格,使用encode('utf8')编码后发现它并不是空格,而是\xa0,它其实是latin1编码字符,为了使\xa0像空格那样分开字符,可以直接调用split()即可...
python删除字符串中以\x开头的特殊字符
llc的博客
12-07
2123
content="教案或公司的\r开发经哈高科\r\r点击返回啊科技时代部分按计划山东发芽改\n为欧服有噶司机电话发噶u要发噶三个地方监控和嘎奥法Pythonre正则表达式元字符之转义符-百度经验2019年9月2日Pythonre正则表达式元字符之转义符,反斜杠后面跟元字符去除特殊功能,反斜杠后面跟普通字符实现特殊功能,比如\d百度经验百度快照Python正则表达式(转义问题)_python_脚本之家2014年12月15日Python将字符串转义:\\\被转义为\\re模块获得
python如何去掉字符串‘\xa0’
weixin_30337157的博客
01-05
272
发现问题:
最近在用爬虫爬取网页信息时,在网页源码中遇到了“ "字符串,经查阅,发现该字符是不间断空格符。
我们通常所用的空格是\x20,是在标准ASCII可见字符0x20~0x7e范围内。
而\xa0属于latin1(ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breakingspace)。
latin1字符集向下兼容ASCI...
Python一行代码去除csv中的“\t“字符
qufeihuo的博客
11-08
1823
使用pandas的read_csv读取个人信息表格,但导出的数据为保证身份证完全显示,系统自动在尾号不是X的身份证前加了"\t"。
为方便后期比对,需先去除"\t"。
还是新手,找了很多方法,最终发现还是需要遍历,也不知道是否有更简便的方法。
再次记录下来,一是记录学习过程,二是等以后有更好的方法了回头看看小白的自己。
df["身份证件号"]=[str(i).replace("\t","")foriindf["身份证件号"]]
其中用str(i),先将身份证变为字符串,这是因为部分个人信息无身份
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:AgeofAi
设计师:meimeiellie
返回首页
wangbowj123
CSDN认证博客专家
CSDN认证企业博客
码龄6年
重庆大学
109
原创
2万+
周排名
98万+
总排名
64万+
访问
等级
5336
积分
1291
粉丝
372
获赞
143
评论
1408
收藏
私信
关注
热门文章
python中去掉字符串中的\xa0、\t、\n
86167
Python基础(6)——实现输入任意多个数,并计算其平均值
75298
tensorflow2.0GPU版本的环境配置与安装教程
55994
使用seaborn绘制漂亮的热度图
35998
在windows下使用python3连接sqlserver
30867
分类专栏
硬件学习
6篇
FPGA硬件设计
12篇
JVM
深度学习从入门到放弃
16篇
用django构建一个翻译网站
1篇
深度学习编译
5篇
CUDA编程
4篇
python从入门到精通
38篇
python3.6写爬虫——从入门到精通
9篇
java
9篇
Python
59篇
c++
11篇
数据结构与算法
10篇
数论
1篇
计算机网络
6篇
深度学习
14篇
python爬虫
7篇
python数据分析
6篇
android
4篇
图像处理
6篇
复试
1篇
最新评论
初探opencv——对像素进行操作(像素值取反、图片混合)
ZZZZZYYYYY%:
第一个代码的height是不是没定义
zynqsdk开发之通过BRAM进行PL与PS的数据交互
qq_38601522:
想要学习一下完整代码[email protected]万分感谢~
循环优化与多面体模型
liu_otr:
您好,我对scheduletrees这里不是很明白它表达的含义,请问有什么参考资料可以学一下吗,我是数学专业的,对这边的基础知识可能欠缺一些,看了《scheduletrees》这篇论文之后也是看的不是很懂
Python基础(3)——北京市地铁买票问题(思维练习题)
m0_51960602:
这里直接输入距离就可以获取正确的花费钱数了吗,为什么我输入0距离也有花费金额呢?
isl使用方法
redvelvet:
你好,请问你是在哪个目录下测试的,我测试时提示找不到头文件
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
一文带你深入理解电路中的亚稳态现象与跨时钟域信号处理
同步FIFO和异步FIFO的实现
使用Verilog实现排序
2021年3篇
2020年19篇
2019年21篇
2018年22篇
2017年49篇
目录
目录
分类专栏
硬件学习
6篇
FPGA硬件设计
12篇
JVM
深度学习从入门到放弃
16篇
用django构建一个翻译网站
1篇
深度学习编译
5篇
CUDA编程
4篇
python从入门到精通
38篇
python3.6写爬虫——从入门到精通
9篇
java
9篇
Python
59篇
c++
11篇
数据结构与算法
10篇
数论
1篇
计算机网络
6篇
深度学习
14篇
python爬虫
7篇
python数据分析
6篇
android
4篇
图像处理
6篇
复试
1篇
目录
评论 12
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
wangbowj123
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1在Python 中從字串中刪除xa0 的方法| D棧 - Delft Stack
pythonCopy import unicodedata str_hard_space='17\xa0kg on 23rd\xa0June 2021' print (str_hard_spac...
- 2How to remove \xa0 from string in Python? - Stack Overflow
\xa0 is actually non-breaking space in Latin1 (ISO 8859-1), also chr(160). You should replace it ...
- 3RX8804CE XA0 Epson Timing - Mouser Electronics
RX8804CE XA0 Epson Timing Epson Electronics America RX8804CE:XA0 REAL TIME CLOCK +/-3.4PPM DTCXO ...
- 4python爬取網頁去掉\xa0字元的最簡便方法
而\xa0 屬於latin1 (ISO/IEC_8859-1)中的擴充套件字符集字元,代表空白符nbsp(non-breaking space)。latin1 字符集可向下相容ASCII ( 0...
- 5python中去掉字符串中的\xa0、\t、\n - 知乎专栏
xa0 是不间断空白符 我们通常所用的空格是\x20 ,是在标准ASCII可见字符0x20~0x7e 范围内。 而\xa0 属于latin1 (ISO/IEC_8859-1)中的扩展...