作者:无声无息无心跳 | 来源:互联网 | 2024-11-07 15:30
在Python中,可以通过正则表达式来实现去除字符串中的非中文字符。具体方法是使用`re`模块中的`re.sub()`函数,配合正则表达式`[^u4e00-u9fa5]`来匹配并替换掉所有非中文字符,从而保留字符串中的中文部分。这种方法简洁高效,适用于多种文本处理场景。
python去除非中文的方法:
import re
def find_chinese(file):
pattern = re.compile(r'[^u4e00-u9fa5]')
chinese = re.sub(pattern, '', file)
print(chinese)
def find_unchinese(file):
pattern = re.compile(r'[u4e00-u9fa5]')
unchinese = re.sub(pattern,"",file)
print(unchinese)
if __name__ == "__main__":
line = "2019年1月3日 - python去除空格和换行符的方法 一、去除空格 strip().strip() # ...用replace('',''),后边的串替换掉前边的posted @ 2016-07-18 08:53 ..."
print("原文:")
print(line)
print("保留中文:")
find_chinese(line)
print("保留非中文:")
find_unchinese(line)
运行结果:
原文:
2019年1月3日 - python去除空格和换行符的方法 一、去除空格 strip().strip() # ...用replace('',''),后边的串替换掉前边的posted @ 2016-07-18 08:53 ...
保留中文:
年月日去除空格和换行符的方法一去除空格用后边的串替换掉前边的
保留非中文:
201913 - python 、 strip().strip() # ...replace('',''),posted @ 2016-07-18 08:53 ...
更多Python知识请关注云海天Python教程栏目。
来源:PY学习网:原文地址:https://www.py.cn/article.html