一、实验目的:
1.掌握正则表达式的函数
2.掌握在中文文本中过滤特殊符号、标点符号、英文、数字的方法
二、实验设备及分组
1.PC机或笔记本电脑若干;
2.Window 7及以上版本操作系统;
3.Python 运行环境;
4.安装和配置Anaconda。
三、实验任务及要求:
现有一段文本“广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000”,提取其中的地名和对应邮编,使其一一对应。现有一段网页标签“”,需要提取其中的文本内容。使用正则表达式提“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。将字符串“2022 Happy New Year 2023”进行操作,实现如下功能:
(1)将字符串中的数字提取出来,得到字符串:“2@0@2@2@2@0@2@3”。
(2)将字符串中的数字删除,得到字符串:“Happy New Year”。
四、实验过程及实验步骤:(手写完成:要求写出实验步骤,要求书写规范,字迹切勿潦草。)
1.现有一段文本“广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000”,提取其中的地名和对应邮编,使其一一对应。
import re
import jieba
text1="广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000"
clean_data=''.join(re.findall('[\u4e00-\u9fa5]',text1))
name=jieba.lcut(clean_data)
post_number=re.findall('\d+',text1)
for i in zip(name,post_number):
print(i)
2.现有一段网页标签“”,需要提取其中的文本内容。
text2=''
text_content=re.sub('[a-zA-Z\d<>""-./=]','',text2)
print(text_content)
3、使用正则表达式提取“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。
text3="111111@qq.comabcdefg@126.comabc123@163.com"
qq=re.findall('[a-z\d].*?m',text3)
print(qq)
4.(1)将字符串“2022 Happy New Year 2023”进行操作,实现如下功能:将字符串中的数字提取出来,得到字符串:“2@0@2@2@2@0@2@3”。
text4="2022 Happy New Year 2023"
lo=re.findall('\d',text4)
for i in lo:
print(i,end='@')
4.(2)将字符串中的数字删除,得到字符串:“Happy New Year
list1=re.sub('[0-9]','',text4)
for i in list1:
print(i,end='')
好文阅读
发表评论