一、实验目的:

1.掌握正则表达式的函数

2.掌握在中文文本中过滤特殊符号、标点符号、英文、数字的方法

二、实验设备及分组

1.PC机或笔记本电脑若干;

2.Window 7及以上版本操作系统;

3.Python 运行环境;

4.安装和配置Anaconda。

三、实验任务及要求:

现有一段文本“广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000”,提取其中的地名和对应邮编,使其一一对应。现有一段网页标签“”,需要提取其中的文本内容。使用正则表达式提“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。将字符串“2022 Happy New Year 2023”进行操作,实现如下功能:

(1)将字符串中的数字提取出来,得到字符串:“2@0@2@2@2@0@2@3”。

(2)将字符串中的数字删除,得到字符串:“Happy New Year”。

四、实验过程及实验步骤:(手写完成:要求写出实验步骤,要求书写规范,字迹切勿潦草。)

1.现有一段文本“广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000”,提取其中的地名和对应邮编,使其一一对应。

import re

import jieba

text1="广州:51000 深圳:518000 佛山:528000 珠海:519000 东莞:523000"

clean_data=''.join(re.findall('[\u4e00-\u9fa5]',text1))

name=jieba.lcut(clean_data)

post_number=re.findall('\d+',text1)

for i in zip(name,post_number):

print(i)

2.现有一段网页标签“”,需要提取其中的文本内容。

text2=''

text_content=re.sub('[a-zA-Z\d<>""-./=]','',text2)

print(text_content)

 3、使用正则表达式提取“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。

text3="111111@qq.comabcdefg@126.comabc123@163.com"

qq=re.findall('[a-z\d].*?m',text3)

print(qq)

 4.(1)将字符串“2022 Happy New Year 2023”进行操作,实现如下功能:将字符串中的数字提取出来,得到字符串:“2@0@2@2@2@0@2@3”。

text4="2022 Happy New Year 2023"

lo=re.findall('\d',text4)

for i in lo:

    print(i,end='@')

  4.(2)将字符串中的数字删除,得到字符串:“Happy New Year

list1=re.sub('[0-9]','',text4)

for i in list1:

print(i,end='')

好文阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。