网站首页 > 博客 > 正文

python 自然语言处理实验一：正则表达式的应用

御龙海湾博客 2024-03-21 1 0

一、实验目的：

1.掌握正则表达式的函数

2.掌握在中文文本中过滤特殊符号、标点符号、英文、数字的方法

二、实验设备及分组

1.PC机或笔记本电脑若干；

2.Window 7及以上版本操作系统；

3.Python 运行环境；

4.安装和配置Anaconda。

三、实验任务及要求：

现有一段文本“广州：51000 深圳：518000 佛山：528000 珠海：519000 东莞：523000”，提取其中的地名和对应邮编，使其一一对应。现有一段网页标签“”，需要提取其中的文本内容。使用正则表达式提“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。将字符串“2022 Happy New Year 2023”进行操作，实现如下功能：

（1）将字符串中的数字提取出来，得到字符串：“2@0@2@2@2@0@2@3”。

（2）将字符串中的数字删除，得到字符串：“Happy New Year”。

四、实验过程及实验步骤：（手写完成：要求写出实验步骤，要求书写规范，字迹切勿潦草。）

1.现有一段文本“广州：51000 深圳：518000 佛山：528000 珠海：519000 东莞：523000”，提取其中的地名和对应邮编，使其一一对应。

import re

import jieba

text1="广州：51000 深圳：518000 佛山：528000 珠海：519000 东莞：523000"

clean_data=''.join(re.findall('[\u4e00-\u9fa5]',text1))

name=jieba.lcut(clean_data)

post_number=re.findall('\d+',text1)

for i in zip(name,post_number):

print(i)

2.现有一段网页标签“”，需要提取其中的文本内容。

text2=''

text_content=re.sub('[a-zA-Z\d<>""-./=]','',text2)

print(text_content)

3、使用正则表达式提取“111111@qq.comabcdefg@126.comabc123@163.com”中所有的邮箱号。

text3="111111@qq.comabcdefg@126.comabc123@163.com"

qq=re.findall('[a-z\d].*?m',text3)

print(qq)

4.（1）将字符串“2022 Happy New Year 2023”进行操作，实现如下功能：将字符串中的数字提取出来，得到字符串：“2@0@2@2@2@0@2@3”。

text4="2022 Happy New Year 2023"

lo=re.findall('\d',text4)

for i in lo:

print(i,end='@')

4.（2）将字符串中的数字删除，得到字符串：“Happy New Year

list1=re.sub('[0-9]','',text4)

for i in list1:

print(i,end='')

好文阅读

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-03-21 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713532590.html

夸智网

python 自然语言处理实验一：正则表达式的应用

java 基于微信小程序的校车购票小程序（附开题报告+源码）

【regex】正则表达式

发表评论取消回复

夸智网

python 自然语言处理 实验一：正则表达式的应用

java 基于微信小程序的校车购票小程序（附开题报告+源码）

【regex】正则表达式

相关文章

发表评论取消回复

python 自然语言处理实验一：正则表达式的应用