准备好数据食材、去停用词并利用结巴**(jieba)进行分词处理**

数据食材选用参考:NLP中必不可少的语料资源

jieba分词模块参考官方文档啦~

# 本程序用于将搜狗语料库中的文本进行分词,并且去除停用词# coding=utf-8importjiebaimportjieba.possegaspsegimporttimeimportos'''

训练集:1200

测试集:200

'''# 文本分词defcutText(dirname):

# dirname数据目录

forcategoryinos.listdir(dirname):

catdir=os.path.join(dirname,category)

ifnotos.path.isdir(catdir):

continue

files=os.listdir(catdir)

参考阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。