1 代码及数据集下载

代码链接:https://github.com/ttb1534/word2vec-include-datapreprocess 数据集链接:https://pan.baidu.com/s/1RHhHp8Y5_Y0AjYQ5Oa0CTA(密码1534)

 

下载的代码及数据如下:

datasave/cutdata0.txt(cutdata_prepare.txt,作者事先处理好的):预处理后的数据 datasave/word_embedding.txt(word_embedding_pretrained.txt,作者事先训练好的):训练好的词嵌入

dataset/news.txt :为所用原始数据集,取自真实的新闻报道 dataset/cn_stopwords.txt :为需要去除的停顿词

dataprocess.py :数据预处理,得到cutdata0.txt train.py :训练,得到word_embedding.txt test.py :测试

2 数据预处理

       将原始文本数据进行分词,去除停顿词(停顿词是语言中经常出现的单词,不包含太多有用信息,甚至在后续处理中对数据产生干扰)。执行dataprocess.py,得到如下预处理数据:

3 训练

       将数据进行训练,执行train.py,我的显卡是GTX1650S,大约训练了5个多小时,结果如下,词嵌入维度是100的。

4 测试

       上述训练得到的词嵌入编码可以用到需要词嵌入的场合,例如文本匹配。作者给出的测试,即输入一个中文词语,输出和给定词在词嵌入空间最为接近的一些词,执行test.py。

相关链接

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。