网站首页 > 博客 > 正文

数据挖掘自然语言处理特征工程文本特征表示方法——词频-逆文档频率(TF-IDF)

Lyoune 博客 2023-04-16 140 0

文本特征表示方法——词频-逆文档频率(TF-IDF)

0 引言

\qquad

词频-逆文档频率(TF-IDF)是Salton于1988年提出的一种权重计算方法，用于判断字词对于一个文档集合的重要性。在介绍TF-IDF之前，需要先对词频(TF)、逆文档频率(IDF)分别进行介绍。

1 词频(Term Frequency, TF)

\qquad

词频(Term Frequency, TF)即词的频率，表示词条项在一个文档中出现的频率，计算公式如下:

tf_{t,d} = \frac{f_{t,d}}{n_{d}}

tft,d=ndft,d

\qquad

其中，

tf_{t,d}

tft,d表示词条项

t在某文档

D中词频，

f_{t,d}

ft,d表示文档

D中，特征词条

t的频度(次数)，

n_{d}

nd表示文档

D中所有词条项的总数量。本文中将词条项归一化后的结果作为词频，而有些文章会直接以词条项出现的次数作为词频，但是这就导致了文档长度会对词条项权重产生影响。

\qquad

但是词频仅仅考虑了词条项在某文档中的频率，而没有考虑词条项对于整个文档库或语料库的重要程度，并且也无法判断某词条项对不同文档的重要性，即词频无法作为文档类别区分的有效特征。比如，"我"在每篇文档中都有，它的词频很大，但这个字并不能有效区分文档类别。相反，"高兴"可能只出现在个别文档当中，它的词频很小，但是这个词条项却可以让我们知道，带有"喜欢"的文档的情感极性是正的。

2 逆向文档频率(inverse document frequency, IDF)

\qquad

逆向文档频率(inverse document frequency, IDF)是一种度量词条项在文档中重要性的方式。IDF的原理是对于某一个特征词条项，包含此词条项的文档数量越少，此词条项就具有越强的文档类别特征。具体公式如式:

log

⁡

\text{id}f_{t} = \log{\ \frac{N}{df_{t}}}

idft=log dftN

\qquad

其中，

\text{id}f_{t}

idft为词条项

t的逆文档频率，

N为所有文档数量，

df_{t}

dft为文档频率(document frequency)，表示出现词条项

t的所有文档的数量。需要强调的是，在具体计算过程中，常常会将

df_{t} + 1

dft+1，防止出现词条项不在语料库中而造成分母为0的现象。

3 词频-逆文档频率(TF-IDF)

\qquad

词频-逆文档频率(TF-IDF)即通过综合考虑词的TF与IDF来计算特征词项的权重，其计算方法即特征词项的词频与逆文档频率的乘积。其计算公式:

−

\text{tf}-\text{id}f_{t,d} = tf_{t,d}\ \times \text{id}f_{t}

tf−idft,d=tft,d ×idft

\qquad

对以上公式进行通俗解释：当词项只在少数几篇文档中多次出现时，权值最大，因为此时该词条能够对文档提供最强的区分能力；当词项在某篇文档中出现次数很少，或者在很多文档中出现，权重取值次之；当词项在所有文档中都出现时，权值最小。

查看原文

本文由用户于 2023-04-16 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/384932.html

夸智网

数据挖掘自然语言处理特征工程文本特征表示方法——词频-逆文档频率(TF-IDF)

服务器网络 Net2FTP搭建免费web文件管理器『打造个人网盘』

深度学习计算机视觉 nlp 人工智能【论文&模型讲解】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

发表评论取消回复

夸智网

数据挖掘 自然语言处理 特征工程 文本特征表示方法——词频-逆文档频率(TF-IDF)

服务器 网络 Net2FTP搭建免费web文件管理器『打造个人网盘』

深度学习 计算机视觉 nlp 人工智能 【论文&模型讲解】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

相关文章

发表评论取消回复

数据挖掘自然语言处理特征工程文本特征表示方法——词频-逆文档频率(TF-IDF)

服务器网络 Net2FTP搭建免费web文件管理器『打造个人网盘』

深度学习计算机视觉 nlp 人工智能【论文&模型讲解】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision