文本特征表示方法——词频-逆文档频率(TF-IDF)

0 引言

\qquad

词频-逆文档频率(TF-IDF)是Salton于1988年提出的一种权重计算方法,用于判断字词对于一个文档集合的重要性。在介绍TF-IDF之前,需要先对词频(TF)、逆文档频率(IDF)分别进行介绍。

1 词频(Term Frequency, TF)

\qquad

词频(Term Frequency, TF)即词的频率,表示词条项在一个文档中出现的频率,计算公式如下:

t

f

t

,

d

=

f

t

,

d

n

d

tf_{t,d} = \frac{f_{t,d}}{n_{d}}

tft,d​=nd​ft,d​​

\qquad

其中,

t

f

t

,

d

tf_{t,d}

tft,d​表示词条项

t

t

t在某文档

D

D

D中词频,

f

t

,

d

f_{t,d}

ft,d​表示文档

D

D

D中,特征词条

t

t

t的频度(次数),

n

d

n_{d}

nd​表示文档

D

D

D中所有词条项的总数量。本文中将词条项归一化后的结果作为词频,而有些文章会直接以词条项出现的次数作为词频,但是这就导致了文档长度会对词条项权重产生影响。

\qquad

但是词频仅仅考虑了词条项在某文档中的频率,而没有考虑词条项对于整个文档库或语料库的重要程度,并且也无法判断某词条项对不同文档的重要性,即词频无法作为文档类别区分的有效特征。比如,"我"在每篇文档中都有,它的词频很大,但这个字并不能有效区分文档类别。相反,"高兴"可能只出现在个别文档当中,它的词频很小,但是这个词条项却可以让我们知道,带有"喜欢"的文档的情感极性是正的。

2 逆向文档频率(inverse document frequency, IDF)

\qquad

逆向文档频率(inverse document frequency, IDF)是一种度量词条项在文档中重要性的方式。IDF的原理是对于某一个特征词条项,包含此词条项的文档数量越少,此词条项就具有越强的文档类别特征。具体公式如式:

id

f

t

=

log

 

N

d

f

t

\text{id}f_{t} = \log{\ \frac{N}{df_{t}}}

idft​=log dft​N​

\qquad

其中,

id

f

t

\text{id}f_{t}

idft​为词条项

t

t

t的逆文档频率,

N

N

N为所有文档数量,

d

f

t

df_{t}

dft​为文档频率(document frequency),表示出现词条项

t

t

t的所有文档的数量。需要强调的是,在具体计算过程中,常常会将

d

f

t

+

1

df_{t} + 1

dft​+1,防止出现词条项不在语料库中而造成分母为0的现象。

3 词频-逆文档频率(TF-IDF)

\qquad

词频-逆文档频率(TF-IDF)即通过综合考虑词的TF与IDF来计算特征词项的权重,其计算方法即特征词项的词频与逆文档频率的乘积。其计算公式:

tf

id

f

t

,

d

=

t

f

t

,

d

 

×

id

f

t

\text{tf}-\text{id}f_{t,d} = tf_{t,d}\ \times \text{id}f_{t}

tf−idft,d​=tft,d​ ×idft​

\qquad

对以上公式进行通俗解释:当词项只在少数几篇文档中多次出现时,权值最大,因为此时该词条能够对文档提供最强的区分能力;当词项在某篇文档中出现次数很少,或者在很多文档中出现,权重取值次之;当词项在所有文档中都出现时,权值最小。

查看原文