
直接切进主题,TF-idf算法究竟是怎样盘算的:
公式:
TF:词频
IDF:逆文本频率指数
TF-IDF=TF*IDF
我们举例阐明,TF词频的意思,是指一个词呈现在页面中的次数,假如一篇文章的总词语数是200,而网站优化这个词呈现了4次,那么这个词频TF=4/200,也就是0.02。
而IDF也就是很文件频率,指这个词在几多页面呈现过计数为N,文件总数计数为M,那么IDF=lg(M/N)。假定网站优化在2000个页面呈现,总文件数为1亿,那么文件频率IDF=lg(100000000/2000)=4.69897,那么盘算末了的TF-IDF=0.02*4.69897=0.0939794。
这只是一个判定一个页面的相干度的题目,而在SEO网站优化中,并不但是判定TF-IDF的值加分,我们必要一个辨认度高的词来为页面加分。比方:搜刮引擎收录一万亿个页面,应该说每个页面都市有的、是、中、地、得等等词,这些高频词也叫乐音词或制止词,搜刮引擎会往除这些词,以是这些词的加分权重实在应该是0。盘算公式:TF-IDF=log(1万亿/一万亿)=log1=0。
实在在搜刮引擎检索中,盘算权重的时间,会凭据每个词分词来盘算,比方:SEO网站优化的本领这个词。
假定:SEO页面检索数位2000万,网站优化的检索数为1000万,本领的检索数为50000万
搜刮引擎索引总数假定为100亿。
SEO在www.024r.com这个网站中页面(页面总词数400)呈现8次,网站优化呈现10次,本领呈现16次。
那么各自的词频
TF(SEO)=8/400=0.02,
TF(网站优化)=10/400=0.025
TF(本领)=20/400=0.04
TF(的)=下面已近提到,的属于高频制止词,权重为0。
那么搜刮SEO网站优化的本领这个页面的相干度为:TF(总)=0.02+0.025+0.05=0.095。
而IDF(SEO)=LOG(10000000000/20000000)=2.69897
IDF(网站优化)= LOG(10000000000/10000000)=3
IDF(本领)=log(10000000000/100000000)=1.69897
这么算上去之后,每个词为搜刮SEO网站优化的本领为页面的权重和相干度孝敬的值辨别为:
Tf-idf(seo)=0.02*2.69897=0.0539794
Tf-dif(网站优化)=0.025*3=0.075
Tf-idf(本领)=0.04*1.69897=0.0679588
由此可以看出,固然本领呈现的频率更高,但辨认度没有SEO和网站优化高,以是为页面的权重孝敬度并不是太大。
一个词的猜测本领也就是辨认度越高,那么这个词的权重越大,反之则越小,看到网站优化大概你就曾经根本相识这个页面要讲什么,但是看到本领,你大概还不是太明确页面的主题。
固然这支持搜刮引擎的算法的一个点,我们还要联合标签来完成权重的提拔,比方H标签,而主要害词周边的词也会加分,这里周边是指在一个标签内的比方:SEO网站优化的本领重要是一些搜刮引擎优化思绪的先容
Design by www.024r.com