对于博客网站,相似文章推荐是一个常用的功能,那如何搭建一个简单易用的相似推荐系统呢?
原理
提取特征
对于文章来说,一篇文章的特征一般就是文章出现过的关键字并且对其关键程度进行加权
常用的算法:TF-IDF
TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).
是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.
相似比较
提取出文章关键字之后对两篇文章的相似比较,如果相似度较高就符合要求,如何比较呢?
- 抽取出的关键字相同的个数做倒排
- 根据词频做相似度计算,一般常用的:余弦相似性
求出的cos()值越低越相似。