Welcome toVigges Developer Community-Open, Learning,Share
Welcome To Ask or Share your Answers For Others

Categories

0 votes
520 views
in Technique[技术] by (71.8m points)

请问各位大佬,如何准确汇总相似文章

在摸索学习数据分析处理。
其中在相似文章汇总处卡住,找不到较好的相关教程、文档、思绪。

目前我使用的是simhash,分4分比照,但是效果不佳。

海明距离小于等于3的基本是原文一字不改的文章。
我发现海明距离9以内的也非常相似。

按照simhash64位分4份,按照1份相同就判断为海明距离3以内。
如果想分为8分,又要怎么计算呢。

我希望实现9以内的能够汇总在一起。

另外请问如何通过标题做相似汇总?

请各位大佬给点思绪或者教程。

不胜感激!以身相许!


与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome To Ask or Share your Answers For Others

1 Answer

0 votes
by (71.8m points)
等待大神解答

与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…
Welcome to Vigges Developer Community for programmer and developer-Open, Learning and Share
...