idemons 发表于 2014-4-27 22:51:21

学习下百度的原创内容的搜索方法及搜索服务器

1.搜索服务器接收客户端发送的搜索词。

2.搜索服务器根据搜索词获得N 个搜索结果,N 为大于1 的正整数。

3.搜索服务器对N 个搜索结果进行文本相似度分析。

4.通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度
满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N 个搜索结果进行分组。

5.获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜 索数量Q是否大于预设数量。

6.相似度满足预设阈值的搜索结果组,可获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q 是否大于预设数量。

7.如果判断大于预设数量,则搜索服务器从Q 个搜索结果中抽取M 个原创内容发布源中的一个,其中,M 为正整数且小于N。其中,原创内容发布源可以是具有原创内容的搜索结果的URL,具体地,如果有M组的搜索结果的数量Q大于预设数量,则可在这M组中每组分别抽取一个远程内容发布源。
例如,可设定预设数量为10,对于搜索到的40 个搜索结果,如果文本相似度满足
预设阈值的搜索结果有A、B、C 三组,搜索结果数量分别8、12、14,则可在B 组合C 组中分别
抽取一个原创内容发布源。

8.根据权威网站获取的原创数据对M 个原创内容发布源进行修正。

页: 1 2 [3]
查看完整版本: 想到了一种方法,可以一劳永逸的解决文章源问题,可行吗