EEfaq论坛-赚客自留地

 找回密码
 免费注册
123
返回列表 发新帖
楼主: Tmac

想到了一种方法,可以一劳永逸的解决文章源问题,可行吗

  [复制链接]
发表于 2014-4-27 22:51:21 | 显示全部楼层
学习下百度的原创内容的搜索方法及搜索服务器

1.搜索服务器接收客户端发送的搜索词。

2.搜索服务器根据搜索词获得N 个搜索结果,N 为大于1 的正整数。

3.搜索服务器对N 个搜索结果进行文本相似度分析。

4.通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度
满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N 个搜索结果进行分组。

5.获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜 索数量Q是否大于预设数量。

6.相似度满足预设阈值的搜索结果组,可获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q 是否大于预设数量。

7.如果判断大于预设数量,则搜索服务器从Q 个搜索结果中抽取M 个原创内容发布源中的一个,其中,M 为正整数且小于N。其中,原创内容发布源可以是具有原创内容的搜索结果的URL,具体地,如果有M组的搜索结果的数量Q大于预设数量,则可在这M组中每组分别抽取一个远程内容发布源。
例如,可设定预设数量为10,对于搜索到的40 个搜索结果,如果文本相似度满足
预设阈值的搜索结果有A、B、C 三组,搜索结果数量分别8、12、14,则可在B 组合C 组中分别
抽取一个原创内容发布源。

8.根据权威网站获取的原创数据对M 个原创内容发布源进行修正。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|联系我们|Archiver|手机版|小黑屋|EEfaq论坛

GMT+8, 2024-11-23 21:43

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表