idemons
发表于 2014-4-27 22:51:21
学习下百度的原创内容的搜索方法及搜索服务器
1.搜索服务器接收客户端发送的搜索词。
2.搜索服务器根据搜索词获得N 个搜索结果,N 为大于1 的正整数。
3.搜索服务器对N 个搜索结果进行文本相似度分析。
4.通过深度学习技术计算搜索结果的文本相似度,并可认为文本相似度
满足预设阈值的搜索结果的主题内容一致,进而可根据主题内容对N 个搜索结果进行分组。
5.获得相似度满足预设阈值的搜索结果的数量Q,并进一步判断搜 索数量Q是否大于预设数量。
6.相似度满足预设阈值的搜索结果组,可获取其中搜索结果的数量Q,并进一步判断每组中搜索结果的数量Q 是否大于预设数量。
7.如果判断大于预设数量,则搜索服务器从Q 个搜索结果中抽取M 个原创内容发布源中的一个,其中,M 为正整数且小于N。其中,原创内容发布源可以是具有原创内容的搜索结果的URL,具体地,如果有M组的搜索结果的数量Q大于预设数量,则可在这M组中每组分别抽取一个远程内容发布源。
例如,可设定预设数量为10,对于搜索到的40 个搜索结果,如果文本相似度满足
预设阈值的搜索结果有A、B、C 三组,搜索结果数量分别8、12、14,则可在B 组合C 组中分别
抽取一个原创内容发布源。
8.根据权威网站获取的原创数据对M 个原创内容发布源进行修正。