HONG 发表于 2014-3-17 15:08:23

Google 爬虫真牛逼啊

本帖最后由 HONG 于 2014-3-17 15:19 编辑

我发现有的网页上面被人搞了好几万评论,我自己打开个网页都要好几分钟。。。。。过了10分钟后页面还在不断加载垃圾评论。。。。(这里要赞扬下服务器先)
我在想爬虫请求网页的时候是否也有个时间限制,如果时间太长了,google爬虫也就放弃这个页面。


换句话讲,我接着再弄软件spam无论多少条评论都是没有效果的吧? 因为爬虫没有能力抓取到页面的内容了。


不知道我的猜测对否?





liuqin 发表于 2014-3-17 15:44:14

这样搞,不是搞死自己的网站?!

月光飞燕 发表于 2014-3-17 15:53:13

蜘蛛爬取网页有超时限制,你的理解是正确的

adrian 发表于 2014-3-17 15:54:42

会的. 蜘蛛会有一个限定的抓取时间, 如果超时的话, 会自动放弃抓取.

adboomer 发表于 2014-3-17 16:13:11

没明白你这么搞的目的是什么?googlebot是可以识别spam的,就算回复里面有spam也可以识别

Neoman 发表于 2014-3-17 16:25:07

有几个判断:第一,估计服务器带宽不行,或者你网络不好;第二,再多评论,也会分页啊,只能说程序没设计好?第三,服务器太慢,爬虫是会超时的,经常这样,爬虫就不喜欢了,估计权重会降低

鍋子 发表于 2014-3-18 00:16:54

這是要搞死搞殘的節奏啊
页: [1]
查看完整版本: Google 爬虫真牛逼啊