bbbbb111115 发表于 2014-10-11 17:52:22

请教一下有采集经验的朋友

我想问怎样采集google收录页,就是说,例如我查看“网页快照”,页面的内容就是google收录的页面,我可以采集这个页面的内容吗,然后,例如google第一页就是10个页面,全部采集完再到第二页,一直采集到限定值,有什么软件可以这样采集或者有什么方法可以实现。

sdwzzx 发表于 2014-10-11 18:17:46

火车头就可以啊,这是最基本的功能了。。。

生魚片 发表于 2014-10-11 18:31:27

GOOGLE别想了
基本上你高频率猜个几十页 就要输验证码了
除非你有大量的私有代理

hudba 发表于 2014-10-11 18:41:50

本帖最后由 hudba 于 2014-10-11 18:50 编辑

生魚片 发表于 2014-10-11 18:31 static/image/common/back.gif
GOOGLE别想了
基本上你高频率猜个几十页 就要输验证码了
除非你有大量的私有代理

google就是这样很讨厌,限制得很死
要搞个自动搜集代理的工具

月光飞燕 发表于 2014-10-11 19:09:36

可以采集bing一样的,限制很少

dylan 发表于 2014-10-11 20:42:33

本帖最后由 dylan 于 2014-10-11 20:43 编辑

Seocontentmachine部分合适
可以找开发者升级你要的功能

bbbbb111115 发表于 2014-10-11 22:30:06

dylan 发表于 2014-10-11 20:42 static/image/common/back.gif
Seocontentmachine部分合适
可以找开发者升级你要的功能

有这个功能??谢谢,研究一下

bbbbb111115 发表于 2014-10-12 10:33:24

为什么我对月 光的回复都要审核的

北邙 发表于 2014-10-13 11:10:49

很多网站都有防爬设置 GG就更不用说了,通常也只能用大量的代理IP
没有太好的办法可以绕行

在路上的呆呆 发表于 2014-10-13 11:35:41

你这样采集的内容死的很快的

demoncj 发表于 2014-10-22 03:04:10

      采集别的引擎好一点

lzq97460 发表于 2014-10-29 13:46:14

没有太好的办法可以绕行

卡丁车 发表于 2014-10-29 20:43:01

为什么都用代理呢。。。用adsl换ip行不行。。。。
页: [1]
查看完整版本: 请教一下有采集经验的朋友