继续是采集的问题,如何获得google、bing的缓存页地址
今天开始尝试用火车头采集google、bing的缓存页(即快照),但是遇到问题了,缓存页都需要点开下来箭头才能显示出来,在代码里又不能看到,不知道怎么获取这个地址,有高手能解决吗直接采集目标站,而不是快照
月光飞燕 发表于 2014-10-13 18:33 static/image/common/back.gif
直接采集目标站,而不是快照
例如ezinearticles.com这样的网站会有限制的,直接采集需要的IP多还是采集bing的IP多,就这个问题纠结
以前采集用过有道搜索,限制低,现在不知。
抓包,快照地址都在json里面
更改useragent为文本浏览器,比如说w3m 或lynx
普通浏览器页面里面也有,仔细找
不建议采缓存,不全
无言 发表于 2014-10-13 23:49 static/image/common/back.gif
抓包,快照地址都在json里面
可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓
bbbbb111115 发表于 2014-10-14 09:09 static/image/common/back.gif
可以加我,教教我怎么抓包,我现在都研究,就是不懂怎么抓
用fiddler抓包,可以百度一下怎么用
页:
[1]