请教什么方法能把amazon整站采集下来_EEfaq论坛-赚客自留地_赚客大家谈_第2页

riskstar 发表于 2015-1-1 07:53:38

自己写爬虫把这个网站爬下来

风吹不动 发表于 2015-1-1 08:39:08

leexiaochong 发表于 2014-12-25 10:42 static/image/common/back.gif
楼主，我只能分享这些了，只是产品的URL和URL中的product name

求分享采集思路，貌似翻页有最大限制，无法全部采集

leexiaochong 发表于 2015-1-1 10:32:30

熟能生巧哇发表于 2015-1-1 01:29 static/image/common/back.gif
lucene是java的把？ PHP 用不了把？

lucene是java的，我用.net，使用lucene.net，php我还不太懂了:lol

leexiaochong 发表于 2015-1-1 10:34:23

风吹不动发表于 2015-1-1 08:39 static/image/common/back.gif
求分享采集思路，貌似翻页有最大限制，无法全部采集

兄弟，换个思路吧，不要跟着amazon的页面走，也不要想着获取list然后再获取productdetail,采集只需要的是productdetail即可。重要一点：直接把amazon 的sitemap下载下来，然后再解压gzip，再将解压的xml内容给解析出来，取出loc和权重值放到数据库里面即可。

风吹不动 发表于 2015-1-1 16:52:10

leexiaochong 发表于 2015-1-1 10:34 static/image/common/back.gif
兄弟，换个思路吧，不要跟着amazon的页面走，也不要想着获取list然后再获取productdetail,采集只需要的是 ...

sitemap赞一个，去试试

页: 1 [2]

EEfaq论坛-赚客自留地's Archiver