riskstar 发表于 2015-1-1 07:53:38

自己写爬虫把这个网站爬下来

风吹不动 发表于 2015-1-1 08:39:08

leexiaochong 发表于 2014-12-25 10:42 static/image/common/back.gif
楼主,我只能分享这些了,只是产品的URL和URL中的product name

求分享采集思路,貌似翻页有最大限制,无法全部采集

leexiaochong 发表于 2015-1-1 10:32:30

熟能生巧哇 发表于 2015-1-1 01:29 static/image/common/back.gif
lucene是java的把? PHP 用不了把?

lucene是java的,我用.net,使用lucene.net,php我还不太懂了:lol

leexiaochong 发表于 2015-1-1 10:34:23

风吹不动 发表于 2015-1-1 08:39 static/image/common/back.gif
求分享采集思路,貌似翻页有最大限制,无法全部采集

兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是productdetail即可。重要一点:直接把amazon 的sitemap下载下来,然后再解压gzip,再将解压的xml内容给解析出来,取出loc和权重值放到数据库里面即可。

风吹不动 发表于 2015-1-1 16:52:10

leexiaochong 发表于 2015-1-1 10:34 static/image/common/back.gif
兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是 ...

sitemap赞一个,去试试         


页: 1 [2]
查看完整版本: 请教什么方法能把amazon整站采集下来