leexiaochong 发表于 2014-12-25 10:42 static/image/common/back.gif
楼主,我只能分享这些了,只是产品的URL和URL中的product name
求分享采集思路,貌似翻页有最大限制,无法全部采集
熟能生巧哇 发表于 2015-1-1 01:29 static/image/common/back.gif
lucene是java的把? PHP 用不了把?
lucene是java的,我用.net,使用lucene.net,php我还不太懂了:lol
风吹不动 发表于 2015-1-1 08:39 static/image/common/back.gif
求分享采集思路,貌似翻页有最大限制,无法全部采集
兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是productdetail即可。重要一点:直接把amazon 的sitemap下载下来,然后再解压gzip,再将解压的xml内容给解析出来,取出loc和权重值放到数据库里面即可。
leexiaochong 发表于 2015-1-1 10:34 static/image/common/back.gif
兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是 ...
sitemap赞一个,去试试
页:
1
[2]