EEfaq论坛-赚客自留地

 找回密码
 免费注册
12
返回列表 发新帖
楼主: early

请教什么方法能把amazon整站采集下来

  [复制链接]
发表于 2015-1-1 07:53:38 | 显示全部楼层
自己写爬虫把这个网站爬下来
回复 支持 反对

使用道具 举报

发表于 2015-1-1 08:39:08 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2015-1-1 10:32:30 | 显示全部楼层
熟能生巧哇 发表于 2015-1-1 01:29
lucene  是java的把? PHP 用不了把?

lucene是java的,我用.net,使用lucene.net,php我还不太懂了

回复 支持 反对

使用道具 举报

发表于 2015-1-1 10:34:23 | 显示全部楼层
风吹不动 发表于 2015-1-1 08:39
求分享采集思路,貌似翻页有最大限制,无法全部采集

兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是productdetail即可。重要一点:直接把amazon 的sitemap下载下来,然后再解压gzip,再将解压的xml内容给解析出来,取出loc和权重值放到数据库里面即可。

回复 支持 反对

使用道具 举报

发表于 2015-1-1 16:52:10 | 显示全部楼层
leexiaochong 发表于 2015-1-1 10:34
兄弟,换个思路吧,不要跟着amazon的页面走,也不要想着获取list然后再获取productdetail,采集只需要的是 ...

sitemap赞一个,去试试         


回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|联系我们|Archiver|手机版|小黑屋|EEfaq论坛

GMT+8, 2024-12-22 11:45

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表