xiaoqiu 发表于 2008-2-27 20:10:03

采集概况和采集软件实例介绍

常见的采集有大致分为两类:cms等自带采集,采集软件。cms等自带采集:缺点是效率低、采集不够灵活。php或者asp程序实现采集,这种方式采集任务一多容易卡死。优点是和cms本身能融为一体,便于发布。采集软件:
缺点是发布的时候不同的cms需要不同的接口处理。
优点是采集效率很高,采集速度很快,可大批量任务同时采集,并设置好后可做到定时等无人操作自动采集更新的功能。 cms自带的采集在任务量少、网页结构简单时是十分有效的,这里只说下dedecms的过滤规则{dede:trim}你需要过滤的内容{/dede:trim}自己使用和结合网上的总结了下过滤html一些代码的正则表达式,可根据情况增减,基本可以满足傻瓜式过滤{dede:trim}<style([^>]*)>([^>]*)</style>{/dede:trim}{dede:trim}<script([^>]*)>{/dede:trim}{dede:trim}</script>{/dede:trim}{dede:trim}<a([^>]*)>{/dede:trim}{dede:trim}</a>{/dede:trim}{dede:trim}<param([^>]*)>{/dede:trim}{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}{dede:trim}<embed([^>]*)>{/dede:trim}{dede:trim}</embed>{/dede:trim}{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}{dede:trim}<object([^>]*)>{/dede:trim}{dede:trim}</object>{/dede:trim}{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}{dede:trim}<OBJECT([^>]*)>{/dede:trim}{dede:trim}</OBJECT>{/dede:trim}{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}{dede:trim}<iframe([^>]*)>{/dede:trim}{dede:trim}</iframe>{/dede:trim}{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}{dede:trim}<IFRAME([^>]*)>{/dede:trim}{dede:trim}</IFRAME>{/dede:trim}{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}{dede:trim}<font([^>]*)>{/dede:trim}{dede:trim}</font>{/dede:trim}{dede:trim}<img([^>]*)>{/dede:trim}{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}{dede:trim}<a([^>]*)>{/dede:trim}{dede:trim}</a>{/dede:trim}{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}{dede:trim}<td([^>]*)>{/dede:trim}{dede:trim}</td>{/dede:trim}{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}{dede:trim}<tr([^>]*)>{/dede:trim}{dede:trim}</tr>{/dede:trim}{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}{dede:trim}<tbody>{/dede:trim}{dede:trim}</tbody>{/dede:trim}{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}{dede:trim}<table([^>]*)>{/dede:trim}{dede:trim}</table>{/dede:trim}{dede:trim} {/dede:trim}{dede:trim}</span>{/dede:trim}一旦采集任务量大或者网页结构复杂等时,建议最好不要考虑用cms自带的采集,费时费力,效果一般。Cms自带的采集即使是采普通的网页过滤起来也很麻烦,还是采集软件爽啊,随便设下就ok了其他的cms就不说了,说下采集软件的采集,采集软件的采集就像下载软件一样,即使网速再慢都不会卡死,经常用cms都知道采上一百的文章都经常卡死。现在采集软件很多很乱,基本没有形成一个品牌,常用的有火车头(www.locoy.com)、小蜜蜂BC(www.downreg.com)、守望数据(http://mycjq.uu1001.com)、三人行采集(www.cnsrx.cn)、网络信息采集大师(www.netget.com.cn)

xiaoqiu 发表于 2008-2-27 20:12:14

采集.part2.rar

采集.part2.rar

xiaoqiu 发表于 2008-2-28 06:40:31

具体的内容请下载附件啊,太大分成了2部分
页: [1]
查看完整版本: 采集概况和采集软件实例介绍