从0开始学采集------初级篇:通过火车头采集发布到wordpress
前言:我是论坛新人,前几天刚刚注册,看到一个提问我正好会就回答了(帖子地址:http://www.eefaq.com/thread-121030-1-1.html),没想到除了得到提问者的感谢外,还有很多朋友为我加T币,这很让我意外同时也鼓舞了我,也第一次感受到了“我分享,我快乐”,为了更好的解答上面帖子的问题,也让更多刚刚步入网站这行的朋友尽快了解采集,我做一个采集发布的例子,截图下来,供大家参考!
需要的工具:
1.火车采集器。我下载的是V8.4免费版,网址http://www.locoy.com/Down/LocoySpider/LocoySpiderV8.html
2.wordpress源码。我下载的是4.0,网址https://cn.wordpress.org/
3.上次推荐的哈默免登录发布模块由于我是几年前在用,这次做教程下载下来,发现他没有在更新了,不支持最新版火车头和wp4.0。网上搜索下载了几个新版本的经测试也不能用。后来选择了直接用sql语句直接入库,测试成功,下面介绍给大家。
步骤:
1.本地搭建好PHP环境,安装好wordpress,过程省略。
2.打开火车头采集器,以采集器内置规则为例,讲解如何使用火车头。
采集的内容列表为:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml打开这个网址后,我们发现一共有5个列表页,通过比较我们发现列表地址的前面内容一样,区别在于最后的部分分别为:/index_1.shtml,/index_2.shtml,/index_3.shtml,/index_4.shtml,/index_5.shtml。这样的话我们只需要把不必的内容固定,变化的内容用(*)来表示,由于属于等差数列总的列表数为5页,所以选择首项为1,项数为5.确认无误后,点击添加---完成。
内容网址为:http://news.sina.com.cn/c/2014-10-26/222231047597.shtml,同时看了多页归纳格式为:http://news.sina.com.cn/c/*************
在找采集规则的开始和结束标记时,一般是用浏览器打开要采集的网址后,鼠标右键选查看源代码,在源代码中寻找要采集的内容,往上找是开始标记,往下找是结束标记。标记的特点是唯一。根据这个特点,我们重新填写内容标签的规则,如下图,同时Html标签排除里,去掉了链接,DIV等标记,这是为了能够做到只采集文字部分。
以上就是通过火车头发布到wordpress的一个简单实例,在wordpress显示成功,虽然截图了,但由于我单日限制上传1MB的图片附件,所以无法上传了。
很细很全面,顶楼主分享精神!!!!!
你发优秀文章,我会大力给T币!谢谢.
支持楼主的无私分享。。。。
写的很详细,蜘蛛直接入库才是王道。
:lol 新版本感觉用起来的采集速度比2010的慢啊
多谢楼主了,给平分了,希望以后多分享
这种文章非常好~谢谢~大力支持
:) 感谢分享,谢谢!很详细的教程
感谢分享,谢谢!很详细的教程
采集利器啊
很好,学习了
让我想起了06年在落伍者有朋友分享了一个简单教程写php代码,让我开始了编程道路。
希望你这个系列帖子能写完
对论坛采集新手帮助帮助很大,多谢分享。
谢谢,我现在正在开始执行采集!
采集啊 学习了
光采集的话怎么解决原创性呢? xx19941215 发表于 2014-10-27 15:02 static/image/common/back.gif
光采集的话怎么解决原创性呢?
现在不是都说采集站没有出路吗,所以在内容上肯定谈不上原创性,我只是觉得做网站的话,采集毕竟还是一个基础的东西,就算不采集内容,比如:采集Amazon的产品列表,图片,链接等内容,在不会调用API的情况下,还得靠采集来解决。分享的这篇文章,也是最为基础、入门的采集过程。
如果说要把这个例子中采集到的内容,提高原创性的话,应该只能用伪原创了,但可读性也差,且能否过搜索引擎也不一定。典型的话就是同义词替换,火车头早先的版本有插件,还有一些工具支持对数据库内容做同义词替换,效果都差不多
期待楼主的中级篇、高级篇
楼主辛苦了, 图文并茂, 好帖.
不错的内容,值得一看。。。。
感谢分享
页:
[1]
2