从0开始学采集-初级篇：通过火车头采集发布到wordpress_EEfaq论坛-赚客自留地_赚客大家谈

kevinmy 发表于 2014-10-27 01:01:18

从0开始学采集------初级篇：通过火车头采集发布到wordpress

前言：
我是论坛新人，前几天刚刚注册，看到一个提问我正好会就回答了（帖子地址：http://www.eefaq.com/thread-121030-1-1.html），没想到除了得到提问者的感谢外，还有很多朋友为我加T币，这很让我意外同时也鼓舞了我，也第一次感受到了“我分享，我快乐”，为了更好的解答上面帖子的问题，也让更多刚刚步入网站这行的朋友尽快了解采集，我做一个采集发布的例子，截图下来，供大家参考！

需要的工具：
1.火车采集器。我下载的是V8.4免费版，网址http://www.locoy.com/Down/LocoySpider/LocoySpiderV8.html
2.wordpress源码。我下载的是4.0，网址https://cn.wordpress.org/
3.上次推荐的哈默免登录发布模块由于我是几年前在用，这次做教程下载下来，发现他没有在更新了，不支持最新版火车头和wp4.0。网上搜索下载了几个新版本的经测试也不能用。后来选择了直接用sql语句直接入库，测试成功，下面介绍给大家。

步骤：
1.本地搭建好PHP环境，安装好wordpress，过程省略。

2.打开火车头采集器，以采集器内置规则为例，讲解如何使用火车头。

采集的内容列表为：http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml打开这个网址后，我们发现一共有5个列表页，通过比较我们发现列表地址的前面内容一样，区别在于最后的部分分别为：/index_1.shtml，/index_2.shtml，/index_3.shtml，/index_4.shtml，/index_5.shtml。这样的话我们只需要把不必的内容固定，变化的内容用(*)来表示，由于属于等差数列总的列表数为5页，所以选择首项为1，项数为5.确认无误后，点击添加---完成。

内容网址为：http://news.sina.com.cn/c/2014-10-26/222231047597.shtml，同时看了多页归纳格式为：http://news.sina.com.cn/c/*************

在找采集规则的开始和结束标记时，一般是用浏览器打开要采集的网址后，鼠标右键选查看源代码，在源代码中寻找要采集的内容，往上找是开始标记，往下找是结束标记。标记的特点是唯一。根据这个特点，我们重新填写内容标签的规则，如下图，同时Html标签排除里，去掉了链接，DIV等标记，这是为了能够做到只采集文字部分。

以上就是通过火车头发布到wordpress的一个简单实例，在wordpress显示成功，虽然截图了，但由于我单日限制上传1MB的图片附件，所以无法上传了。

moneybooks 发表于 2014-10-27 06:30:00

很细很全面，顶楼主分享精神！！！！！

roror999 发表于 2014-10-27 07:41:24

你发优秀文章，我会大力给T币！谢谢.

cdwyd 发表于 2014-10-27 07:44:37

支持楼主的无私分享。。。。

foxconndmd 发表于 2014-10-27 08:47:12

写的很详细，蜘蛛直接入库才是王道。

晕蛋疯亲 发表于 2014-10-27 09:44:08

:lol 新版本感觉用起来的采集速度比2010的慢啊

莫闲发表于 2014-10-27 09:49:55

多谢楼主了，给平分了，希望以后多分享

dingdongniao 发表于 2014-10-27 09:57:22

这种文章非常好~谢谢~大力支持

夜晚的 发表于 2014-10-27 10:09:46

:) 感谢分享，谢谢！很详细的教程

风来吴山 发表于 2014-10-27 10:16:07

感谢分享，谢谢！很详细的教程

mulao 发表于 2014-10-27 10:21:23

采集利器啊
很好，学习了

乐乐发表于 2014-10-27 10:43:46

让我想起了06年在落伍者有朋友分享了一个简单教程写php代码，让我开始了编程道路。
希望你这个系列帖子能写完
对论坛采集新手帮助帮助很大，多谢分享。

xjtuelin 发表于 2014-10-27 13:55:54

谢谢，我现在正在开始执行采集！

Dhf 发表于 2014-10-27 14:26:12

采集啊学习了

xx19941215 发表于 2014-10-27 15:02:30

光采集的话怎么解决原创性呢？

kevinmy 发表于 2014-10-27 15:15:04

xx19941215 发表于 2014-10-27 15:02 static/image/common/back.gif
光采集的话怎么解决原创性呢？

现在不是都说采集站没有出路吗，所以在内容上肯定谈不上原创性，我只是觉得做网站的话，采集毕竟还是一个基础的东西，就算不采集内容，比如：采集Amazon的产品列表，图片，链接等内容，在不会调用API的情况下，还得靠采集来解决。分享的这篇文章，也是最为基础、入门的采集过程。

如果说要把这个例子中采集到的内容，提高原创性的话，应该只能用伪原创了，但可读性也差，且能否过搜索引擎也不一定。典型的话就是同义词替换，火车头早先的版本有插件，还有一些工具支持对数据库内容做同义词替换，效果都差不多

roror999 发表于 2014-10-27 16:24:07

期待楼主的中级篇、高级篇

jackok 发表于 2014-10-27 16:30:00

楼主辛苦了, 图文并茂, 好帖.

michaelr 发表于 2014-10-27 16:37:29

不错的内容，值得一看。。。。

jayhkun 发表于 2014-10-27 18:22:03

感谢分享

页: [1] 2

EEfaq论坛-赚客自留地's Archiver

从0开始学采集------初级篇：通过火车头采集发布到wordpress