EEfaq论坛-赚客自留地

 找回密码
 免费注册
查看: 1761|回复: 37

从0开始学采集------初级篇:通过火车头采集发布到wordpress

  [复制链接]
发表于 2014-10-27 01:01:18 | 显示全部楼层 |阅读模式
前言:
我是论坛新人,前几天刚刚注册,看到一个提问我正好会就回答了(帖子地址:http://www.eefaq.com/thread-121030-1-1.html),没想到除了得到提问者的感谢外,还有很多朋友为我加T币,这很让我意外同时也鼓舞了我,也第一次感受到了“我分享,我快乐”,为了更好的解答上面帖子的问题,也让更多刚刚步入网站这行的朋友尽快了解采集,我做一个采集发布的例子,截图下来,供大家参考!


需要的工具:
1.火车采集器。我下载的是V8.4免费版,网址http://www.locoy.com/Down/LocoySpider/LocoySpiderV8.html
2.wordpress源码。我下载的是4.0,网址https://cn.wordpress.org/
3.上次推荐的哈默免登录发布模块由于我是几年前在用,这次做教程下载下来,发现他没有在更新了,不支持最新版火车头和wp4.0。网上搜索下载了几个新版本的经测试也不能用。后来选择了直接用sql语句直接入库,测试成功,下面介绍给大家。


步骤:
1.本地搭建好PHP环境,安装好wordpress,过程省略。


2.打开火车头采集器,以采集器内置规则为例,讲解如何使用火车头。

1.png

采集的内容列表为:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml打开这个网址后,我们发现一共有5个列表页,通过比较我们发现列表地址的前面内容一样,区别在于最后的部分分别为:/index_1.shtml,/index_2.shtml,/index_3.shtml,/index_4.shtml,/index_5.shtml。这样的话我们只需要把不必的内容固定,变化的内容用(*)来表示,由于属于等差数列总的列表数为5页,所以选择首项为1,项数为5.确认无误后,点击添加---完成。

2.png

3.png

内容网址为:http://news.sina.com.cn/c/2014-10-26/222231047597.shtml,同时看了多页归纳格式为:http://news.sina.com.cn/c/*************

4.png

5.png
6.png
7.png
8.png

在找采集规则的开始和结束标记时,一般是用浏览器打开要采集的网址后,鼠标右键选查看源代码,在源代码中寻找要采集的内容,往上找是开始标记,往下找是结束标记。标记的特点是唯一。根据这个特点,我们重新填写内容标签的规则,如下图,同时Html标签排除里,去掉了链接,DIV等标记,这是为了能够做到只采集文字部分。

9.png

10.png

11.png

12.png

13.png

14.png


以上就是通过火车头发布到wordpress的一个简单实例,在wordpress显示成功,虽然截图了,但由于我单日限制上传1MB的图片附件,所以无法上传了。




评分

参与人数 24e币 +54 收起 理由
zhuce1 + 1 認眞參與
370170639 + 1 谢谢分享!
olala + 1 谢谢分享!
useejack + 1 谢谢分享!
wjk861025 + 3
tkmy + 1
xindongju + 1 有見地
进藤 + 2 很用心。
michaelr + 1 有見地
Dhf + 1 加分 必须的
月光飞燕 + 10
ryan2101 + 2
乐乐 + 5 请继续分享
有粪量 + 1 鼓勵
莫闲 + 2 多谢了,希望以后多分享
HappySky + 2
晕蛋疯亲 + 5 这个版本比较新啊
foxconndmd + 1 認眞參與
roror999 + 3 你发优秀文章,我会大力给T币!谢谢.
网赚寰宇 + 1 楼主,你知道的太多了
未来式 + 2 鼓勵
liwoonゞ + 1 認眞參與
iam16 + 5 鼓勵
Leeker + 1 虽然很基础,打赏点辛苦费吧....

查看全部评分

回复

使用道具 举报

发表于 2014-10-27 06:30:00 | 显示全部楼层
很细很全面,顶楼主分享精神!!!!!
回复 支持 反对

使用道具 举报

发表于 2014-10-27 07:41:24 | 显示全部楼层
你发优秀文章,我会大力给T币!谢谢.
回复 支持 反对

使用道具 举报

发表于 2014-10-27 07:44:37 | 显示全部楼层
支持楼主的无私分享。。。。
回复 支持 反对

使用道具 举报

发表于 2014-10-27 08:47:12 | 显示全部楼层
写的很详细,蜘蛛直接入库才是王道。
回复 支持 反对

使用道具 举报

发表于 2014-10-27 09:44:08 | 显示全部楼层
新版本感觉用起来的采集速度比2010的慢啊
回复 支持 反对

使用道具 举报

发表于 2014-10-27 09:49:55 | 显示全部楼层
多谢楼主了,给平分了,希望以后多分享
回复 支持 反对

使用道具 举报

发表于 2014-10-27 09:57:22 | 显示全部楼层
这种文章非常好~谢谢~大力支持
回复 支持 反对

使用道具 举报

发表于 2014-10-27 10:09:46 | 显示全部楼层
感谢分享,谢谢!很详细的教程
回复 支持 反对

使用道具 举报

发表于 2014-10-27 10:16:07 | 显示全部楼层
感谢分享,谢谢!很详细的教程
回复 支持 反对

使用道具 举报

发表于 2014-10-27 10:21:23 | 显示全部楼层
采集利器啊
很好,学习了   
回复 支持 反对

使用道具 举报

发表于 2014-10-27 10:43:46 | 显示全部楼层
让我想起了06年在落伍者有朋友分享了一个简单教程写php代码,让我开始了编程道路。
希望你这个系列帖子能写完
对论坛采集新手帮助帮助很大,多谢分享。
回复 支持 反对

使用道具 举报

发表于 2014-10-27 13:55:54 | 显示全部楼层
谢谢,我现在正在开始执行采集!
回复 支持 反对

使用道具 举报

发表于 2014-10-27 14:26:12 | 显示全部楼层
采集啊 学习了                                                
回复 支持 反对

使用道具 举报

发表于 2014-10-27 15:02:30 来自手机 | 显示全部楼层
光采集的话怎么解决原创性呢?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2014-10-27 15:15:04 | 显示全部楼层

现在不是都说采集站没有出路吗,所以在内容上肯定谈不上原创性,我只是觉得做网站的话,采集毕竟还是一个基础的东西,就算不采集内容,比如:采集Amazon的产品列表,图片,链接等内容,在不会调用API的情况下,还得靠采集来解决。分享的这篇文章,也是最为基础、入门的采集过程。

如果说要把这个例子中采集到的内容,提高原创性的话,应该只能用伪原创了,但可读性也差,且能否过搜索引擎也不一定。典型的话就是同义词替换,火车头早先的版本有插件,还有一些工具支持对数据库内容做同义词替换,效果都差不多

回复 支持 反对

使用道具 举报

发表于 2014-10-27 16:24:07 | 显示全部楼层
期待楼主的中级篇、高级篇
回复 支持 反对

使用道具 举报

发表于 2014-10-27 16:30:00 | 显示全部楼层
楼主辛苦了, 图文并茂, 好帖.
回复 支持 反对

使用道具 举报

发表于 2014-10-27 16:37:29 | 显示全部楼层
不错的内容,值得一看。。。。
回复 支持 反对

使用道具 举报

发表于 2014-10-27 18:22:03 | 显示全部楼层
感谢分享                        
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

QQ|联系我们|Archiver|手机版|小黑屋|EEfaq论坛

GMT+8, 2024-11-22 00:26

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表