Wordpress 评论求教_EEfaq论坛-赚客自留地_赚客大家谈

HONG 发表于 2013-9-13 07:26:38

Wordpress 评论求教

本帖最后由 HONG 于 2013-9-13 07:32 编辑

我让老外帮我整了些个垃圾评论，他的报告很详细：关键词，评论地址，等信息都记录下来。
如图

我一看都是wordpress页面，而且网页上面动辄几千条评论。然后我把那个地址拿过来用我的scrapebox 或者 xrumer （破解）的跑一圈后，发现都是提示网页太大打不开。

我用常规的软件无法发布上去，那老外怎么能够发布成功的呢？
难道他们不需要下载页面，直接发送到wordpress 的评论表单（猜想，求指教）

他们难道有啥利器？或者真的是本地网速的原因，需要百兆带宽吗？
我们今天先不讨论，博客留言有用没用好不好，我今天想知道的是，我如何成功在wordpress上面把言留住。

提前感谢有这方面经验的高人指点

月光飞燕 发表于 2013-9-13 07:32:21

这种评论真的没有什么价值啊，而且会k站的
有3种可能，
第1是这些站的后台里面直接添加的，使用xmlprc，说明站是自己的
第2是直接post请求提交到数据库，不走referer页面，说明程序的特殊的，或者是自己开发的
第3是仍然使用了scrapebox 或者 xrumer 等，但是别人的处理能力和带宽都比你强很多

HONG 发表于 2013-9-13 07:38:49

本帖最后由 HONG 于 2013-9-13 07:40 编辑

月光飞燕发表于 2013-9-13 07:32 static/image/common/back.gif
这种评论真的没有什么价值啊，而且会k站的
有3种可能，
第1是这些站的后台里面直接添加的，使用xmlprc，说 ...
很感激您的及时回复，
实话讲，我觉得垃圾评论目前还是有帮助的。（几天我就斗胆了）
我也是最近结合了自己的几个案例，才发现的评论还是有价值的，所有最近对这块比较想钻研下来。

当然，我也不想把论坛的风气带坏哦，我也不希望论坛哪天从英文做国外论坛变成黑帽论坛了。呵呵，开个玩笑

weijinmen 发表于 2013-9-13 08:22:14

呵呵
月光来的真及时

pp30330 发表于 2013-9-13 10:35:37

wordpress是否可视？如果可视的话确实NIU X。

HONG 发表于 2013-9-13 10:57:47

pp30330 发表于 2013-9-13 10:35 static/image/common/back.gif
wordpress是否可视？如果可视的话确实NIU X。

可视是什么意思？
http://linux.ucentral.cl/web2/?p=319

这个是其中一个垃圾链接地址

龙腾山河 发表于 2013-9-13 11:50:18

感觉评论还是少做比较好可以做些相关的 follow的增加外链的资源种类

btzx1 发表于 2013-9-13 13:14:03

大部分网站对评论区域网址设置了nofollow，还是少发这种链接

八夜发表于 2013-9-13 13:45:52

你想量变引起质变;P我也是菜鸟只知道要发好的外链

minlab 发表于 2013-9-13 17:00:14

自动评论通过的网站对网站服务器也是一个考验

luguokankan 发表于 2013-9-13 17:45:16

月光飞燕发表于 2013-9-13 07:32 static/image/common/back.gif
这种评论真的没有什么价值啊，而且会k站的
有3种可能，
第1是这些站的后台里面直接添加的，使用xmlprc，说 ...

第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.
所以还是得先访问页面

月光飞燕 发表于 2013-9-13 18:02:14

luguokankan 发表于 2013-9-13 17:45 static/image/common/back.gif
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.

没有实践过，如果是你说的那样，至少可以不去读js和大量的头像等
如果宽带充足，问题不大

luguokankan 发表于 2013-9-13 19:15:20

月光飞燕发表于 2013-9-13 18:02 static/image/common/back.gif
没有实践过，如果是你说的那样，至少可以不去读js和大量的头像等
如果宽带充足，问题不大

其实大部分scraper都是只读取目标html结构,不会去读取其他文件的, 这些文件包括js,css,图片的.

比如你用php curl下载一个网页, 绝对就只有那个网页文件,不会有它引用的其他文件.

这几年不是流行nodejs之类的headless webkit东东,这个用来做scraper,可以支持js. :lol

HONG 发表于 2013-9-13 21:26:53

luguokankan 发表于 2013-9-13 17:45 static/image/common/back.gif
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.

我觉得你的思路对路的，假如直接post到 wp-comment-post.php 的话，就给以绕过下载那个超大的网页了。问题就是要弄个脚本拿到文章地址的文章ID，我们不可能一个个的去查文章ID的

luguokankan 发表于 2013-9-14 07:06:17

HONG 发表于 2013-9-13 21:26 static/image/common/back.gif
我觉得你的思路对路的，假如直接post到 wp-comment-post.php 的话，就给以绕过下载那个超大的网页了。问 ...

对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊. :lol
www.test.com/?p=xxx

你发header请求验证页面是否存在.

用header就避免了下载整个网页了,对不对 ;P

那么多spam, 肯定comment不需要管理, 猜对post id直接post到wp-comment-post.php

HONG 发表于 2013-9-14 11:56:03

luguokankan 发表于 2013-9-14 07:06 static/image/common/back.gif
对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊.

嗯，对于 id在链接中的话，我们很容易用php 脚本拿到。但是，文章伪静态了呢？比如这个
http://arcadegameworld.com/play/stone-age-mahjong-connect/

我对你说到的header 办法不是很明白，能否明示。
或者请路过高人，加以指点：如何能够用php 或者其他办法通过博文地址拿到ID，比如上面这个地址。
关键是：有的博文很大很大，一般常规采集的函数 php file_get_contents 可能不好使。

今天，就在这里碰碰运气，看能否解决我的难题

luguokankan 发表于 2013-9-14 12:21:55

本帖最后由 luguokankan 于 2013-9-14 12:23 编辑

HONG 发表于 2013-9-14 11:56 static/image/common/back.gif
嗯，对于 id在链接中的话，我们很容易用php 脚本拿到。但是，文章伪静态了呢？比如这个
http://arcadega ...
额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world

你还是可以通过www.test.com/?p=1访问的

至于header请求嘛,你知道get, post吧?你自己查下吧. 跟ping差不多吧.

之前比较懒,没有动手测试. 现在给你看下header请求的结果

没想到文章id直接在headers里面. :lol 我算半个高人吧 :$

还有,我奉劝你别使用file_put_contents, 用php curl吧, 支持header请求

will86 发表于 2013-9-14 16:17:04

楼上高手，直接在header里查id

HONG 发表于 2013-9-14 17:23:29

luguokankan 发表于 2013-9-14 12:21 static/image/common/back.gif
额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world

谢谢您，经过您的指点，我已近实验成功了

luguokankan 发表于 2013-9-14 17:32:20

HONG 发表于 2013-9-14 17:23 static/image/common/back.gif
谢谢您，经过您的指点，我已近实验成功了

做出来记得给我一份啊 :lol

页: [1] 2

EEfaq论坛-赚客自留地's Archiver

Wordpress 评论求教