HONG 发表于 2013-9-13 07:26:38

Wordpress 评论求教

本帖最后由 HONG 于 2013-9-13 07:32 编辑

我让老外帮我整了些个垃圾评论,他的报告很详细: 关键词,评论地址,等信息都记录下来。
如图

我一看都是wordpress页面,而且网页上面动辄几千条评论。然后我把那个地址拿过来 用我的scrapebox 或者 xrumer (破解)的跑一圈后,发现都是提示网页太大打不开。

我用常规的软件无法发布上去,那老外怎么能够发布成功的呢?
难道他们不需要下载页面,直接发送到wordpress 的评论表单(猜想,求指教)

他们难道有啥利器? 或者真的是本地网速的原因,需要百兆带宽吗?
我们今天先不讨论,博客留言有用没用好不好, 我今天想知道的是,我如何成功在wordpress上面把言留住。

提前感谢有这方面经验的高人指点






月光飞燕 发表于 2013-9-13 07:32:21

这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说明站是自己的
第2是直接post请求提交到数据库,不走referer页面,说明程序的特殊的,或者是自己开发的
第3是仍然使用了scrapebox 或者 xrumer 等,但是别人的处理能力和带宽都比你强很多

HONG 发表于 2013-9-13 07:38:49

本帖最后由 HONG 于 2013-9-13 07:40 编辑

月光飞燕 发表于 2013-9-13 07:32 static/image/common/back.gif
这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说 ...
很感激您的及时回复,
实话讲,我觉得垃圾评论目前还是有帮助的。(几天我就斗胆了)
我也是最近结合了自己的几个案例,才发现的评论还是有价值的,所有最近对这块比较想钻研下来。

当然,我也不想把论坛的风气带坏哦, 我也不希望论坛哪天从英文做国外论坛变成黑帽论坛了。 呵呵,开个玩笑




weijinmen 发表于 2013-9-13 08:22:14

呵呵
月光来的真及时


pp30330 发表于 2013-9-13 10:35:37

wordpress是否可视?如果可视的话确实NIU X。

HONG 发表于 2013-9-13 10:57:47

pp30330 发表于 2013-9-13 10:35 static/image/common/back.gif
wordpress是否可视?如果可视的话确实NIU X。

可视是什么意思?
http://linux.ucentral.cl/web2/?p=319

这个是其中一个垃圾链接地址

龙腾山河 发表于 2013-9-13 11:50:18

感觉评论还是少做比较好 可以做些相关的 follow的增加外链的资源种类

btzx1 发表于 2013-9-13 13:14:03

大部分网站对评论区域网址设置了nofollow,还是少发这种链接

八夜 发表于 2013-9-13 13:45:52

你想量变引起质变;P我也是菜鸟只知道要发好的外链

minlab 发表于 2013-9-13 17:00:14

自动评论通过的网站对网站服务器也是一个考验

luguokankan 发表于 2013-9-13 17:45:16

月光飞燕 发表于 2013-9-13 07:32 static/image/common/back.gif
这种评论真的没有什么价值啊,而且会k站的
有3种可能,
第1是这些站的后台里面直接添加的,使用xmlprc,说 ...

第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.
所以还是得先访问页面


月光飞燕 发表于 2013-9-13 18:02:14

luguokankan 发表于 2013-9-13 17:45 static/image/common/back.gif
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.


没有实践过,如果是你说的那样,至少可以不去读js和大量的头像等
如果宽带充足,问题不大


luguokankan 发表于 2013-9-13 19:15:20

月光飞燕 发表于 2013-9-13 18:02 static/image/common/back.gif
没有实践过,如果是你说的那样,至少可以不去读js和大量的头像等
如果宽带充足,问题不大



其实大部分scraper都是只读取目标html结构,不会去读取其他文件的, 这些文件包括js,css,图片的.

比如你用php curl下载一个网页, 绝对就只有那个网页文件,不会有它引用的其他文件.

这几年不是流行nodejs之类的headless webkit东东,这个用来做scraper,可以支持js. :lol





HONG 发表于 2013-9-13 21:26:53

luguokankan 发表于 2013-9-13 17:45 static/image/common/back.gif
第二种比较有意思.
不过,首先得获取相对应文章的ID,
评论那边有个隐藏的input, comment_post_ID.


我觉得你的思路对路的,假如直接post到 wp-comment-post.php 的话, 就给以绕过下载那个超大的网页了。问题就是要弄个脚本拿到文章地址的 文章ID, 我们不可能一个个的去查文章ID的

luguokankan 发表于 2013-9-14 07:06:17

HONG 发表于 2013-9-13 21:26 static/image/common/back.gif
我觉得你的思路对路的,假如直接post到 wp-comment-post.php 的话, 就给以绕过下载那个超大的网页了。问 ...

对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊. :lol
www.test.com/?p=xxx

你发header请求验证页面是否存在.

用header就避免了下载整个网页了,对不对 ;P

那么多spam, 肯定comment不需要管理, 猜对post id直接post到wp-comment-post.php


HONG 发表于 2013-9-14 11:56:03

luguokankan 发表于 2013-9-14 07:06 static/image/common/back.gif
对啊,这个方法的局限就是你得先找到post id.

不过可以猜啊.


嗯,对于 id在链接中的话,我们很容易用php 脚本拿到。 但是,文章伪静态了呢?比如这个
http://arcadegameworld.com/play/stone-age-mahjong-connect/

我对你说到的header 办法不是很明白,能否明示。
或者请路过高人,加以指点: 如何能够用php 或者其他办法通过博文地址拿到ID,比如上面这个地址。
关键是: 有的博文很大很大, 一般常规采集的函数 php file_get_contents 可能不好使。

今天,就在这里碰碰运气,看能否解决我的难题



luguokankan 发表于 2013-9-14 12:21:55

本帖最后由 luguokankan 于 2013-9-14 12:23 编辑

HONG 发表于 2013-9-14 11:56 static/image/common/back.gif
嗯,对于 id在链接中的话,我们很容易用php 脚本拿到。 但是,文章伪静态了呢?比如这个
http://arcadega ...
额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world

你还是可以通过www.test.com/?p=1访问的

至于header请求嘛,你知道get, post吧?你自己查下吧. 跟ping差不多吧.

之前比较懒,没有动手测试. 现在给你看下header请求的结果



没想到文章id直接在headers里面. :lol 我算半个高人吧 :$

还有,我奉劝你别使用file_put_contents, 用php curl吧, 支持header请求



will86 发表于 2013-9-14 16:17:04

楼上高手,直接在header里查id

HONG 发表于 2013-9-14 17:23:29

luguokankan 发表于 2013-9-14 12:21 static/image/common/back.gif
额,我说的是猜....

启动了伪静态, 比如: www.test.com/hello-world


谢谢您,经过您的指点,我已近实验成功了

luguokankan 发表于 2013-9-14 17:32:20

HONG 发表于 2013-9-14 17:23 static/image/common/back.gif
谢谢您,经过您的指点,我已近实验成功了

做出来记得给我一份啊 :lol

页: [1] 2
查看完整版本: Wordpress 评论求教