amnoob 发表于 2014-2-18 18:34:52

stacounter, 这个是什么状况呢?





如图,我每加一篇文章就发现google来一次,还不是通常看到的"google bot",并显示search referral,但我自己site一下,却发现页面其实还没被收录。 这是google蜘蛛的手工模式么?

月光飞燕 发表于 2014-2-18 19:03:46

是蜘蛛,只是没有加useragent,被当成了普通访客

will86 发表于 2014-2-18 19:10:31

原来如此,这下明白了            

冷夜追风 发表于 2014-2-18 19:32:14

是蜘蛛,可以把他IP段禁掉~

amnoob 发表于 2014-2-18 19:37:16

月光飞燕 发表于 2014-2-18 19:03 static/image/common/back.gif
是蜘蛛,只是没有加useragent,被当成了普通访客

原来如此。 谢谢!                                                            

未来式 发表于 2014-2-18 22:53:22

学习了。谢谢。。。            

lanmao1 发表于 2014-2-18 23:01:28

什么蜘蛛?不是google的吧

chenyox 发表于 2014-2-18 23:51:37

我能说只要这些ip段的来访(不限于楼主那两个ip段,基本是66.249.8x.xxx,还有另外两个固定ip),采集站第二天就挂了么?

500+采集站的观察结果,最怕这些来访了:lol 当然你的站内容没问题的话就可以略过了

leevans 发表于 2014-2-19 00:09:26

屏蔽这些IP,会影响收录吗

amnoob 发表于 2014-2-19 23:35:09

chenyox 发表于 2014-2-18 23:51 static/image/common/back.gif
我能说只要这些ip段的来访(不限于楼主那两个ip段,基本是66.249.8x.xxx,还有另外两个固定ip),采集站第 ...


看了好几遍才看懂了老兄的意思哇 :dizzy:

我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时以上,但收录速度却不快。 :L

内容必须没问题啊! 我原先也极其痛苦地挣扎于原创原创原创原创原创伪原创&再原创!

后来想想,互联网最大的存在意义是什么,那就是,分享! 分享!分享!再分享!

这么一想就豁然开朗了,名正言顺的剽窃比提心吊胆的伪原创来得轻松得多了!

什么叫“名正言顺的剽窃”捏,就是分享原作者允许redistribute的东东。

不会写程序,所以全是手工模式的采集,累啊;

不过还好,这个站上线半年了,现在每天能从gg得到800到1500ip,3到6K pv,alexa也到30W以内了



chenyox 发表于 2014-2-20 17:09:49

amnoob 发表于 2014-2-19 23:35 static/image/common/back.gif
看了好几遍才看懂了老兄的意思哇

我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时 ...

其实我更倾向于这些ip段不是google bot, 这些ip段 66.249.8x.xxx, hostname是 google-proxy-66-249-8x-xxx.google.com, 而google bot 应该是 crawl-66-249-xx-xxx.googlebot.com这样的, 像是人工查站一样,反正它们来了我的采集站必K光, 直接清0。有兴趣的欢迎讨论一下。

有个有趣的现象是,我针对这些ip设置了一下,这些ip来的时候就显示404,结果这些站都只是降权了,没有清0,每天还有少量访问; 而没有设置的,都清0了。

搞采集很累的,楼主不搞是明智之举。

PS: 今天挂了一个amazon jp的号, 是amazon.com的来查岗了,我还以为会是日本那边负责查的呢,损失20多W日元,不多也不少,采集的说挂就挂:Q


各位远离采集远离采集远离采集。。。

心晴 发表于 2014-2-20 18:21:33

amnoob 发表于 2014-2-19 23:35 static/image/common/back.gif
看了好几遍才看懂了老兄的意思哇

我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时 ...

你这也算是采集吧?你如何查询到允许分享的站呢?

forwhatah 发表于 2014-3-6 17:07:15

chenyox 发表于 2014-2-20 17:09 static/image/common/back.gif
其实我更倾向于这些ip段不是google bot, 这些ip段 66.249.8x.xxx, hostname是 google-proxy-66-249-8x-x ...

你那500+采集站都降权和清零了么?有没一些长时间正常存在的?

wise2013 发表于 2014-3-6 17:53:34

学习了,原来是这样。。。

chenyox 发表于 2014-3-6 22:48:22

forwhatah 发表于 2014-3-6 17:07 static/image/common/back.gif
你那500+采集站都降权和清零了么?有没一些长时间正常存在的?

没有。。。基本很快就挂了,这段时间更狠了,有些还没流量就K光了,可能我功力还不够吧

forwhatah 发表于 2014-3-7 02:43:21

chenyox 发表于 2014-3-6 22:48 static/image/common/back.gif
没有。。。基本很快就挂了,这段时间更狠了,有些还没流量就K光了,可能我功力还不够吧

...

采集也不容易,无论是采集过程,还是采集后!

ebookyx 发表于 2014-3-7 13:19:42

学习一下                              
页: [1]
查看完整版本: stacounter, 这个是什么状况呢?