stacounter, 这个是什么状况呢?
如图,我每加一篇文章就发现google来一次,还不是通常看到的"google bot",并显示search referral,但我自己site一下,却发现页面其实还没被收录。 这是google蜘蛛的手工模式么?
是蜘蛛,只是没有加useragent,被当成了普通访客
原来如此,这下明白了
是蜘蛛,可以把他IP段禁掉~
月光飞燕 发表于 2014-2-18 19:03 static/image/common/back.gif
是蜘蛛,只是没有加useragent,被当成了普通访客
原来如此。 谢谢!
学习了。谢谢。。。
什么蜘蛛?不是google的吧
我能说只要这些ip段的来访(不限于楼主那两个ip段,基本是66.249.8x.xxx,还有另外两个固定ip),采集站第二天就挂了么?
500+采集站的观察结果,最怕这些来访了:lol 当然你的站内容没问题的话就可以略过了
屏蔽这些IP,会影响收录吗
chenyox 发表于 2014-2-18 23:51 static/image/common/back.gif
我能说只要这些ip段的来访(不限于楼主那两个ip段,基本是66.249.8x.xxx,还有另外两个固定ip),采集站第 ...
看了好几遍才看懂了老兄的意思哇 :dizzy:
我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时以上,但收录速度却不快。 :L
内容必须没问题啊! 我原先也极其痛苦地挣扎于原创原创原创原创原创伪原创&再原创!
后来想想,互联网最大的存在意义是什么,那就是,分享! 分享!分享!再分享!
这么一想就豁然开朗了,名正言顺的剽窃比提心吊胆的伪原创来得轻松得多了!
什么叫“名正言顺的剽窃”捏,就是分享原作者允许redistribute的东东。
不会写程序,所以全是手工模式的采集,累啊;
不过还好,这个站上线半年了,现在每天能从gg得到800到1500ip,3到6K pv,alexa也到30W以内了
amnoob 发表于 2014-2-19 23:35 static/image/common/back.gif
看了好几遍才看懂了老兄的意思哇
我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时 ...
其实我更倾向于这些ip段不是google bot, 这些ip段 66.249.8x.xxx, hostname是 google-proxy-66-249-8x-xxx.google.com, 而google bot 应该是 crawl-66-249-xx-xxx.googlebot.com这样的, 像是人工查站一样,反正它们来了我的采集站必K光, 直接清0。有兴趣的欢迎讨论一下。
有个有趣的现象是,我针对这些ip设置了一下,这些ip来的时候就显示404,结果这些站都只是降权了,没有清0,每天还有少量访问; 而没有设置的,都清0了。
搞采集很累的,楼主不搞是明智之举。
PS: 今天挂了一个amazon jp的号, 是amazon.com的来查岗了,我还以为会是日本那边负责查的呢,损失20多W日元,不多也不少,采集的说挂就挂:Q
各位远离采集远离采集远离采集。。。
amnoob 发表于 2014-2-19 23:35 static/image/common/back.gif
看了好几遍才看懂了老兄的意思哇
我查了一下statcounter的记录,发现蜘蛛每天都要来呆上半小时 ...
你这也算是采集吧?你如何查询到允许分享的站呢?
chenyox 发表于 2014-2-20 17:09 static/image/common/back.gif
其实我更倾向于这些ip段不是google bot, 这些ip段 66.249.8x.xxx, hostname是 google-proxy-66-249-8x-x ...
你那500+采集站都降权和清零了么?有没一些长时间正常存在的?
学习了,原来是这样。。。
forwhatah 发表于 2014-3-6 17:07 static/image/common/back.gif
你那500+采集站都降权和清零了么?有没一些长时间正常存在的?
没有。。。基本很快就挂了,这段时间更狠了,有些还没流量就K光了,可能我功力还不够吧
chenyox 发表于 2014-3-6 22:48 static/image/common/back.gif
没有。。。基本很快就挂了,这段时间更狠了,有些还没流量就K光了,可能我功力还不够吧
...
采集也不容易,无论是采集过程,还是采集后!
学习一下
页:
[1]