搜索引擎如何判断原创文章?
本帖最后由 luguo 于 2010-2-8 17:31 编辑背景:
一篇文章,同时被两个站点发布。
问题:
哪个站点会被认为是原创者?
这里判断原创文章的方法是:
谁的SERP比较高
上面的第二个投票 大概 可以认为 权重较高的网站。
在seowhy看到一个版主的回答很有趣,所以想做个投票,看看大家的理解。
因为我没做过baidu,所以这里默认是google.
如果大家的投票是针对baidu,最好跟下贴。
谢谢。
Edit:
稍作修改。
汗,被四楼吓到了。 新老站点的原创区分是不同的
对于英文内容而言先收录也可能会立即被屏蔽掉索引 本帖最后由 luguo 于 2010-2-8 13:46 编辑
新老站点的原创区分是不同的
对于英文内容而言先收录也可能会立即被屏蔽掉索引
seo-greenhat 发表于 2010-2-8 13:20 http://advertcn.com/images/common/back.gif
这我懂,你的这个答案属于第二个,如果第二句话指的是新站的话。
看哪个先被收录的算。(某个SEOWHY正式版主的回答)
很想了解下,是不是需要给一些人科普下:D
或者说是如何处理duplicate content, 这点应该对于国内一些喜欢采集的人,有所帮助。
"屏蔽掉索引"是指supplemental results吗? 转一个:
大家都知道网站内容是一个网站的灵魂,是一个网站的血液,也是影响你网站表现的非常重要的一个因素。那么搜索引擎是如何判断一个文章到底谁是原创的呢?
首先要明确一个概念:原创 伪原创
原创:简单地理解就是第一次在网络上发表的内容,以前没有出现过的内容。
伪原创:就是从网站找来资料进行二次加工,二次修改之后的内容,如修改标题,修改内容,增加些文字或者减少一些文字等。
那么搜索引擎对于原创的判断是如何进行的呢?
一般来讲有以下几个方面的因素决定:
1、快照日期。
2、蜘蛛抓取日期。
3、页面外链的多少。
4、文章修改的程度。
1举个例子 如果你在一个网站上发布了一片文章内容
搜索引擎来到这个网站并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么就会被认为是原创。
在这点上有个细节需要注意:
1:文章必须被收录,如果没有被收录,肯定是在搜索数据库中石找不到的,搜索引擎根本就找不到这篇文章,更谈不上什么原创了。
2:文章被转载
如果刚发表的一篇文章被转载了,那么谁是原创呢?
那要看谁更先被搜索引擎抓取到,也就是更新周期的问题了。如果a站发表,b站转载,如果先抓取到a站,那么归a,如果先抓取b站,那么原创就归b站了,所以不是说你先发表了,原创就是你的,这个得看搜索引擎什么时间收录了你的内容。
3、访问时间
如果蜘蛛先访问了B站呢?
——当然权重给B站,一般的情况下都会这样!
——如果B站转载的文章带了A站的原文章页面链接呢?
——这就很明白了,刚收录的时候,如果排名,两条结果一起出现,有可能还是B站的排名好一点。
当然,文章转载次数多了以后,A站的链接越多,对A站的文章越有好处,排名会慢慢变成A站在前面。
——如果另外转载的文章带的是B站页面的链接呢?
——它们如果判断不好,就变成了一个链接流行度的比赛了。
不过,如果都有很多外部链接,并且相差不大,那么判断的规则应该回到原点,谁先被收录谁就是原创。
5、快照日期
——快照日期显示时间最早的,一般就是原创了吧!
——不一定,这个说法要在一个更新周期之内,比如说文章发表后一周内,快照时间越早的地址将越有被认可为原创的可能。
但如果文章都发表了几个月了,说不定搜索引擎已经重新获取过快照了,快照的日期就变了!
——还有其它的可能吗?
——有,一般比如百度收录,他可能会有一个收录的数据库,经过过滤后,收录的内容才会到搜索结果里来。在这个期间就有一些问题了,比如A站首次发表,B站转载。蜘蛛先访问A站再访问B站。而后可能先把B站的结果放出来了,而A站还在数据库里。
所以说搜索引擎没有收录并不表示搜索引擎蜘蛛没有访问过这些内容,也许在搜索引擎的库存里已经有记录了,只是你查的时间没有放出来而已,就像25号才放出来的内容,但是快照是20号的,这就是搜索引擎的库存内容,同时这也是检验原创的核心时间点。
这种情况一般出现在新站与老站之间,A站发表,B站转载,但A站在搜索引擎的信任度并不高的时候。不过只要是A站先被访问到的,原创权还是A站的,这是最难分出来的情况,因为我们不知道蜘蛛先访问哪个站,除非你知道两个站的网站空间日志内容,能看到搜索引擎对两个页面的访问时间。
6、伪原创
——伪原创也会被认为是原创?
——大多时候是这样的,搜索引擎蜘蛛不能明确分别这些东西,因为它的思维太程式化了。如果你的标题改过,文章的段落改过,那么蜘蛛将很难确定这篇文章是否有过收录,也许它可以确定有部分内容是重复的,但它也不能因为这些而将这篇文章确认为是转载!当然,随着搜索引擎程式设计的提高,应该会有一个相似度的东西出来,比如文字内容相似度超过百分之几就会被认为是转载。
这样分析下来,相信大家应该了解了吧。只是核桃自己的看法,希望大家吸收自己想要的东西,不认同的了也来提下自己的意见!
另外提几个建议:
1、如果你的站是新站,权重不高,如何让蜘蛛首页找到你的页面并放入数据库?其实很简单:用网摘、百度收藏这些工具让蜘蛛更快的找到你的页面!
2、大家都有过建议,就是加上自己的版权及内容页面的地址,别人采集的时候你就爽了,收录虽然不会快,但最后链接多了,你依然是原创内容。
3、发表文章等到自己收录以后再去其它的站点进行发表,同时加上自己的原文地址,这种办法很有保障! 本帖最后由 luguo 于 2010-2-8 17:28 编辑
晕,遇上了这个转贴王。
麻烦你转贴可不可以直接复制
2:文章被转载
如果刚发表的一篇文章被转载了,那么谁是原创呢?那要看谁更先被搜索引擎抓取到,也就是更新周期的问题了。如果a站发表,b站转载,如果先抓取到a站,那么归a,如果先抓取b站,那么原创就归b站了,所以不是说你先发表了,原创就是你的,这个得看搜索引擎什么时间收录了你的内容。
真是够汗,我在第三楼,已经说了,我懂.我只是想知道有多少人被误导 “看哪个先被收录的算。”
很明显你把这个转过来,也证明你是被误导了 哈哈
“这个得看搜索引擎什么时间收录了你的内容。” 有趣。 楼上的讲的都很专业,学习中。。。。。:) 太有价值了
我觉得百度先收录事原创~~~~~ 那新站还是挺吃亏的 好像先比对,去除那些垃圾广告站,然后再看日期先后:Q 我认为搜索不能判断出文章是谁原创的,统一文章即使是你原创,但权重高的网站转载了,他也排在你前面。 原来还有这么多学问 百度是这么认为:权重 這個我有自已實驗過,以亞虎來說,同樣內容的兩個站台,前5篇文章結構都一樣,但A站會持續更新原創文章,經觀察結果,PR高的會優先考量,另一站雖不更新文章,但會因為我的A站沾了光而往前排(我用WP,所以在theme部份有不同)。
現在來個麻煩事了,我不小心用了某個spam程式,用rss去submit我的A站,結果,過了一天後,這兩個原本在同一個high competition keyword排名第一頁的兄弟兩,全跑到第三頁去了…
目前不得不再增加其他關鍵字增加排名,並大量加強high pr forum的profile backlink.
祝我好運,能再重回第一頁^^ 大家都是专家啊,好专业啊。 学习了,谢谢分享,顶一下
哪个先被收录的算...........
页:
[1]