怎样的文章才能被谷歌定义为原创
1.用copyscape.com检测文章相似度,一定要没有搜索结果才算原创吗?2.找10篇网上的文章,每个文章抽出两句话,组成一篇新的文章,又或者每20篇文章提取出一句,组成一篇,算原创吗?
网上找的定义:
1.相似度 相似度是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。 关于TF/IDF与向量算法的详细请参看Google黑板报的数学之美12-余弦定理与新闻分类 2.数据指纹 当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。 这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,你想关键词替换后,标点符号指纹是不变的,甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。(可能对于百度还是有作用的) 3.代码噪音 前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。 一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。
我的文章有一部分就是东拼西凑 加轻微伪原创 你抽出来的话能够自圆其说,有相当的可读性 就应该没问题 读者感觉读着有用,谷歌自然就也过了 我觉得你要先想着为用户提供价值,只有用户觉得有价值了。google才会认为你的有价值。 通过软件自动拼凑文章,一般就会认为是原创 具体算法谁也不会知道
把能做的尽量做好,随机组合加适度改写和伪原创足够了 应该是没有任何规律的吧,软件改写的文章肯定有一定规律,自己写的话,那就不是统一的模式了。 用软件,然后再手工改改 一句话不同的说法 就是原创了 楼主考虑太多了,按照你找的定义,那么除了外包和自己写,那么可能都不行了。其实现在50%不重复,收录的也挺好,基本上被google认定为原创。 是不是,有时候规矩只是用来吓唬小朋友的呢 40%就差不多了吧 嗯 其实我们还是要努力给互联网创造一些有用的价值的
是的同意 我们还是要努力给互联网创造一些有用的价值的
页:
[1]