怎样的文章才能被谷歌定义为原创_EEfaq论坛-赚客自留地_自写或外包文章区

asexy 发表于 2013-4-17 22:09:56

怎样的文章才能被谷歌定义为原创

1.用copyscape.com检测文章相似度，一定要没有搜索结果才算原创吗？
2.找10篇网上的文章，每个文章抽出两句话，组成一篇新的文章，又或者每20篇文章提取出一句，组成一篇，算原创吗？
网上找的定义：
1.相似度　　相似度是搜索引擎去重用的最多的算法，用的比较多的一种是TF/IDF算法，这个也是计算相关性的算法，TF-IDF的主要意思是说：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。　　TF词频（Term Frequency）指的是某一个给定的词语在该文件中出现的次数。　　IDF反文档频率（Inverse Document Frequency）指的是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。　　当一篇文章根据TF/IDF进行计算后，形成了一个多维的向量，这个向量就是这篇文章的内容特征向量，当两篇文章的特征向量趋于一致的时候，我们认为这两篇文章的内容接近，如果一致则说明是重复的。　　关于TF/IDF与向量算法的详细请参看Google黑板报的数学之美12-余弦定理与新闻分类　　2.数据指纹　　当搜索引擎通过相似度把文章收集起来后，要判别一下是否是重复文章，经常用的就是数据指纹，数据指纹有很多种算法，常见的比如讲文章的标点符号提出，进行对比，你很难想象有两篇不同的文章，标点符合是一致的。还有对向量进行对比，也就是TF词频（关键词密度）等等来判断。　　这时候你可以想象出，现在很多伪原创工具，只是把关键词进行了替换，你想关键词替换后，标点符号指纹是不变的，甚至连TF词频都不变。还有对文章进行段落的重拍，这个的确是打乱了标点符号，但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。（可能对于百度还是有作用的）　　3.代码噪音　　前面说的这些，都是基于一个条件的，就是搜索引擎要知道文章是什么，因为每个网站的模板都不同，代码也不同，各种信息混合在一起，如果能找到正文就是搜索引擎第一要处理的。　　一般Google都会通过对代码的布局和噪音比例进行区分，哪些是导航，哪些是正文，并可以对一些典型的代码进行忽略。那么我们在做模板的时候，就要注意了。这里有个纠结点，就是整页面降噪，方便搜索引擎进行正文的确认，但是正文区要适当的加燥，增加搜索引擎识别重复性的难度。

regent 发表于 2013-4-17 22:27:48

我的文章有一部分就是东拼西凑加轻微伪原创你抽出来的话能够自圆其说，有相当的可读性就应该没问题

wolfstyle 发表于 2013-4-17 22:29:24

读者感觉读着有用，谷歌自然就也过了

wuzu 发表于 2013-4-17 23:06:14

我觉得你要先想着为用户提供价值，只有用户觉得有价值了。google才会认为你的有价值。

mycheer 发表于 2013-4-17 23:06:24

通过软件自动拼凑文章，一般就会认为是原创

听风就是雨 发表于 2013-4-18 10:35:02

具体算法谁也不会知道
把能做的尽量做好，随机组合加适度改写和伪原创足够了

wang201205 发表于 2013-4-18 10:39:04

应该是没有任何规律的吧，软件改写的文章肯定有一定规律，自己写的话，那就不是统一的模式了。

haichao 发表于 2013-4-18 10:52:36

用软件，然后再手工改改

ADbb 发表于 2013-4-18 14:04:20

一句话不同的说法就是原创了

月光飞燕 发表于 2013-4-18 19:08:20

楼主考虑太多了，按照你找的定义，那么除了外包和自己写，那么可能都不行了。其实现在50%不重复，收录的也挺好，基本上被google认定为原创。

哎呀妈啊 发表于 2013-4-19 00:20:12

是不是，有时候规矩只是用来吓唬小朋友的呢

正在输入 发表于 2013-5-17 14:08:51

40%就差不多了吧

HONG 发表于 2013-6-2 19:58:01

嗯其实我们还是要努力给互联网创造一些有用的价值的

dongliang8388 发表于 2013-6-9 22:33:25

是的同意我们还是要努力给互联网创造一些有用的价值的

页: [1]

EEfaq论坛-赚客自留地's Archiver

怎样的文章才能被谷歌定义为原创