说说原创和伪原创在搜索引擎中的判定

　　原创和伪原创成为现在互联网后时代一个重要的话题，即就是如何保“证内容为王”的问题，对于门户型的大互联网公司来说，也许他们有专业的编辑和写手，但是据我所了解的，甚然逃不了要去转载别人的文章。如何在原

　　原创和伪原创成为现在互联网后时代一个重要的话题，即就是如何保“证内容为王”的问题，对于门户型的大互联网公司来说，也许他们有专业的编辑和写手，但是据我所了解的，甚然逃不了要去转载别人的文章。如何在原创与非原创之间取得平衡点，是做网站运营人员和编辑必须进行把控的一个点。

　　搜索引擎如何辩别原创和伪原创?

　　以目前的计算机来看，是不可能做到真正的人工智能识别内容的，也许对英文系还好一些，毕竟英文系的字库有限，每个独立的英语的意思是独立的或者相关的。并且英文中有默认的习惯用“-”来进行区分。

　　而中文则就明显不同。同一个意思，可以用无数个词来形容，千变万化。比如说：“人面桃花”这个词的涵义就多了。所以计算机是不可能辩识的。那么搜索引擎如何去判定原创和伪原创呢?下面是思路实现。

　　首先，搜索引擎把两篇文章进行有机的筛选，作为比对对象，那如何知道这比对的文章是有关的呢?当然就是关键字，根据文章的关键字决定的，这也就是为什么文章中要内置一定比例的关键字的原因所在，至少如何区分文章中那一个是关键字，搜索引擎自有算法解决的，不再赘述。

　　取出两篇文章以后，计算机就进行分析：

　　1、设定一个比例，比如定义为M，标注是0.5的系数。

　　2、把A篇文章，根据字数，段落为分三段。B篇文章段落分为三段，然后进行算法编译，也可以理解成为加密之类的，也就是说把文字变成符号。比如说一段话进行编译之后变成了aaacbdfbcdfsdafefasdfasd 这样的字符串。当然不一定是用ABCD这种字符，这样做的好处是因为方便计算机比对和处理。

　　3、然后把A，B两篇文章经过第二步的处理，再通过算法得到，两篇文章之间的相似度有多少，(估计这个对比算法很复杂，我也只能猜测。)会得到一个值，也就是类似上述1中提到的这个M的系数，根据标准，比如是高于0.5就表示是雷同，低于就表示是不雷同，如果雷同就利用搜索引擎爬行得到的其他的参数来决定谁是原创，或者是非原创。

　　我们如何应对搜索引擎的原创判定呢?

　　道高一尺，魔高一丈，互联网上永远没有绝对的矛与盾，在现在计算机还不可能真正实现人工智能，所以，原创和伪原创是一个暂且永恒的话题。做最强的伪原创可以如下三步走：

　　1、标题一定要改，并且要改得出神入化。中国的文字很复杂，同样的一个意思可以用很多的方法来体现，如果你真的不能改，那么我告诉你一个方法，就是把标题写长到20-25个字，你一定很特别的。

　　2、如果你有不错的文字功功底，你看了人家的文章之后，你就马上可以在腹稿里形成一定的框架，然后用你的语言进行描述，再加上图片等富文本进行修饰，那绝对是一篇难得的伪原创文章。比如我们的车市中国网就有专业的编辑人员,对于发布的各种汽车类新闻都进行一大量的伪原创的效果.

　　3、内容错乱。网上有很多垃圾站。为什么人家可以得到关键字的排名和流量，原因就是，采集到信息进行伪原创之后，就完全可以变得原创，这里面最重要的一个原因就是中国的汉字太复杂了。程序建立一个词库，通过匹配同义字情况，可以基本上实现语句的通顺，而减少大量的雷同。至于文章的内容究竟要表达作者什么真正的意象，计算机根本是读不懂的。

　　原创和伪原创是一对天使和魔鬼，你不必憎恨人家把你的文章进行伪原创，你最多谴责人家人品不好。所谓文章一大抄。真正的高手当然是高端。那就让伪原创来得更疯狂吧!

本文由北京网站制作首选品牌北京艾多尼(www.bjadn.cn)原创编辑，转发请注明来源及版权归属。
原文分享地址:：/news/zixun/4451.html

上一篇：说说个人站长为何期待PR值的更新
下一篇：搜索优化和用户体验并非鱼和熊掌不可兼得