信息资讯

说说原创和伪原创在搜索引擎中的判定

加载中
信息来源:北京艾多尼 www.bjadn.cn     关键词:
  原创和伪原创成为现在互联网后时代一个重要的话题,即就是如何保“证内容为王”的问题,对于门户型的大互联网公司来说,也许他们有专业的编辑和写手,但是据我所了解的,甚然逃不了要去转载别人的文章。如何在原

  原创和伪原创成为现在互联网后时代一个重要的话题,即就是如何保“证内容为王”的问题,对于门户型的大互联网公司来说,也许他们有专业的编辑和写手,但是据我所了解的,甚然逃不了要去转载别人的文章。如何在原创与非原创之间取得平衡点,是做网站运营人员和编辑必须进行把控的一个点。

  搜索引擎如何辩别原创和伪原创?

  以目前的计算机来看,是不可能做到真正的人工智能识别内容的,也许对英文系还好一些,毕竟英文系的字库有限,每个独立的英语的意思是独立的或者相关的。并且英文中有默认的习惯用“-”来进行区分。

  而中文则就明显不同。同一个意思,可以用无数个词来形容,千变万化。比如说:“人面桃花”这个词的涵义就多了。所以计算机是不可能辩识的。那么搜索引擎如何去判定原创和伪原创呢?下面是思路实现。

  首先,搜索引擎把两篇文章进行有机的筛选,作为比对对象,那如何知道这比对的文章是有关的呢?当然就是关键字,根据文章的关键字决定的,这也就是为什么文章中要内置一定比例的关键字的原因所在,至少如何区分文章中那一个是关键字,搜索引擎自有算法解决的,不再赘述。

  取出两篇文章以后,计算机就进行分析:

  1、 设定一个比例,比如定义为M,标注是0.5的系数。

  2、 把A篇文章,根据字数,段落为分三段。B篇文章段落分为三段,然后进行算法编译,也可以理解成为加密之类的,也就是说把文字变成符号。比如说一段话进行编译之后变成了aaacbdfbcdfsdafefasdfasd 这样的字符串。当然不一定是用ABCD这种字符,这样做的好处是因为方便计算机比对和处理。

  3、 然后把A,B两篇文章经过第二步的处理,再通过算法得到,两篇文章之间的相似度有多少,(估计这个对比算法很复杂,我也只能猜测。)会得到一个值,也就是类似上述1中提到的这个M的系数,根据标准,比如是高于0.5就表示是雷同,低于就表示是不雷同,如果雷同就利用搜索引擎爬行得到的其他的参数来决定谁是原创,或者是非原创。

  我们如何应对搜索引擎的原创判定呢?

  道高一尺,魔高一丈,互联网上永远没有绝对的矛与盾,在现在计算机还不可能真正实现人工智能,所以,原创和伪原创是一个暂且永恒的话题。做最强的伪原创可以如下三步走:

  1、标题一定要改,并且要改得出神入化。中国的文字很复杂,同样的一个意思可以用很多的方法来体现,如果你真的不能改,那么我告诉你一个方法,就是把标题写长到20-25个字,你一定很特别的。

  2、如果你有不错的文字功功底,你看了人家的文章之后,你就马上可以在腹稿里形成一定的框架,然后用你的语言进行描述,再加上图片等富文本进行修饰,那绝对是一篇难得的伪原创文章。比如我们的车市中国网就有专业的编辑人员,对于发布的各种汽车类新闻都进行一大量的伪原创的效果.

  3、内容错乱。网上有很多垃圾站。为什么人家可以得到关键字的排名和流量,原因就是,采集到信息进行伪原创之后,就完全可以变得原创,这里面最重要的一个原因就是中国的汉字太复杂了。程序建立一个词库,通过匹配同义字情况,可以基本上实现语句的通顺,而减少大量的雷同。至于文章的内容究竟要表达作者什么真正的意象,计算机根本是读不懂的。

  原创和伪原创是一对天使和魔鬼,你不必憎恨人家把你的文章进行伪原创,你最多谴责人家人品不好。所谓文章一大抄。真正的高手当然是高端。那就让伪原创来得更疯狂吧!

本文由北京网站制作首选品牌北京艾多尼(www.bjadn.cn)原创编辑,转发请注明来源及版权归属。
原文分享地址::/news/zixun/4451.html
所属分类: 建站行业资讯  添加时间:2015-03-01  浏览:人次