理解搜索引擎分词技术关于我们的SEO工作有着严重的意义,不论是我们的关键词规划还是链接架构,都跟分词有莫大的关联。这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他搜索引擎也是差不多的)。本文分两个局部,首先是摘取已有的关于分词的解释,另外再参加我本人对分词的扩展思绪。
什么是中文分词?
我们都晓得,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就便当多了,但我们中文是一个一个汉字衔接而成,所以相对来说是比拟复杂的。中文分词指的是将一个汉语句子切分红一个一个单独的词,依照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。
分词关于搜索引擎有着很大的作用,是文本发掘的根底,能够协助程序自动辨认语句的含义,以到达搜索结果的高度匹配,分词的质量直接影响了搜索结果的准确度。目前搜索引擎分词的办法主要经过字典匹配和统计学两种办法。
一、基于字典匹配的分词办法
这种办法首先得有一个超大的字典,也就是分词索引库,然后依照一定的规则将待分词的字符串与分词库中的词停止匹配,若找到某个词语,则匹配胜利,这种匹配有分以下四种方式:
1、正向最大匹配法(由左到右的方向);
2、逆向最大匹配法(由右到左的方向);
3、最少切分(使每一句中切出的词数最小);
4、双向最大匹配法(停止由左到右、由右到左两次扫描)
通常,搜索引擎会采用多种方式组合运用。但这种方式也同样给搜索引擎带来了难道,比方关于歧义的处置(关键是我们汉语的博大精深啊),为了进步匹配的精确率,搜索引擎还会模仿人对句子的了解,到达辨认词语的效果。根本思想就是在分词的同时停止句法、语义剖析,应用句法信息和语义信息来处置歧义现象。通常包括三个局部:分词子系统、句法语义子系统、总控局部。在总控局部的谐和下,分词子系统能够取得有关词、句子等的句法和语义信息来对分词歧义停止判别,即它模仿了人对句子的了解过程。这种分词办法需求运用大量的言语学问和信息,当然我们的搜索引擎也在不时进步。
二、基于统计的分词办法
固然分词字典处理了很多问题,但还是远远不够的,搜索引擎还要具备不时的发现新的词语的才能,经过计算词语相邻呈现的概率来肯定能否是一个单独的词语。所以,控制的上下文越多,对句子的了解就越精确,分词也越准确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻呈现的次数十分多,那么基于统计就会将这个词语也参加进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。
中文分词的应用
分词精确性对搜索引擎来说非常重要,但假如分词速度太慢,即便精确性再高,关于搜索引擎来说也是不可用的,由于搜索引擎需求处置数以亿计的网页,假如分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因而关于搜索引擎来说,分词的精确性和速度,二者都需求到达很高的请求。
关于我们SEO从业者来说,分词的原理和办法是必需要控制的,这样才干够将我们的网站设计得让搜索引擎容易肯定它的主题相关性。比方我们的网站是关于SEO培训的,当用户在搜索这个词语的时分,搜索引擎首先会对其停止分词,比方分为“SEO”和“培训”,然后在索引库中停止分别匹配。这里还触及到一点,也是我本人的总结,每个词语分词后有一个主词和副词,通常是优先匹配主词,然后再匹配副词,比方这里显然SEO是主词,所以优先去匹配这个词语,然后是培训这个副词。那么,我们的网站应该如何去规划和架构,留给大家去考虑。
更多资讯
- 08-02网页启用Gzip压缩 提高浏览速度
- 07-20如何去做交互设计?交互设计师需要做什么?
- 07-20你不得不打破的惯性思维:用户=上帝
- 06-15产品经理“趟坑”经验,满满都是泪
- 05-02关于IIS进程池出错终止的故障排查手记
- 04-25解决网站打开显示Service Unviable(应用程序池自动停止)
- 04-16IIS v6.0 完整版
- 04-16启动和关闭Apache