从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。
定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
前面我们有讲到《SEO之基于字符串匹配的分词方法》和《SEO之基于理解的分词方法》,那么这三种方法中,到底是哪种SEO分词算法的准确度更高,目前尚无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,对于中文词的识别,需要综合多种算法来处理不同的问题。
分词准确性对搜索引擎来说非常重要,如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会影响到搜索引擎对内容的更新速度。因此对于搜索引擎来说,分词的准确性和速度,都需要达到很高的要求。

长沙科联环保科技有限公司
长沙科联环保科技有限公司坐落于国家级长沙经济技术开发区,星沙工业园、我们以“科技创新,联合共...
南京尚上防腐木
南京尚上防腐木是一家专业致力于加工、制作、销售户外景观防腐木,并为客户设计安装一站式服务的现...
长沙昱霆机电有限公司
长沙昱霆机电有限公司是长沙空压机_长沙空压机保养_湖南空压机维修_长沙空压机机头维修-长沙昱...
湖南省土地学会,湖南土地学会,湖南土地学会官网
湖南省土地学会是全省土地科技工作者自愿组成,并依法登记的学术性、非盈利性、公益性的法人社会团...
湖南为美环保技术有限公司,医疗污水净化机组...
湖南为美环保技术有限公司应“绿水青山就是金山银山”之势而生,秉持“为民环保,美丽干净”理想信...
长沙租车公司-长沙鑫晨租车
长沙鑫晨租车(长沙租车网)于2008年,已精工细作多年。现以成为长沙地区较早的租车公司之一。...联系方式
地址:湖南省长沙市天心区韶山南路248号南园503室
电话:13637482004 0731-88571521
网址:http://www.123007.com/
邮箱:123@123007.com
微信咨询

扫一扫进移动端
