返回首页 | 网站案例 | 帮助中心

合作共赢、快速稳定、服务地方的网站建设提供商

北京网站建设

服务热线:13812345678

搜索引擎是如何识别出来HTML汉字

时间:2021-11-7

搜索引擎分词是指把HTML里面的一句话,分解成若干个有效的关键词。搜索引擎中的排名结果存储和处理页面内容及用户查询都是以分词为基础,汉字与英文有所不同,英文的单词与单词之间有空格作为天然的空格来分隔,搜索引擎程序可以直接把句子划分为单词的结合,而中文通常是一句一句的话,需要在一句话中把其中的词语分解出来,比如说减肥方法4个字,它其实就是两个词,一个减肥一个方法。

中文搜索引擎的分词方法即为基本上有两种,一种是基于词典的匹配,另一种是基于统计。

基于词典匹配的方法,是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,再带分解汉字,创意中扫描到词典中,已有的词条则匹配成功或者说切分出来一个单词。

按照扫描方法,基于词典的匹配法,可以分为正向匹配和逆向匹配,按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配,将扫描方向和长度优先混合又可以产生,正向最大匹配,逆向最大匹配等不同方法。

基于统计的分值方法,指的是分析大量文本样本,计算出字与字相邻出现的统计概率,几个字的相邻出现越多就越可能形成一个单子,基于统计的方法的优势是对新出现此反应更快速,也有利于消极消除歧义。


建站流程

    北京网站建设流程