Welcome to沈阳峰翔科技有限公司!

15840560486

联系我们

PRPULAR PUSH

ATTEN:
李经理
phone:
15840560486
QQ:
1092031760
ADD:
沈阳市铁西区爱工北街11-4

黑龙江网站seo公司

author:沈阳峰翔科技有限公司

【Font size: big medium smail

time:2019-11-09 11:05:47

同一个词可能在一篇网页中出现多次,如“得”、“的”、“地”啊”、“阿”、“呀”、“却”、“再”、“从而”之类的无用词,反复的出现就没什么价值了,我们称这类词为停用词。这类词也需要去除掉3.分词技术分词是中文搜索引擎特有的技术支持。中文信息和英文信息的差别在于:英文单词与单词之间用的是空格分隔的,这对中文就行不通了,搜索引擎必须将整个句子切割成小单元词,如“我的兄弟姐妹拆分出来的形态是“我"、"的”、“兄弟”、“姐妹"。分词技术的效率直接影响到整个系统的效率。分词的方法基本上有两种:基于字符串匹配的分词方法和基于统计的分词方法1)基于字符串匹配的分词方法按匹配方向的不同,可分为正向匹配、逆向匹配和最少切词将这三种方法混合起来使用,即正向最大匹配、逆向最大匹配、正向最小匹配、逆向最小匹配正向最大匹配:假设字典中最长的词语字数为m,先根据汉语标点符号及特征词把汉语句子切分为短语,然后去取短语的前m个字在字库里面查找是否存在这个词语,如果存在,短语就去掉这个词。