深圳网站制作公司易捷网络欢迎您,我司主营业务:深圳企业网站制作,欢迎来电。
深圳企业网站制作
深圳网站制作业务咨询
0755-61603557
赵先生:13714247375
深圳网站制作技术支持
您现在的位置:网站首页 > 深圳网站制作教程

猜测百度分词基本步骤

文章作者:易捷网站制作公司编辑    文章来源:深圳网站制作公司-易捷网络

最近和朋友在讨论百度分词,看了很多网上关于百度分词的一些实例,我们来对百度的分词步骤进行一些猜测,我们不可能真正的了解只能说是猜测:

1. 判断用户提交字符串,如果为多个字符串,则通过空格,标点符号,等进行切割。

2. 判断提交字符串中有无字母或者数字,如果有把字母与数字当作独立整体,并把这个整体当作切割负,进行前后切割。

3. 判断切割后的词组有无重复词,有当作一个计算。

4. 如果提交为一个字符串,判断字符串字数,大于4并等于4个字的进行切割,如果小于4个字不进行任何处理。

5. 对照特殊词库表进行提取,如果字符串中包含特殊词进行单独提取。

6. 进行正向分词处理。

7. 进行反向分词处理。

8. 正向分词结果与反向分词结果进行对比,如果结果一样,直接输出。

9. 如果结果不一样,输出最短路径(词数最少的)进行输出。

10. 如果长度一样进行则输出单子最少的结果。

11. 如果单子最少结果一样,则输出正向分词结果。针对百度索引提示,纠错原理。

1.判读词组,1个字的词不进行提示,大于1个字开启提示功能。

1.进行同音字提示,如果词数过多,提取用户搜索最多词组进行提示。除以上外,我们还需要注意一点,那就是现在分词中进行了语意相关结合:举个例子我们常常在搜索某些词的时候会发现有些结果中并不是完全匹配的词也进行了飘红。其实这种情况就是语意结合。我们可以理解为百度把相关词表进行了关联,或者干脆进行了表结合。造成了这种情况的出现。比如我们搜索太原,我们会发现太原与太原市都进行了飘红。

上一篇企业网站制作技术文章:    分享SEO站内优化细节
下一篇企业网站制作技术文章:    深圳网站建设制作小技巧

深圳网站制作最新案例推荐:

深圳网站制作相关文章阅读
关于我们
公司简介
人才招聘
售后服务
联系我们
网站制作套餐
基本型网站制作套餐
标准型网站制作套餐
品牌型网站制作套餐
综合型网站制作套餐
网站制作教程
网站建设常见问题
网站制作常见问题
网站设计常见问题
网站优化常见问题
企业邮箱常见问题
网站备案常见问题
联系方式
联系人:赵经理
电话:0755-61603557
邮箱:info@qifor.com
手机:13714247375
地址:广东.深圳宝安西乡宝源路鸿源大厦1009
网站制作公司联系人二维码
微信扫码咨询
深圳市易捷网络科技有限公司版权所有