什么是大数据的分词?分词技巧便是搜索引擎针对用户提交查问的关键词串停止的查问处置后依据用户的关键词串用各类匹配办法停止的一种技巧。
概述
咱们要懂得分词技巧先要懂得一个观点。那便是查问处置,当用户向搜索引擎提交查问后,搜索引擎接收到用户的信息要做一系列的处置。步调以下所示:
1、首先是到数据库外面索引相干的信息,这便是查问处置。
那末查问处置又是若何事情的呢?很简略,把用户提交的字符串没有跨越3个的中笔墨,就会直接到数据库索引辞汇。
跨越4其中笔墨的,首先用分隔符好比空格,标点符号,将查问串朋分成多少子查问串。
2、而后再看用户供给的这个词有无反复辞汇,假如有的话,会抛弃掉,默觉得一个辞汇。
接下来反省用户提交的字符串,有无字母和数字,假如有的话,就把字母和数字觉得一个词。
这便是搜索引擎的查问处置。
分词的道理
这是种常用的分词法,baidu便是用此类分词。字符串匹配的分词办法,又分为3种分词办法。
(1)、正向最大匹配法
便是把一个词从左至右来分词。
举个例子:”不晓得你在说甚么”
这句话采纳正向最大匹配法是若何分的呢?“不晓得,你,在,说甚么”。
(2)、反向最大匹配法
“不晓得你在说甚么”反向最大匹配法来分下面这段是若何分的。“不,晓得,你在,说,甚么”,这个就分的比拟多了,反向最大匹配法便是从右至左。
(3)、便是最短门路分词法。
便是说一段话外面请求切出的词数是最少的。
“不晓得你在说甚么”最短门路分词法便是指,把下面那句话分红的词要是最少的。“不晓得,你在,说甚么”,这便是最短门路分词法,分出来就只要3个词了。
(4)、双向最大匹配法。
而有一种特别的环境,便是关键词先后组合内容被觉得粘性相差不大,而搜索结果中也同时包括这两组词的话,baidu会停止正反向同时停止分词匹配。
词义分词法
便是一种机械语音断定的分词办法。很简略,停止句法、语义阐发,应用句法信息和语义信息来处置歧义征象来分词,这类分词办法,如今还不成熟,处在测试阶段。
统计分词法
依据词组的统计,就会发明两个相邻的字呈现的频率至多,那末这个词就很紧张。就能够作为用户供给字符串中的分隔符,如许来分词。
想知道更多关于IT行业的信息吗?想远远不如行动,行动起来,一起加入光环大数据,一起进入IT行业,跟着光环大数据的脚步,一起走进如今的互联网信息时代,带给你不一样的色彩生活——【深圳大数据培训】
什么是大数据的分词
2018-04-03 17:52:53 作者:光环大数据 栏目:未知
光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言!
光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言!
- 上一篇:大数据的九大应用场景是什么?
- 下一篇:大数据详解