从 百度搜索引擎优化的角度来看,如果分词技术可以运用恰当,可以使你的网站优化更上一层楼,其实分词原理很简单,就是当用户输入查询关键词的时候可以给用户匹配相关准确输出结果,同时也是百度所追求的用户友好度体验。
如果可以很好的掌握百度分词技术就可以实现网站关键词的定位,而且可以罗列出 长尾关键词,从而带动网站更好的优化,引来更多的流星,百度分词技术比谷歌分词先进的原因是百度有一个巨大的词库,包含了人名、地名、企业名等,同时有正向的匹配和反向匹配,以较短的路径满足用户的搜索需求。
百度分词主要是以词义、词语、词频的方式满足搜索引擎对词语的抓取,具体的分词原理分为这三大部分:
细分为是正向匹配法、反向匹配法、短路径分词法等。
1、正向匹配法
正向匹配法主要是结合我们长期写字的方式,将一个词或者一句话从左向右来分词,例如:“一个学生在教室上自习”,这一句话的正向匹配法就是一个,学生,正在,教室,上,自习,主要采用从左向右的匹配方法。
2、反向匹配法
反向匹配法与正向匹配法刚好相反,例如:“一个学生在教室上自习”主要是将学生,正在,教室,上,自习利用反向匹配法从右向左区分。
3、较短路径分词法
其实就是一段话中需要分出来的词数比较少,尽可能将一句话分成几个词来区分,也有特殊情况,就是将正向匹配、反向匹配、短路径匹配三者结合起来组成的分词方法,例如正向匹配与反向匹配组合起来就叫做双向匹配法。
词义分词方法就是利用一种机器语言来判断的分词方式,进行句法、语义分析,借助语法信息和语义信息作出判断处理歧义的现象,目前这样的方法在百度中还不算成熟。
统计分析主要是在人工标注与统计特征下进行的,对于中文进行建立模型,在分词阶段通过模型来计算分词出现的概率,能够将概率的结果作为后的筹码,比较常见的序列模型有HMM和CRF。
优势是可以很好的处理歧义和不能登录词的问题,效果比字符串匹配效果要好。
劣势是可能需要大量的人工标注,速度会相对比较慢。
因为相邻的字同时出现的次数较多,就越有可能组成一个词语,所以字与词相邻部分出现的几率可以很好地反应词语的可信度。
也可以对语料中临边出现的各个字的组合频度进行统计,预算出他们的共同信息,从而定义这些信息,计算这个词之间相邻的出现的概率。
在做百度分词分析的过程中,不论是标题Tltle分词,还是首页相关关键词设置,我们都不可以随意使用百度搜索的任意一个关键词,因为你会发现首页标题能利用百度搜索引擎切除相关 关键词排名靠前。
而网站关键词质量的好坏是影响百度排名的重要因素,如果你对百度搜索引擎分词技术有一定理解,那么对你做有关提升关键词排名的工作将会变得简单得多。
分词技术:什么是分词, 如何分词搜索引擎会承认,这是一位朋友提的问题,想必大家也听说过,很好奇,什么是分词技术,什么又是百度分词呢?分词大家容易理解。就是一段词用字符分开,比如标点符号,空格等。
那什么叫分词技术呢?
分词技术就是SEO针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。大家好好理解。那么我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。
首先是到数据库里面索引相关的信息,这就是查询处理,那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。
然后再看用户提供的这个词有没有重复词汇。如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。好了,这就是SEO的查询处理。
讲了查询处理后,大家对分词技术,尤其是中文分词技术有了一个基本的了解。其实我讲的都是搜索引擎的原理。好了,我接下来讲分词的原理。我们用百度来举例,百度是如何来分词的呢?分词技术现今非常成熟了。他分为3种技术。
1.字符串匹配的分词方法
2.词义分词法。
3.统计分词法。
1.正向最大匹配法
什么意思呢?就是把一个词从左至右来分词。举个例子,“不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。
2. 反向最大匹配法
上面我举的例子是如何分的呢 "不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
3.就是最短路径分词法
这个怎么理解呢 ,就是说我一段话里面要求切出的词数是最少的。还是上面那句话“不知道你在说什么”最短路径分词法网站开发就是指,我把上面那句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用网站优化句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。
这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,哪里,那里”。等等,这些词出现的比较多,就从这些词里面分开来。
本文链接: http://www.cjzzc.com/article/1305.html
上一篇:为什么要做爆款,爆款对于引流的重要作用
下一篇:企业网站一套统一的优化流程
玻璃钢生产厂家玻璃钢雕塑的特点卖点苏州制作玻璃钢雕塑北京艺术商场美陈市场报价江门玻璃钢雕塑工艺山西欧式玻璃钢雕塑制作广西卡通玻璃钢动物鹤雕塑玻璃钢瓜果雕塑原理南昌玻璃钢雕塑优势3米龙王玻璃钢佛像雕塑甘南动物玻璃钢雕塑厂家云南人物玻璃钢雕塑方法濮阳景观园林玻璃钢仿铜雕塑厂家镜面玻璃钢人物雕塑加工江西动物玻璃钢雕塑多少钱大型商场创意商业美陈南阳室外玻璃钢仿铜雕塑厂家玻璃钢雕塑材料公司商场美陈拍照墙商场美陈 招聘甘肃园林玻璃钢雕塑制作潮州玻璃钢人物浮雕雕塑壁画潜江玻璃钢雕塑设计玻璃钢传统人物雕塑制造厂家玻璃钢雕塑在城市景观中的应用南昌玻璃钢花盆花器六安玻璃钢造型雕塑江西彩绘动物玻璃钢造型雕塑制作潞城玻璃钢雕塑厂家济源玻璃钢浮雕不锈钢雕塑公司山西省玻璃钢雕塑找哪家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万