首发于 NLP知识深入探究
中文分词(jieba)和语料库制作(gensim)

中文分词(jieba)和语料库制作(gensim)

本文的内容为以下两个部分:

  1. 文本分词(jieba)
  2. 语料库制作(gensim)

结巴(jieba)分词

在自然语言处理领域中,分词和提取关键词都是对文本处理时通常要进行的步骤。用Python语言对英文文本进行预处理时可选择NLTK库,中文文本预处理可选择jieba库。结巴分词是基于统计的分词方法,它对给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。

jieba分词的三种模式:

结巴分词的其他特点诸如:支持繁体分词,支持自定义词典,基于Trie树结构实现高效的词图扫描,采用了动态规划查找最大概率路径等特点。

jieba库中分词函数

1、jieba.cut()方法
参数string:需要接受分词的字符串。
参数cut_all:控制是否采用全模式分词发,参数为True时表示采用全模式。
参数HMM:控制是否使用HMM模型,参数为True时表示使用HMM模型。

2、jieba.cut_for_search()
参数string:需要接受分词的字符串。
参数HMM:控制是否使用HMM模型,参数为True时表示使用HMM模型。

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语。jieba.lcut和jieba.lcut_for_search参数和上面两个方法一致但返回的是一个list。

三种模式的输出结果:

精准模式:上海市浦东新区 世纪 大道 100 号楼 501

全模式:上海 上海市 上海市浦东新区 海市 浦东 浦东新区 新区 世纪 纪大 大道 100 号 楼 501

搜索引擎模式:上海 海市 浦东 新区 上海市 上海市浦东新区 世纪 大道 100 号楼 501

jieba分词自定义字典

在使用jieba时,用户除了直接对文本进行分词外,还可以自行添加新词,已达到优化分词效果的目的。

1、加载自定义字典jieba.load_userdict()
参数filename:为文件类对象或自定义词典的路径
词典格式分为3个部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。

2、从字典中添加或删除词汇add_word、del_word
add_word(word,freq=None,tag=None),add_word有3个参数,添加词名称,词频,词性
del_word(word),del_word只有一个参数词语名称

3、词频调整suggest_freq
suggest_freq(segment,tune=True)
调节单个词语的词频,可以使其能(或不能)被分出来,词频越高在分词时,能够被分出来的概率越大。

输出结果:

载入词典内容:{'世纪大道': 'n', '浦东新区 2 ': 'n', '世纪公园 3 ': 'n'}

添加新词后:{'世纪大道': 'n', '浦东新区 2 ': 'n', '世纪公园 3 ': 'n', '人民广场': 'n'}

结巴原始字典库,分词结果:上海市浦东新区 世纪 大道 100 号楼 501

使用自定义词典后,分词结果:上海市浦东新区 世纪大道 100 号楼 501

调整词频后,分词结果:上海市 浦东新区 世纪大道 100 号楼 501

Gensim

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。
它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。

相关概念

把几个概念组织起来表述:gensim可以通过读取一段语料,输出一个向量,表示文档中的一个词。为了节约空间,通常稀疏的词向量会被忽略,剩下的词向量则可以用来训练各种模型,即从原有的文本表达转向另一种文本表达。

语料库制作

语料库制作主要包含两个过程:
获取词袋:本文主要来自于结巴分词结果
向量转换:对获取的词袋进行向量转换

1、获取词袋函数 gensim.corpora.Dictionary()
gensim.corpora.dictionary.Dictionary可以为每个出现在语料库中的单词分配了一个独一无二的整数编号id。这个操作收集了单词计数及其他相关的统计信息。

输出结果:
Dictionary(7 unique tokens: ['100', '501', '上海市浦东新区', '世纪', '号楼']...)
{'100': 0, '501': 1, '上海市浦东新区': 2, '世纪': 3, '号楼': 4, '大道': 5, '上海市': 6}

第一行结果告诉我们语料库中有7个不同的单词,这表明每个文档将会用7个数字表示(即7维向量)。
第二行结果是查看单词与编号之间的映射关系。

2、向量转换 dictionary.doc2bow()

函数doc2bow() 简单地对每个不同单词的出现次数进行了计数,并将单词转换为其编号,然后以稀疏向量的形式返回结果。

输出结果:
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)], [(0, 1), (1, 1), (3, 1), (4, 1), (5, 1), (6, 1)]]

以上结果中,表示两个字符串中,每个词的id以及它对应的出现频次,比如第一个元组(0,1)代表的是编号为0的词在第一个字符串中出现一次。

代做工资流水公司长春工资流水app截图公司湘潭工资银行流水办理西宁对公账户流水办理石家庄代做背调银行流水杭州银行对公流水多少钱包头代办公司流水揭阳银行流水单开具宁波开银行流水账单滁州个人银行流水代做成都离职证明价格廊坊房贷银行流水 公司黄冈签证银行流水 费用青岛工资流水账单杭州离职证明代开西安查询日常消费流水泉州查询薪资银行流水邯郸打企业对公流水太原查询工资流水app截图南昌银行流水修改样本曲靖做企业对公流水桂林查询日常消费流水舟山在职证明办理舟山办工资流水单南京薪资流水模板商丘银行流水电子版图片江门薪资银行流水代做金华工资证明西宁打印企业对私流水东莞工资流水单湘潭银行流水修改香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化