备案 控制台
开发者社区 人工智能 文章 正文

热门中文分词系统调查报告

简介: **中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
** 中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
目录

常见的分词系统介绍

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常见的分词系统简介

img_fb5216ee4afbfe4223a095b953731fbe.png

ICTCLAS


简介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。

网址: http://ictclas.nlpir.org/

主要功能包括:

  • 中文分词;
  • 词性标注;
  • 命名实体识别;
  • 用户词典功能;

支持GBK编码、UTF8编码、BIG5编码;
支持Windows,Linux,Android等操作系统;
支持Java/C++/C#/C等开发。

在线演示

img_cae712e1ab6ca7a4169097827be63c1b.png

中文分词


img_e88474ae4d13b49fdba1535c2ce216ee.png

实体抽取


img_5d49b06de8620b7187d2a6dc60f11a84.png

词频统计
img_193a5a23c81e0ea62dab5749e4e39a71.png

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。

实现了 ** Lucene **的 analyzer 和 ** Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过滤。

官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

Lucene简介

img_c921eccd9dd05f6e2afd1925c6c98678.png

*Lucene是一个非常优秀的开源的全文搜索引擎; 我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度; 现在已经是Apache的顶级项目 *

Apache Lucene官网

Sorl简介

img_66cc92c6a9c7907ab9a9c49c7388c7ac.png

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

img_a3138fe70f4e7db843f099b493b0e36e.jpe
Solr

参考链接:
mmseg4j-core from Github
中文分词器 mmseg4j

IK Analyzer


IK Analyzer 是一个开源的,基于 java语言开发的轻量级的 中文分词工具包。

从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并且支持solr6.x版本。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  2. 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  3. 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  4. 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  5. 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。

LTP cloud(语言云)


img_826ad174f57235fef6682882753ceb2f.png

语言云是哈工大和科大讯飞联合研发的云端中文自然语言处理服务平台,提供分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理服务。

在线演示

样例:他叫汤姆去拿外衣。
他点头表示同意我的意见。
我们即将以昂扬的斗志迎来新的一年。
国内专家学者40余人参加研讨会。

句子视图
img_f076974dfa4a4c0b3cb76d8f68197f2e.png
句子视图
篇章视图
img_d01dd5603d085361f8ca50a11f726748.png
分词
img_e3195c56220867313d0e02b743652d2f.png
词性标注
img_a99b0a585cb8b637f9ec39217a4db44f.png

img_2935d71383433e0bdbe9002075868b17.png
命名实体

相关链接:
LTP Docs
讯飞开放平台

paoding(庖丁解牛分词器)


庖丁中文分词器是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析
参考链接:
中文分词库 Paoding

参考链接:
搜索引擎11 款开放中文分词引擎大比拼
中文分词工具测评

㭍葉
目录
相关文章
艾派森_
|
4天前
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
艾派森_
1073 0
汀丶人工智能
|
9月前
|
自然语言处理 运维 机器人
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
汀丶人工智能
725 0
阿甘兄
|
7月前
|
自然语言处理 应用服务中间件
43分布式电商项目 - 中文分词器IK Analyzer配置
43分布式电商项目 - 中文分词器IK Analyzer配置
阿甘兄
38 0
全栈技术精选
|
8月前
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
全栈技术精选
84 0
Python编程与实战
|
9月前
|
机器学习/深度学习 自然语言处理 搜索推荐
北大开源分词工具包: 准确率远超THULAC、jieba 分词
北大开源分词工具包: 准确率远超THULAC、jieba 分词
Python编程与实战
608 0
跃@sir
|
9月前
|
机器学习/深度学习 自然语言处理 API
Modelscope 对中文竞技场模块分析
Modelscope 对中文竞技场模块分析
跃@sir
205 31
艾派森_
|
数据可视化 数据挖掘 Python
数据分析案例-文本挖掘与中文文本的统计分析
数据分析案例-文本挖掘与中文文本的统计分析
艾派森_
181 0
数据分析案例-文本挖掘与中文文本的统计分析
AIoT_小安
|
自然语言处理 Java API
阿里云自然语言处理--多语言分词之中文分词(高级版)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。多语言分词提供智能分词服务,由专业的团队研发,保证对数据、模型的不断迭代更新。用户只需简单的调用相关API接口即可将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列,并获取到所需结果。目前支持简体中文、英文及泰文。本文将使用Java Common SDK演示多语言分词之中文分词(高级版)服务的快速调用以供参考。
AIoT_小安
860 0
阿里云自然语言处理--多语言分词之中文分词(高级版)Quick Start
大数据资讯
|
自然语言处理
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。
大数据资讯
1069 0
大数据资讯
部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词) 免费使用2、HanLP(汉语言处理包) 免费使用3、SnowNLP(中文的类库) 免费使用4、FoolNLTK(中文处理工具包) 免费使用5、Jiagu(甲骨NLP) 免费使用6、pyltp(哈工大语言云) 商用需要付费7、THULAC(清华中文词法分析工具包) 商用需要付费8、NLPIR(汉语分词系统) 付费使用 1、jieba(结巴分词)“结巴”中文分词:做最好的 Python 中文分词组件。
大数据资讯
2093 0

热门文章

最新文章

  • 1
    TCP三次握手与四次分手
  • 2
    袋鼠云数据中台专栏(五):数栈,企业级一站式数据中台PaaS
  • 3
    利用Serverless Kubernetes和Kaniko快速自动化构建容器镜像
  • 4
    CentOS7(6.5)升级docker到较新版
  • 5
    如何判断自己IP是内网IP还是外网IP
  • 6
    模型社区实战训练营首开,开源让代码更有趣!
  • 7
    深入分析bgp选路规则(上)
  • 8
    2-Sat+输出可行解(个人模版)
  • 9
    一次ORA-00130: invalid listener address错误
  • 10
    PathFinding.js – 综合性的 JavaScript 路径查找库
  • 1
    AI大咖说-如何评价论文的创新性
    15
  • 2
    实时计算 Flink版产品使用合集之在Flink Stream API中,可以在任务启动时初始化一些静态的参数并将其存储在内存中吗
    15
  • 3
    实时计算 Flink版产品使用合集之支持在同步全量数据时使用checkpoint吗
    13
  • 4
    51.从键盘上输入任意两个数和一个运算符(+、-、*、/),根据输入的运算符对两个数计算,并输出结果
    12
  • 5
    50.编写程序,逆转字符串
    13
  • 6
    49.输入一字符串,检查是否回文 (回文是指正反序相同,如,LeveL)
    9
  • 7
    48.输入任意正整数,编程判断该数是否为回文数(回文数是指从左到右读与从右到左读一样,如12321)
    8
  • 8
    47.从键盘上输入一个3*3的矩阵,并求其主对角线元素的和
    10
  • 9
    46.编写程序在屏幕上显示如下图形
    8
  • 10
    45.将3×3二维数组转置,并输出
    11
  • 相关电子书

    更多
  • 低代码开发师(初级)实战教程
  • 冬季实战营第三期:MySQL数据库进阶实战
  • 阿里巴巴DevOps 最佳实践手册
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    代做工资流水公司南通代开企业贷流水湘潭代办工资流水app截图沈阳工资证明样本上饶代办离职证明淮安制作贷款工资流水肇庆企业流水打印报价南阳流水账单费用沈阳工资流水账单报价中山对公账户流水打印贵阳打印企业对私流水大连代开离职证明临沂自存银行流水费用成都查询对公银行流水湖州消费贷流水查询宜昌代开工资流水账单福州转账银行流水图片东莞代做车贷银行流水天津入职工资流水多少钱盐城打转账银行流水唐山房贷银行流水 代开沧州入职银行流水制作中山贷款银行流水多少钱郑州企业对公流水费用洛阳个人流水开具合肥薪资银行流水代办阜阳企业对公流水图片长沙查转账流水德阳制作企业贷流水大庆打对公流水济南工作收入证明费用香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

    代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化