Synonyms: 中文近义词工具包

121 篇文章 34 订阅
订阅专栏

Synonyms

Chinese Synonyms for Natural Language Processing and Understanding.

最好的中文近义词工具包: https://github.com/huyingxi/Synonyms/。

synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。

Welcome

pip install -U synonyms

兼容py2和py3,当前稳定版本 v2.2。同时,Node.js 用户可以使用 node-synonyms了。

npm install node-synonyms

Usage

synonyms#nearby



import synonyms
print("人脸: %s" % (synonyms.nearby("人脸")))
print("识别: %s" % (synonyms.nearby("识别")))
print("NOT_EXIST: %s" % (synonyms.nearby("NOT_EXIST")))

synonyms.nearby(WORD)返回一个list,list中包含两项:[[nearby_words], [nearby_words_score]]nearby_words是WORD的近义词们,也以list的方式存储,并且按照距离的长度由近及远排列,nearby_words_scorenearby_words对应位置的词的距离的分数,分数在(0-1)区间内,越接近于1,代表越相近。比如:

synonyms.nearby(人脸) = [
    ["图片", "图像", "通过观察", "数字图像", "几何图形", "脸部", "图象", "放大镜", "面孔", "Mii"],
    [0.597284, 0.580373, 0.568486, 0.535674, 0.531835, 0.530
095, 0.525344, 0.524009, 0.523101, 0.516046]]

在OOV的情况下,返回 [[], []],目前的字典大小: 125,792。

synonyms#compare

两个句子的相似度比较

    sen1 = "发生历史性变革"
    sen2 = "发生历史性变革"
    r = synonyms.compare(sen1, sen2, seg=True)

其中,参数 seg 表示 synonyms.compare是否对sen1 和 sen2进行分词,默认为 True。返回值:[0-1],并且越接近于1代表两个句子越相似。

旗帜引领方向 vs 道路决定命运: 0.429
旗帜引领方向 vs 旗帜指引道路: 0.93
发生历史性变革 vs 发生历史性变革: 1.0

synonyms#display

以友好的方式打印近义词,方便调试,display调用了 synonyms#nearby方法。

>>> synonyms.display("飞机")
'飞机'近义词:
  1. 架飞机:0.837399
  2. 客机:0.764609
  3. 直升机:0.762116
  4. 民航机:0.750519
  5. 航机:0.750116
  6. 起飞:0.735736
  7. 战机:0.734975
  8. 飞行中:0.732649
  9. 航空器:0.723945
  10. 运输机:0.720578

Demo

$ pip install -r Requirements.txt
$ python demo.py

Data

synonyms/data/words.nearby.x.pklz # compressed pickle object

data is built based on wikidata-corpus.

Valuation

同义词词林

《同义词词林》是梅家驹等人于1983年编纂而成,现在使用广泛的是哈工大社会计算与信息检索研究中心维护的《同义词词林扩展版》,它精细的将中文词汇划分成大类和小类,梳理了词汇间的关系,同义词词林扩展版包含词语77,343条,其中32,470被以开放数据形式共享。

知网, HowNet

HowNet,也被称为知网,它并不只是一个语义字典,而是一个知识系统,词汇之间的关系是其一个基本使用场景。知网包含词语8,265条。

国际上对词语相似度算法的评价标准普遍采用 Miller&Charles 发布的英语词对集的人工判定值。该词对集由十对高度相关、十对中度相关、十对低度相关共 30 个英语词对组成,然后让38个受试者对这30对进行语义相关度判断,最后取他们的平均值作为人工判定标准。然后不同近义词工具也对这些词汇进行相似度评分,与人工判定标准做比较,比如使用皮尔森相关系数。在中文领域,使用这个词表的翻译版进行中文近义词比较也是常用的办法。

Benchmark

Test with py3, MacBook Pro.

python benchmark.py

++++++++++ OS Name and version ++++++++++

Platform: Darwin

Kernel: 16.7.0

Architecture: (‘64bit’, ‘’)

++++++++++ CPU Cores ++++++++++

Cores: 4

CPU Load: 60

++++++++++ System Memory ++++++++++

meminfo 8GB

synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop

Live Sharing

52nlp.cn

机器之心

线上分享实录: Synonyms 中文近义词工具包 @ 2018-02-07

Statement

Synonyms发布证书 GPL 3.0。数据和程序可用于研究和商业产品,必须注明引用和地址,比如发布的任何媒体、期刊、杂志或博客等内容。

@online{Synonyms:hain2017,
  author = {Hai Liang Wang, Hu Ying Xi},
  title = {中文近义词工具包Synonyms},
  year = 2017,
  url = {https://github.com/huyingxi/Synonyms},
  urldate = {2017-09-27}
}

任何基于 Synonyms衍生的数据和项目也需要开放并需要声明一致的“声明”。

References

wikidata-corpus

word2vec原理推导与代码分析

Authors

Hai Liang Wang

Hu Ying Xi

Give credits to

Word2vec by Google

Wikimedia: 训练语料来源

gensim: word2vec.py

SentenceSim: 相似度评测语料

jieba: 中文分词

License

GPL3.0

Chatopera开源社区

博客
《春松客服大讲堂》全面解读春松客服技术栈,掌握 Java 开发开源客服系统 | Chatopera
11-28 2042
春松客服大讲堂???? 春松客服大讲堂,面向开发者、软件工程师及运维人员的在线课程。基于春松客服定制客服系统,紧紧围绕春松客服开发技能由浅入深的介绍春松客服上线智能客服系统、运营客服工作全面介绍春松客服插件、机器人客服的等原理和使用春松客服大讲堂 2019课件仓库,以下为课程详细目录: 章 小节 时长(时:分:秒) 课件 一、春松客服的介绍 如何使用Java开发智能客服系统 00:32:11 PPT
博客
春松客服:做好开源客服系统 | Chatopera
11-04 1234
春松客服:做好开源客服系统 | Chatopera 前往 Bilibili 观看春松客服项目地址春松客服是 Chatopera 发布的开源免费的智能客服系统。在 Chatopera,我们相信:越是重视客户服务,越是好的企业 / the more you care about your customers, the better income you earn in return。...
博客
智能对话机器人之多轮对话工作机制 | Chatopera
08-19 6333
目录https://bot.chatopera.comChatopera 多轮对话工作机制多轮对话的定义什么场景下使用多轮对话Chatopera 多轮对话知识库意图识别脚本对话多轮对话的检索模块间检索创建脚本对话的话题话题检索顺序对话状态机擦除状态使用函数切换状态知识库路由总结下一步Chatopera 为开发者提供工具,低代码或无代码上线聊天机器人。https://bot.chatopera.com本文内容节选自 Chatopera 文档中心:https://docs.chatopera.com/pr
博客
财务管理知识,工具使用交流,如使用 Gnucash 完成交易记录、财报分析、预算;创业者,老板们需要了解的财务知识 | Chatopera
08-10 356
学习和使用财务管理知识、管理工具是创业者、企业家、乃至个人,必须具备的技能。
博客
用GNU Cash管理帐目
08-10 66
当到了一个会计时期(如一年)结束,正是审视过去财务情况,以便在未来做得更好。
博客
AI 应用还没有大量出现,缺什么?缺聊天机器人编程语言 | Chatopera
07-19 275
现在是需要大量的 AI 应用了。当年乔布斯说,他看到了个人电脑的两个趋势,一个是图形化用户界面,一个是面向对象编程语言。今天,AI 应用也是新的【图形用户界面】,创建 AI 应用,需要新的定制工具。从这个角度看,开发者的创造力发挥出来,实现出有趣有用的创意,才是开启巨大商业价值的前提。每次科技创新淘汰的是不学习的人,学习的人持续的升级技能,发挥人特有的潜力,这让机器总也不能取代。在聊天机器人方面,就是面向对话技能编程。类似于英伟达做 GPU 成功了是为开发者提供了高效率的面向数学运算编程的编译器。
博客
如何成为聊天机器人讲师,授课定制聊天机器人,知识库,AI 办公助手,扫码观看,进群答疑~ | Chatopera
07-17 208
如何以快速、有效的方式上线聊天机器人?很多人在探索,基于多年的打磨研发,Chatopera 云服务平台实现了无代码、低代码上线聊天机器人的解决方案,为市场提供了一个一站式的上线聊天机器人解决方案。聊天机器人在企业中有广泛的应用场景,是当下人工智能时代的杀手锏级别的应用,在大语言模型的加持下,更是快速发展。
博客
算丰 2300x-SOC TPU 处理器体验,运行 langchain + chatglm3 知识库,评测对话效果海口有几个机场 | Chatopera
07-10 419
海口有海口美兰国际机场,位于海口市美兰区,航线飞往国内大中城市,也有飞往国际的专机。从海口去美兰国际机场,除了地铁快速到达外,有绕城高速直达,还有琼文高速和223国道,交通非常便利。海南有三个民用机场:海口美兰国际机场、三亚凤凰国际机场和琼海博鳌机场。这个错误的原因,在于 vector 中,海南和海口在语义上距离非常近,但实际上是两个概念,模型认为它们是一个概念。2)海南有三个机场:海口美兰国际机场、三亚凤凰国际机场和琼海博鳌机场。1)海口有一个机场:美兰国际机场。
博客
Chatopera 聊天机器人讲师班 第二季,传授制作有趣有用的聊天机器人 | Chatopera
07-08 278
2024 年 7 月 18 日 (星期四) 20:00 ~ 21:00 第七讲 匹配器和函数的进阶使用。2024 年 7 月 11 日 (星期四) 20:00 ~ 21:00 第二讲 聊天机器人的生命周期。2024 年 7 月 10 日 (星期三)20:00 ~ 21:00 第一讲 成为聊天机器人讲师。2024 年 7 月 17 日 (星期三) 20:00 ~ 21:00 第六讲 多轮对话的状态机。2024 年 7 月 19 日 (星期五) 20:00 ~ 21:00 第八讲 发布聊天机器人。
博客
Chatopera 聊天机器人讲师班 第一季,传授制作有趣有用的聊天机器人 | Chatopera
07-02 349
曾帮助安永、广发证券、海通证券、中国石油、中外运集装箱运输等上线智能客服、聊天机器人。Chatopera 云服务重新定义聊天机器人,实现智能客服、知识库、AI 助手、智慧家居等智能应用,释放创新潜力。Chatopera 云服务重新定义聊天机器人,https://bot.chatopera.com 定制智能客服、知识库、AI 助手、智慧家居等智能应用,释放创新潜力。2024 年 07 月 03 日 ~ 07 月 09 日。王海良,现就职 Chatopera 高级工程师。使用腾讯会议直播授课,可回放观看视频。
博客
定制聊天机器人,实现智能客服,完成冰箱报修对话 | Chatopera
06-28 303
在上一篇文章中,我们提供了功能点的分析,,按照这个思路,今天实现了一个类似海尔服务的智能客服。
博客
追求准确,还是追求举一反三,聊天机器人智能程度的困境 | Chatopera
06-27 491
创建词典添加词条。
博客
数据预处理功能教程,上传文件生成知识库 | Chatopera
06-27 239
数据预处理功能教程 | Chatopera 云服务低代码定制聊天机器人。
博客
Chatopera 云服务实现类海尔服务智能客服的功能点比较 | Chatopera
06-26 342
在上一篇文章中,我分享了。如果使用实现一个类似的应用,如何做呢?借助可以实现一个智能客服,那么和现在的海尔服务小程序会有哪些优势劣势呢?今天我们来做一个比较。
博客
智能客服体验分析,使用小程序海尔服务完成电器报修 | Chatopera
06-20 640
家电电器保修,是常见的服务类型,非常典型。几乎每位消费者都会遇到,比如最近天气炎热,家里的海尔空调突然不制冷了。于是,从海尔的客服渠道做了保修,但是因为工作习惯,对海尔的客服流程体验,和产品设计,做了分析。海尔的服务和体验,到底好不好,大家可以分享一下和别的品牌的比较。以下是体验过程,当然,海尔的产品和服务,也是口碑很好的,在不断的优化。今时今日,可以作为很多电器品牌学习的榜样。
博客
快速定制新人入职,可以自动回答知识库问题的机器人 | Chatopera
06-19 381
定制智能对话机器人,比如我是 HR,想要做一个聊天机器人,帮助新人入职,自动回答知识库的问题。
博客
展示知识库热门问题,H5聊天控件体验升级 | Chatopera
06-19 214
Chatopera 云服务,https://bot.chatopera.com 产品定位:定制智能体的云服务。在之前,Chatopera 云服务只支持通过多轮对话设计器手动的设置函数和脚本,设置热门问题欢迎语。现在,对于新建的聊天机器人,会默认展示热门问题欢迎语。在消费者与聊天机器人对话时,设置欢迎语非常重要,热门问题欢迎语让访客了解聊天机器人的对话技能,关注什么业务。您仍可以在多轮对话设计器中,调整热门问题欢迎语,是不是简单了很多?
博客
批量导出兜底回复对话,迭代优化聊天机器人 | Chatopera 云服务
06-18 419
使用该功能,支持自主选择时间段,得到该时间段内的机器人没有回答好的问题,导出文件的格式是 Excel,编辑该文件的答案部分保存,就可以直接在知识库导入该文件了~聊天机器人的知识库,对话技能,需要长期的优化。这是因为,一方面,初期上线的机器人所依赖的数据量通常有限;另一方面,市场不断变化,客户产品新的问题。为了提升企业管理知识库的效率,Chatopera 近期升级了产品中,对于对话历史的管理,增加【下载兜底回复对话】功能。上线聊天机器人的目的之一,正是系统的、科学的、高效率的维护企业的知识库。
博客
快速定制聊天机器人,Chatopera 云服务一览 | Chatopera
06-16 480
Chatopera 云服务致力于提供定制聊天机器人的云服务,现在就来体验吧~
博客
上传文件生成聊天机器人,实现客服、办公自动化智能体 | Chatopera
06-12 306
快速定制聊天机器人
写文章

热门文章

  • updateByPrimaryKey与updateByPrimaryKeySelective 53025
  • Answer to Computer Networks and Internet 25493
  • 春松客服:一个开源的智能客服系统 18976
  • Feishu(飞书) 聊天机器人应用(1/3)- 开发快速入门 17663
  • Synonyms: 中文近义词工具包 17288

分类专栏

  • 财务管理 2篇
  • 开源 500篇
  • 聊天机器人 121篇
  • 智能客服 46篇
  • 产品更新 8篇

最新评论

  • AI 应用还没有大量出现,缺什么?缺聊天机器人编程语言 | Chatopera

    CSDN-Ada助手: 不知道 Python入门 技能树是否可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • 心理咨询问答语料库: efaqa-corpus-zh

    小栈学算法: 这个数据现在需要钱啊

  • 长期找 AI 专家,邀请参加线上聊天直播

    普通网友: 大佬的文章写的太精辟了 让我深刻了解了这篇文章的精髓 谢谢大佬分享,希望继续创作优质博文。【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • 长期找 AI 专家,邀请参加线上聊天直播

    CSDN-Ada助手: 不知道 Python入门 技能树是否可以帮到你:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • 平安银行智能金融在客服机器人中台的落地实践

    简单人生zero: 刚接了个电话,一开始都没听出来是机器人;语音方面是录音啊 还是训练的声音和语气,很是厉害

最新文章

  • 财务管理知识,工具使用交流,如使用 Gnucash 完成交易记录、财报分析、预算;创业者,老板们需要了解的财务知识 | Chatopera
  • 用GNU Cash管理帐目
  • AI 应用还没有大量出现,缺什么?缺聊天机器人编程语言 | Chatopera
2024年24篇
2023年3篇
2022年6篇
2021年44篇
2020年110篇
2019年3篇
2018年10篇
2017年2篇
2015年1篇
2014年28篇
2013年4篇
2012年10篇
2011年281篇
2010年199篇
2009年29篇

目录

目录

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家鹤壁玻璃钢艺术雕塑定制多少钱济南玻璃钢玻璃钢雕塑公司玻璃钢雕塑多少年前福建常见商场美陈研发特色玻璃钢雕塑摆件售价汕头玻璃钢造型雕塑鸿达卓玻璃钢雕塑找谁家安康玻璃钢雕塑厂烤漆玻璃钢雕塑制作河北公园玻璃钢雕塑公司河北玻璃钢卡通雕塑草莓价钱苏州玻璃钢雕塑定做商场主题创意商业美陈多少钱景观玻璃钢雕塑哪个信誉好玻璃钢雕塑的保养与维护南安市玻璃钢雕塑弥勒市玻璃钢雕塑批发西平玻璃钢雕塑厂家玻璃钢形象雕塑墙商场美陈英语怎么说树脂玻璃钢雕塑工艺品老虎上海开业商场美陈售价新余环保玻璃钢雕塑订做价格上海玻璃钢卡通雕塑松树定制广东玻璃钢雕塑摆件玻璃钢切面鹿雕塑福建玻璃钢发光雕塑厂濮阳卡通动漫玻璃钢雕塑生产厂道教玻璃钢雕塑多少钱辽宁玻璃钢卡通雕塑报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化