中文近义词工具包:Synonyms

319 篇文章 29 订阅
订阅专栏
233 篇文章 21 订阅
订阅专栏

Synonyms

Chinese Synonyms for Natural Language Processing and Understanding.

更好的中文近义词:聊天机器人、智能问答工具包。

synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。

Table of Content:

  • Install
  • Usage
  • Quick Get Start
  • Valuation
  • Benchmark
  • Statement
  • References
  • Frequently Asked Questions
  • License

Welcome

pip install -U synonyms

兼容 py2 和 py3,当前稳定版本 v3.x。

提示:安装后初次使用会下载词向量文件,下载速度取决于网络情况。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-89mQkI8G-1611553162975)(./assets/3.gif)]

本文档的配置和接口说明面向 python 工具包。

Usage

支持使用环境变量配置分词词表和 word2vec 词向量文件。

环境变量描述
SYNONYMS_WORD2VEC_BIN_MODEL_ZH_CN使用 word2vec 训练的词向量文件,二进制格式。
SYNONYMS_WORDSEG_DICT中文分词 主字典,格式和使用 参考

synonyms#nearby(word [, size = 10])

import synonyms
print("人脸: ", synonyms.nearby("人脸"))
print("识别: ", synonyms.nearby("识别"))
print("NOT_EXIST: ", synonyms.nearby("NOT_EXIST"))

synonyms.nearby(WORD [,SIZE])返回一个元组,元组中包含两项:([nearby_words], [nearby_words_score])nearby_words是 WORD 的近义词们,也以 list 的方式存储,并且按照距离的长度由近及远排列,nearby_words_scorenearby_words对应位置的词的距离的分数,分数在(0-1)区间内,越接近于 1,代表越相近;SIZE 是返回词汇数量,默认 10。比如:

synonyms.nearby(人脸, 10) = (
    ["图片", "图像", "通过观察", "数字图像", "几何图形", "脸部", "图象", "放大镜", "面孔", "Mii"],
    [0.597284, 0.580373, 0.568486, 0.535674, 0.531835, 0.530
095, 0.525344, 0.524009, 0.523101, 0.516046])

在 OOV 的情况下,返回 ([], []),目前的字典大小: 435,729。

synonyms#compare(sen1, sen2 [, seg=True])

两个句子的相似度比较

    sen1 = "发生历史性变革"
    sen2 = "发生历史性变革"
    r = synonyms.compare(sen1, sen2, seg=True)

其中,参数 seg 表示 synonyms.compare 是否对 sen1 和 sen2 进行分词,默认为 True。返回值:[0-1],并且越接近于 1 代表两个句子越相似。

旗帜引领方向 vs 道路决定命运: 0.429
旗帜引领方向 vs 旗帜指引道路: 0.93
发生历史性变革 vs 发生历史性变革: 1.0

synonyms#display(word [, size = 10])

以友好的方式打印近义词,方便调试,display(WORD [, SIZE])调用了 synonyms#nearby 方法。

>>> synonyms.display("飞机")
'飞机'近义词:
  1. 飞机:1.0
  2. 直升机:0.8423391
  3. 客机:0.8393003
  4. 滑翔机:0.7872388
  5. 军用飞机:0.7832081
  6. 水上飞机:0.77857226
  7. 运输机:0.7724742
  8. 航机:0.7664748
  9. 航空器:0.76592904
  10. 民航机:0.74209654

SIZE 是打印词汇表的数量,默认 10。

synonyms#v(word)

获得一个词语的向量,该向量为 numpy 的 array,当该词语是未登录词时,抛出 KeyError 异常。

>>> synonyms.v("飞机")
array([-2.412167  ,  2.2628384 , -7.0214124 ,  3.9381874 ,  0.8219283 ,
       -3.2809453 ,  3.8747153 , -5.217062  , -2.2786229 , -1.2572327 ],
      dtype=float32)

synonyms#sv(sentence, ignore=False)

获得一个分词后句子的向量,向量以 BoW 方式组成

    sentence: 句子是分词后通过空格联合起来
    ignore: 是否忽略OOV,False时,随机生成一个向量

synonyms#seg(sentence)

中文分词

synonyms.seg("中文近义词工具包")

分词结果,由两个 list 组成的元组,分别是单词和对应的词性。

(['中文', '近义词', '工具包'], ['nz', 'n', 'n'])

该分词不去停用词和标点。

synonyms#keywords(sentence [, topK=5, withWeight=False])

提取关键词,默认按照重要程度提取关键词。

keywords = synonyms.keywords("9月15日以来,台积电、高通、三星等华为的重要合作伙伴,只要没有美国的相关许可证,都无法供应芯片给华为,而中芯国际等国产芯片企业,也因采用美国技术,而无法供货给华为。目前华为部分型号的手机产品出现货少的现象,若该形势持续下去,华为手机业务将遭受重创。")

PCA

以“人脸”为例主要成分分析:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-258wxQn1-1611553162976)(assets/1.png)]

Quick Get Start

$ pip install -r Requirements.txt
$ python demo.py

Change logs

更新情况 说明。

Voice of Users

用户怎么说:

Data

data is built based on wikidata-corpus.

Valuation

同义词词林

《同义词词林》是梅家驹等人于 1983 年编纂而成,现在使用广泛的是哈工大社会计算与信息检索研究中心维护的《同义词词林扩展版》,它精细的将中文词汇划分成大类和小类,梳理了词汇间的关系,同义词词林扩展版包含词语 7 万余条,其中 3 万余条被以开放数据形式共享。

知网, HowNet

HowNet,也被称为知网,它并不只是一个语义字典,而是一个知识系统,词汇之间的关系是其一个基本使用场景。知网包含词语 8 余条。

国际上对词语相似度算法的评价标准普遍采用 Miller&Charles 发布的英语词对集的人工判定值。该词对集由十对高度相关、十对中度相关、十对低度相关共 30 个英语词对组成,然后让 38 个受试者对这 30 对进行语义相关度判断,最后取他们的平均值作为人工判定标准。然后不同近义词工具也对这些词汇进行相似度评分,与人工判定标准做比较,比如使用皮尔森相关系数。在中文领域,使用这个词表的翻译版进行中文近义词比较也是常用的办法。

对比

Synonyms 的词表容量是 435,729,下面选择一些在同义词词林、知网和 Synonyms 都存在的几个词,给出其近似度的对比:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-urgYjDp7-1611553162976)(./assets/5.png)]

注:同义词林及知网数据、分数 来源。Synonyms 也在不断优化中,新的分数可能和上图不一致。

更多 比对结果。

Used by

Github 关联用户列表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xmRZhwiP-1611553162977)(./assets/6.png)]

Benchmark

Test with py3, MacBook Pro.

python benchmark.py

++++++++++ OS Name and version ++++++++++

Platform: Darwin

Kernel: 16.7.0

Architecture: (‘64bit’, ‘’)

++++++++++ CPU Cores ++++++++++

Cores: 4

CPU Load: 60

++++++++++ System Memory ++++++++++

meminfo 8GB

synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop

Live Sharing

52nlp.cn

机器之心

线上分享实录: Synonyms 中文近义词工具包 @ 2018-02-07

Statement

Synonyms发布证书 MIT。数据和程序可用于研究和商业产品,必须注明引用和地址,比如发布的任何媒体、期刊、杂志或博客等内容。

@online{Synonyms:hain2017,
  author = {Hai Liang Wang, Hu Ying Xi},
  title = {中文近义词工具包Synonyms},
  year = 2017,
  url = {https://github.com/chatopera/Synonyms},
  urldate = {2017-09-27}
}

References

wikidata-corpus

word2vec 原理推导与代码分析

Frequently Asked Questions (FAQ)

  1. 是否支持添加单词到词表中?

不支持,欲了解更多请看 #5

  1. 词向量的训练是用哪个工具?

Google 发布的 word2vec,该库由 C 语言编写,内存使用效率高,训练速度快。gensim 可以加载 word2vec 输出的模型文件。

  1. 相似度计算的方法是什么?

详见 #64

Authors

Hai Liang Wang

Hu Ying Xi

Give credits to

Word2vec by Google

Wikimedia: 训练语料来源

gensim: word2vec.py

SentenceSim: 相似度评测语料

jieba: 中文分词

License

MIT

Copyright (2018-2020) Chatopera Inc. https://www.chatopera.com

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.OF

chatoper banner

Chatopera 云服务

https://bot.chatopera.com/

Chatopera 云服务是一站式实现聊天机器人的云服务,按接口调用次数计费。Chatopera 云服务是 Chatopera 机器人平台的软件即服务实例。在云计算基础上,Chatopera 云服务属于聊天机器人即服务的云服务。

Chatopera 机器人平台包括知识库、多轮对话、意图识别和语音识别等组件,标准化聊天机器人开发,支持企业 OA 智能问答、HR 智能问答、智能客服和网络营销等场景。企业 IT 部门、业务部门借助 Chatopera 云服务快速让聊天机器人上线!

展开查看 Chatopera 云服务的产品截图

自定义词典

自定义词条

创建意图

添加说法和槽位

训练模型

测试对话

机器人画像

系统集成

聊天历史

立即使用

python中文近义词工具_Synonyms: 中文近义词工具包
weixin_39717152的博客
11-28 1657
SynonymsChinese Synonyms for Natural Language Processing and Understanding.最近需要做一个基于知识图谱的检索,但是因为知识图谱中存储的都是标准关键词,所以需要对用户的输入进行标准关键词的匹配。目前很缺乏质量好的中文近义词库,于是便考虑使用word2vec训练一个高质量的同义词库将《非标准表述》 映射到 《标准表述》,这就是S...
synonyms中文近义词工具包安装过程记录
fantasyjrltnt的博客
09-02 1986
首先确保安装了python,并设置好全局变量 检查pip工具版本 在命令行输入pip -V pip install -U synonyms -ihttps://mirrors.ustc.edu.cn/pypi/web/simple/ 安装完成,可以进行开发了~~
synonyms中文近义词工具包
08-08
synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
Python-synonyms中文近义词工具包
08-12
synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
Synonyms——中文近义词工具【含源码解析与改进】
GeekZW的博客
08-08 6359
Synonyms——中文近义词工具 背景:Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。 Synonyms的码云地址:https://gitee.com/mirrors/Synonyms?_from=gitee_search(含具体用法) Synonyms的...
推荐项目:Synonyms —— 简洁高效的同义词库API
最新发布
gitblog_00092的博客
03-21 586
推荐项目:Synonyms —— 简洁高效的同义词库API 项目地址:https://gitcode.com/huyingxi/Synonyms 项目简介 Synonyms 是一个轻量级且易于使用的API,它提供了汉语词汇的同义词查询功能。该项目旨在为开发者提供便利,帮助他们在自然语言处理(NLP)任务中快速查找和替换词语的同义词,以提升文本质量和多样性。 技术分析 Synonyms API 的核...
SYNONYMS
csnd32068的博客
06-05 137
SQL> SELECT * FROM V$VERSION WHERE ROWNUM=1; BANNER ------------------------------------------------------...
Synonyms:中文近义词:聊天机器人,智能问答工具包
05-11
更好的中文近义词:聊天机器人、智能问答工具包synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 Table of Content: Welcome ...
Synonyms-中文近义词工具包
07-26
Synonyms是一个中文近义词工具包,它可用于自然语言理解(Natural Language Understand,NLG)的多种任务,包括文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等。...
Synonyms 中文近义词工具包 -- 支持文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等
YunWisdom
03-12 2689
Synonyms 入门介绍 Chinese Synonyms for Natural Language Processing and Understanding. 最好的中文近义词工具包synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 Welcome npm insta...
English_Synonyms.zip
05-19
English_Synonyms linking-words list-of-synonyms-and-antonyms synonyms-actions synonyms-movements synonyms-positive-feelings synonyms-negative-feelings synonyms-speech-discuss synonyms-speech-talk
my synonyms
Trending Up...
05-06 6173
have get give take make put go going pick look catch bring leave find set send hold open begin start stop comeplace let become turn finish keep close spend join attend show move===================
深度学习-自然语言处理(NLP)-第三方库(工具包):Synonyms【更好的中文近义词、聊天机器人、智能问答工具包
u013250861的博客
04-01 1044
更好的中文近义词:聊天机器人、智能问答工具包synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 ...
Synonyms: 中文近义词工具包
热门推荐
Chatopera
02-20 1万+
Synonyms Chinese Synonyms for Natural Language Processing and Understanding. 最好的中文近义词工具包: https://github.com/huyingxi/Synonyms/。 synonyms 可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。...
oracle synonyms注释,Oracle synonyms总结
weixin_32924297的博客
04-11 610
synonyms(同义词)就是给数据库对象取一个别名,因为同义词只是一个别名,因此它只需在数据字典中存储自身的定义,而无需额外的存储空间。在使用同义词时,Oracle数据库将它翻译成对应方案对象的名字。同义词分为两种:公共同义词与私有同义词。公共同义词由特殊的用户组PUBLIC所拥有,一般由DBA、SYSTEM、SYS创建,数据库中的每个用户都能够访问。而私有同义词属于某个用户,此用户可以通过授...
Synonyms:一个开源的中文近义词工具包
weixin_39312449的博客
03-19 4725
作者:Synonyms 项目的作者胡小夕是北京邮电大学研究生,目前实习于今日头条 AI LAB。从事自然语言处理方向研究,在智能客服,知识图谱等领域都有相关研究开发经验。工具包技术说明:该中文近义词工具包采用的基本技术是 Word2vec。Synonyms 的安装十分便捷,我们可以直接使用命令 pip install -U synonyms 完成。该工具包兼容 Python 2 和 Python ...
利用Synonyms库对论文进行降重
渗透测试
01-03 3134
前些日子,收到了来自老师的毕业论文问候,本着学习的态度就在知识的海洋了疯狂遨游,奈何风太大,差点翻车 于是我就萌发出一种可以自动降重的脚本(别说什么网上降重,没钱!!!),众所周知,论文降重其实就是找近义词。正好,我想起了synonyms中文库寻找近义词 首先就是安装 pip install synonyms 想法是这样的:首先输入一条句子,然后进行分词,找出所有分词的近义词(应该是形容词,后续再弄),在拼接到一块,最后进行句子的相识度展示。 在这个过程中需要解决一些问题,因为synonyms打包
Synonyms 缩写解释
New Life LAUNCHING!
04-08 879
 CIC = Customer Interaction CenterACH = Application Component HierarchyCoE = Centers of ExpertiseIMS =  Installed Base Maintenance & SupportBST = Business Solution TeamGSC = Global Support
Python第三方库synonyms近义词词库报错403,缺少这个文件,文末下载
IT技术博客
07-24 1938
正在导入词库,它可能是从指定的网站下载词库,如果网站连不上,就会报错。找下自己Python的安装路径,把上面的文件复制到这里面就可以了。从下面的网站下载词库word.vector.gz。5、复制下载好的压缩包,拷贝到下面的路径。1、安装synonyms库。
写文章

热门文章

  • 二叉树的先序遍历、中序遍历、后序遍历、层次遍历-图文详解 49504
  • 机器学习与深度学习常见面试题 47498
  • 软考中级 软件设计师资料(考点分析+复习笔记+历年真题+电子版课本) 35360
  • 快速上手笔记,PyTorch模型训练实用教程(附代码) 35091
  • Python中输入和输出 32163

分类专栏

  • 早教 1篇
  • 纪录片 1篇
  • python 319篇
  • 异常处理 6篇
  • 实体抽取 3篇
  • 面试经验 124篇
  • 信息检索 20篇
  • 自然语言处理 233篇
  • 机器学习 74篇
  • GAN 8篇
  • 特征值分解 
  • 数据结构 15篇
  • 问答 2篇
  • 语义匹配 4篇
  • 数据分析 33篇
  • 特征 2篇
  • 动态规划 2篇
  • 风险 6篇
  • 二叉树 3篇
  • 读书 4篇
  • 多元统计分析 9篇
  • 摄影拍照
  • 小技巧 5篇
  • 数据挖掘 15篇
  • 强化学习 7篇
  • 对话 17篇
  • 数据库 23篇
  • 阅读理解 9篇
  • 深度学习 67篇
  • 操作系统 30篇
  • 人工智能 34篇
  • 字符串 6篇

最新评论

  • paddlenlp 任务清单 中文分词、中文纠错、文本相似度、情感分析、词性标注等一键

    A19981231aa: bachsize有什么用,设置较高的参数有什么影响嘛

  • sklearn中tfidf的计算与手工计算不同详解

    lion King776: 大神表情包

  • 如何恢复在 PyCharm 中误删的整个项目文件

    微音迅逝: 帮大忙了表情包

  • 通俗理解kaggle比赛大杀器xgboost

    徐徐前向: 讲这么好,没人点赞收藏

  • 268G+训练好的word2vec模型(中文词向量)

    Monica X.: 您好,您的模型我用到研究里,请问是否需要引用一下呀

最新文章

  • python报错:Python12下,运行代码报错:No module named ‘distutils‘
  • sklearn中tfidf的计算与手工计算不同详解
  • 吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记
2024年1篇
2023年38篇
2022年82篇
2021年134篇
2020年167篇
2019年272篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家做工讲究的玻璃钢雕塑造型金昌仿真玻璃钢雕塑制作杭州玻璃钢雕塑厂家佛山细致玻璃钢座椅雕塑玻璃钢花盆手绘美甲景洪市玻璃钢雕塑设计生产商玻璃钢雕塑泡沫彩色小品玻璃钢人物雕塑出厂价格商场门口的美陈玻璃钢剪影雕塑黄山商场新春美陈阜阳大型户外玻璃钢雕塑厂家北京景区玻璃钢雕塑公司白色球形玻璃钢花盆批发玻璃钢花盆厂家直销商场艺术空间美陈大同小区玻璃钢雕塑定制玻璃钢鹦鹉雕塑厂家上海大型商场美陈批发山西玻璃钢不锈钢动物雕塑公司玻璃钢花盆很贵湖南仿铜玻璃钢雕塑价位承德仿木玻璃钢雕塑山西玻璃钢雕塑厂家中山市玻璃钢人物雕塑盐城玻璃钢卡通雕塑价格范围邵阳佛像玻璃钢雕塑常用玻璃钢花盆供货商泉州手糊法玻璃钢雕塑酒店前台艺术玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化