中文拼写纠错医疗领域数据集 MCSCSet: A Specialist-annotated Dataset for Medical-domain Chinese Spelling Correction

97 篇文章 181 订阅
订阅专栏

论文信息

论文地址:

  1. https://arxiv.org/pdf/2210.11720.pdf (本笔记参考的版本)
  2. https://dl.acm.org/doi/pdf/10.1145/3511808.3557636

论文代码 : https://github.com/yzhihao/MCSCSet

阅读前提:需要对CSC任务有一定的了解

论文内容:提出了医疗领域的CSC数据集 MCSCSet(Medical Chinese Spelling Correction Dataset )

摘要(Abstract)

该论文提出了一个医疗领域的CSC数据集。

数据集大小:200K 个样本(医学专家人工标记)

数据集来源:腾讯医典(https://baike.qq.com/)的查询日志

作者还提供了一个benchmark模型作为baseline用户后续比较

1. 介绍(Introduction)

现有的CSC模型都是通用的(Open-Domain),并不适用于特定领域(Specific Domain)。例如对于某一个Open-Domain训练出的模型在本文提出的医疗数据集MCSCSet下的表现如:

在这里插入图片描述
该模型在SIGHAN-15(Open-Domain数据集)下表现很好,但在MCSCSet(Specific Domain)表现就很差。

医疗术语通常有5种错误,如下图:

在这里插入图片描述
其中前两种属于CSC的范畴

本论文的主要贡献如下:

  1. MCSCSet:首次提出了一个医疗领域的CSC数据集
  2. 提供了一个医疗领域的混淆集
  3. 提供了benchmark模型

2. 相关工作

3. 医疗领域CSC任务定义(Medical-domain CSC Task)

医疗领域的CSC任务在定义上和CSC任务完全一致。即:

给定输入文本序列 X = { x 0 , x 1 , x 2 , ⋯   , x n } X=\{x_0, x_1, x_2, \cdots, x_n\} X={x0,x1,x2,,xn} x i x_i xi 表示一个字符。经过修正函数 F ( X ) F(X) F(X) 修正后,输出修正结果序列 Y = { y 0 , y 1 , y 2 , ⋯   , y n } Y=\{y_0, y_1, y_2, \cdots, y_n\} Y={y0,y1,y2,,yn},其中输入文本长度和输出文本长度一致,即只修改错字,不处理少字和多字的情况。

在数据分布上,医疗领域CSC和传统CSC的不同点如下:

  1. 医疗本文包含大量的医疗术语(medical terms),这些术语不常见且很复杂。
  2. 错字通常发生在医疗实体(medical entities)上。例如:布洛分
  3. 要修改错字需要有医疗相关知识

4. 医疗领域CSC数据集(The Medical-Domain CSC Dataset)

4.1 数据样本筛选(Medical Query Selection)

200K条样本的收集过程如下:

  1. 首先从“腾讯医典”的查询日志中收集到了900K+条数据
  2. 去除包含个人信息的样本,例如姓名,ID等。
  3. 去除过长(超过50个字)和过短(少于3个字)的样本
  4. 去除不包含医疗实体的字
  5. 最后剩余200+样本

4.2 数据标注过程(Annotation Process)

数据标注过程如下:

  1. 将医疗实体用“{}”括起来,并标记其错误类型。
  2. 将医疗实体的错字修正。注意:不考虑非医疗实体的常见字
  3. 若句子中的医疗实体不包含错字,那就人工造个错字。

最终的样本样例如下:

{拔知齿}要做手术吗	{拔智齿}要做手术吗	字音/字形
{膝盖前交叉忍带断裂}术后{康复训练}	{膝盖前交叉韧带断裂}术后{康复训练}	字音
{手臂内侧}{经络堵赛}症状	{手臂内侧}{经络堵塞}症状	字形

注意,如果第二点我没有理解错的话。这个数据集的部分错误可能是人造的。

4.3 数据格式和统计情况(Data Format and Statistics)

样本样本里如下表所示:

在这里插入图片描述
与现有CSC数据集相比,有几个优点:

  1. 它在识别错误时是按照词的维度的。传统的CSC数据集只会告诉你“尺”错了,但不会告诉你“智尺”是一个词
  2. 该数据集告诉你这个错误是“字形/字音”的错误。

数据集的统计情况如下:

在这里插入图片描述

训练集:验证集:测试集=8:1:1

句子长度分布情况如下图:

在这里插入图片描述

大部分的句子长度都在10个字左右

医疗实体的词频情况如图所示:

在这里插入图片描述

大部分的医疗实体词只出现了一次

错误类型的分布情况如下:

在这里插入图片描述 大部分错误都是字音相似,还有一部分是字形相似。仅有少数样本是重复、缺字或语序混乱。

作者提供的数据集也包含“重复、缺字或语序混乱”这三种样本,因此其也是可以用于语法纠错的


作者还提供了一个适合医疗领域的混淆集,样例如图所示:

在这里插入图片描述

5. 实验(Experiments)

5.1 实验设置(Experiment Setup)

5.2 基准模型(Benchmark Models)

  • BERT-Corector:https://aclanthology.org/2021.acl-short.56/
  • Soft-Masked BERT:https://arxiv.org/abs/2005.07421
  • MedBERT-Corrector:作者自己构建的模型

5.3 基准实验(Benchmark Experiments)

作者的实验情况如下:

在这里插入图片描述

不过作者没说这个指标是Character-level还是Correction-level的

个人总结

  1. 作者提供了一个人工标注的医疗领域的CSC数据集。包含200K个样本,按8:1:1的比例分为了训练集、验证集和测试集。
写文章

热门文章

  • Pytorch nn.Linear的基本用法与原理详解 122539
  • Pytorch中 nn.Transformer的使用详解与Transformer的黑盒讲解 83522
  • Hugging Face快速入门(重点讲解模型(Transformers)和数据集部分(Datasets)) 70086
  • 详解torch.nn.utils.clip_grad_norm_ 的使用与原理 50388
  • 详解Git合并(Merge)错误如何回退。(包括Reset, Revert和页面回滚三种,并说明其优缺点) 46985

分类专栏

  • 机器学习 97篇
  • 考研 7篇
  • 面试 8篇
  • 961 29篇
  • 杂类 8篇
  • 每日一摸 3篇
  • Java 15篇
  • 算法 5篇
  • Javassist 8篇
  • RocketMQ 1篇
  • springcloud 7篇
  • SpringBoot 3篇
  • saltstack 2篇
  • 自动化运维 2篇
  • 前端 2篇
  • Python 6篇
  • Linux 2篇
  • 英语学习 13篇
  • Redis 13篇

最新评论

  • 数字人项目 ER-NeRF 的使用和部署详细教程

    一个大表扬: 直接改成float32。

  • 层层剖析,让你彻底搞懂Self-Attention、MultiHead-Attention和Masked-Attention的机制和原理

    某龙: 矩阵乘积扩大variance其实是 dot product运算会扩大随机变量的 variance

  • 权重衰减weight_decay参数从入门到精通

    happy14563: 目前看到的科普里面,最好的一篇了,谢谢分享知识

  • Pandas读取excel合并单元格的正确姿势(openpyxl合并单元格拆分并填充内容)

    zy_0575: 太棒了,在绝望中搜索到了你的这篇宝贵的文章,解决了我一大难题,感谢

  • 【论文解读】(拼音+字形+字三种信息的中文BERT)ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

    iioSnail: 不用自行处理。用这个就行:https://huggingface.co/iioSnail/ChineseBERT-base

最新文章

  • Redis运维篇-快速面试笔记(速成版)
  • Redis基础应用篇-快速面试笔记(速成版)
  • Spring基础篇-快速面试笔记(速成版)
2024年9篇
2023年21篇
2022年75篇
2021年52篇
2020年37篇
2019年25篇
2018年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

iioSnail

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家扬州彩绘玻璃钢雕塑珠海品质玻璃钢雕塑抚州玻璃钢雕塑制作玻璃钢雕塑安装工人云南环保玻璃钢雕塑哪家便宜焦作水景玻璃钢雕塑生产厂家忻州玻璃钢雕塑厂家滨州小区玻璃钢雕塑生产厂家玻璃钢白熊造型雕塑上海常用商场美陈市场报价浙江常用商场美陈生产厂家北京常见商场美陈批发白银景区玻璃钢雕塑制作浙江定制玻璃钢雕塑联系方式浙江步行街玻璃钢雕塑图片河南玻璃钢雕塑设计价格设计玻璃钢雕塑哪里有鄂州玻璃钢雕塑制作厂家太原玻璃钢仿真水果雕塑广州天河玻璃钢卡通雕塑玻璃钢动物雕塑制作视频常州商场开业美陈中山供应玻璃钢雕塑山东运动人物玻璃钢雕塑售价很好的玻璃钢雕塑东方主题玻璃钢人物雕塑批发东莞生产玻璃钢动物雕塑抚州环保玻璃钢雕塑设计贵州玻璃钢雕塑视频湘潭玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化