Download presentation
Presentation is loading. Please wait.
Published by Riitta Pääkkönen Modified 5年之前
1
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
2
提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法
基于双向语言模型的方法 实验结果与实例分析 总结
3
提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法
基于双向语言模型的方法 实验结果与实例分析 总结
4
统计机器翻译中的未登录词问题 统计机器翻译框架
5
统计机器翻译中的未登录词问题 统计机器翻译框架 翻译模型 语言模型 双语平行语料 (f1,e1),(f2,e2)… 目标语言单语语料
e1, e2,…, en 语言模型
6
统计机器翻译中的未登录词问题 统计机器翻译框架 翻译模型 度量翻译候选的合法性 语言模型 双语平行语料 (f1,e1),(f2,e2)…
目标语言单语语料 e1, e2,…, en 语言模型
7
统计机器翻译中的未登录词问题 统计机器翻译框架 决定了翻译知识覆盖率 翻译模型 语言模型 双语平行语料 (f1,e1),(f2,e2)…
目标语言单语语料 e1, e2,…, en 语言模型
8
双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!
统计机器翻译中的未登录词问题 统计机器翻译框架 决定了翻译知识覆盖率 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!
9
统计机器翻译中的未登录词问题 统计机器翻译中未登录词的特点 在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合
统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间
10
提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法
基于双向语言模型的方法 实验结果与实例分析 总结
11
传统处理方法与缺陷 尝试一切方法获得未登录词的译文 资源 方法 借助语言学资源,譬如HowNet, WordNet 借助大规模网络资源
利用数据挖掘方法 利用信息检索方法
12
传统处理方法与缺陷 缺陷 只处理部分未登录词,例如命名实体、缩略语等 只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调序
… 为(is) 百分之六 左右(about) … is 6% about
13
提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法
基于双向语言模型的方法 实验结果与实例分析 总结
14
保持语义功能的未登录词处理方法 核心思想 目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响
核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变
15
保持语义功能的未登录词处理方法 方法框架 对于测试句子中的任意一未登录词,在集内词中搜索与该未登录词语义功能最相似的词
解码前,将未登录词替换为集内词 解码后,将集内词的译文重新替换为未登录词,以便利用其他方法翻译未登录词
16
一个示例 … 为(is) 百分之六 左右(about) …
搜索集内词,发现 “一半(50%)” 与 “百分之六”具有最相似的语义功能, 替换“百分之六”为“一半” 为 一半 左右 is about 50% is about 百分之六
17
什么是语义功能? 语义功能 一个词的语义功能表示该词在句子中所扮演的语法和语义角色 语义功能决定了该词在源语言和目标语言文本中所带的上下文
18
什么样的词共享相似的语义功能? 如果两个词在文本中所处的上下文相似,那么他们就具有相似的语义功能
19
搜索与未登录词语义功能相似的集内词 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析
基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结
20
基于分布语义模型的方法 分布语义模型 利用表示一个词的所有上下文总和的向量近似该词的语义信息 向量空间模型
21
基于分布语义模型的方法 上下文 为目标词tw创建上下文向量Vtw
以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文 为目标词tw创建上下文向量Vtw Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率
22
基于分布语义模型的方法 如何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information)
23
基于分布语义模型的方法 如何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information)
L-2 normalization
24
基于分布语义模型的方法 计算任意两个词的语义功能相似度
25
搜索与未登录词语义功能最相似的集内词 POS constraint
26
搜索与未登录词语义功能相似的集内词 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析
基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结
27
基于双向语言模型的方法 分布语义模型的缺陷 将所有上下文看做一个词袋 不考虑上下文之间的词序与依赖 什么是理想的模型?
28
简化 argmax? 模型回退 前向语言模型P(wi|wi-1,wi-2,…)
29
简化 argmax? 模型回退 后向语言模型P(wi|wi+1,wi+2,…)
30
简化 argmax? 模型回退 or
31
简化argmax? 模型回退 前向语言模型 后向语言模型 or 双向语言模型
32
附加约束 词性约束
33
附加约束 翻译规则约束 搜索结果的集内词与未登录词的上下文组合必须存在翻译规则 为 百分之六 左右 为 一半 左右
为 百分之六 左右 为 一半 左右 “一半 左右 ||| about 50%”
34
提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法
基于双向语言模型的方法 实验结果与实例分析 总结
35
实验设置 语料 翻译系统: Moses NIST2005中未登录词的分布 训练语料:FBIS,23.6万句对
开发集: MT NIST2003 测试集: MT NIST2005 翻译系统: Moses NIST2005中未登录词的分布 1082句子中存在796 不同的未登录词 (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)
36
翻译结果 分布语义模型 窗口大小 BLEU (%) POS BLEU(%) POS+Trans NIST 4 29.53 30.02
8.2254 8.3592 5 29.86 29.88 8.4487 8.3694 6 30.16 (0.42↑) 8.4296 8.3910 7 29.66 30.01 8.3724 8.4528 基线系统 29.74 8.3139 分布语义模型
37
翻译结果 双向语言模型 constraint BLEU (%) NIST without pos 29.89 8.3885 with pos
30.28 (0.54↑) 8.4108 pos+trans 30.38 (0.64↑) 8.4659 baseline 29.74 8.3139 双向语言模型
38
翻译结果 前向语言模型 后向语言模型 constraint BLEU (%) NIST without pos 29.65 8.2882
with pos 29.98 8.3900 pos+trans 30.21 (0.47↑) 8.4268 前向语言模型 constraint BLEU (%) NIST without pos 29.67 8.3189 with pos 29.82 8.4127 pos+trans 30.15 (0.41↑) 8.4602 后向语言模型
39
两个翻译实例 … 内阁 才 作成 决定 , … Moses: … the cabinet 作成 decided … … 内阁 才 作出 决定 ,… Moses:…before the cabinet made the decision ...
40
两个翻译实例 … 义演 现场 的 热烈 气氛 , … Moses: … live义演 and warm atmosphere… … 演习 现场 的 热烈 气氛 , … Moses:…the warm atmosphere of the exercise...
41
总结 对于每个未登录词,搜索与该未登录词语义功能最相似的集内词 两种算法 相比于分布语义模型,双向语言模型具有更好的性能 分布语义模型
42
THANKS! Q&A
软饮料概述 人文艺术系 石惠舟. 什么是饮料? 饮料概述 饮料是指以水为基本原料,由 不同的配方和制造工艺生产出 来,供人们直接饮用的液体食 品。 饮料 饮料除提供水分外,由于在不 同品种的饮料中含有不等量的 糖、酸、乳以及各种氨基酸、 维生素、无机盐等营养成分, 因此有一定的营养。
1 認識創業之財務 ( 資金 ) 及稅務問題 講師 : 蘇炳章 日期 : 92 年 8 月 12 日.
月經異常的原因及警訊 組員: 陳少康、張康樂、許晉愷、何曄、方泠瑩、張 顓麟、蘇梓喬、溫鵬皓、林雅雯.
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
第五单元 酒水知识与酒吧服务 主题三 蒸 馏 酒 —— 中国蒸馏酒. 蒸馏酒是把经过发酵的酿酒原料,经过一次或多次的蒸馏过 程提取的高酒度酒液。
1 報告人:季啟富 101/5. 簡報大綱 僱主風險規劃分析 何謂僱主契約補償責任保險 ? 僱主契約補償責任保險特色說明 僱主契約補償責任保險承保說明 僱主契約補償責任理賠說明 行銷建議 問題與討論.
年終工作獎金 及考績獎金 法規與實務 苗栗縣政府人事處 副處長 陳 坤 榮 中華民國102年1月25日.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
消失的吸管 隊名:吸管應該消失才隊.
助學工作說明會 及 教育訓練.
師資生修讀教育學程 重點提醒 師資培育暨就業輔導中心.
鬼太郎 身為幽靈族後裔一員的鬼太郎,他出生的時候,父母便雙亡,不過他的爸爸化身為眼珠,陪伴著他。而鬼太郎與他的同伴貓女、臭鼠人等,為了維持妖怪與人類間的和平,他們將一一消滅邪惡的妖怪,守護這世界的和平。
文書檔案組Q&A 崇右技術學院 文書檔案組 Q & A 總務處.
高齡自主學習團體終身學習試辦計畫經費核銷
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
政府組織、功能與權限 第三冊第三課.
机器翻译原理与方法 第三讲 基于词的统计机器翻译方法
桃園縣埔心國民小學專題報告 海豹 海豹 報告人 : 吳宜旻 指導老師 : 鄭省村.
二、信用工具和外汇.
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
Similar presentations
© 2024 slidesplayer.com Inc.
All rights reserved.
玻璃钢生产厂家商场大型美陈方案胶泥雕塑和玻璃钢拉丝玻璃钢雕塑价格行情湖南景观玻璃钢雕塑图片浙江大象玻璃钢雕塑景观标识玻璃钢彩绘雕塑北京特色商场美陈市场惠州玻璃钢雕塑销售厂家唐山动物玻璃钢雕塑厂家个旧市玻璃钢雕塑设计定做工艺玻璃钢雕塑制作阳江玻璃钢雕塑制作厂家南阳彩色玻璃钢人物雕塑批发蚌埠玻璃钢花盆岳阳玻璃钢雕塑厂家哪家好通用玻璃钢雕塑品牌企业浙江水果玻璃钢雕塑制作泉州园林玻璃钢雕塑直销商场美陈上海施工单位西安玻璃钢雕塑供应商福建周年庆典商场美陈订购长沙玻璃钢雕塑厂有哪些恩晓玻璃钢花盆徐州雕塑玻璃钢广州玻璃钢雕塑批发厂家湖北仿铜玻璃钢雕塑哪家便宜玻璃钢雕塑厂家介绍扬州玻璃钢海豚雕塑曲阜玻璃钢人物雕塑建安玻璃钢雕塑定制香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万