机器翻译都发展 60 年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

6 年前

资讯

Sparanoid

特色图像
机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

虽然 Google Translate 已经发布了近 15 年了,但直到现在 Google Translate 仍然倔强地认为 Android phone is very fast.

最近 GT 的重大更新是 2016 年开始采用神经机器翻译 (GNMT) 的系统,它包括 8 个编码器和 8 个解码器,用于 9 种语言的翻译。

他们不仅把句子分开,而且还把单词分开,这也是他们如何处理一个罕见单词的做法。当单词不在字典里时,NMT 是没有参考的。比如翻译一个字母组 “Vas3k”,在这种情况下,GMNT 试图将单词拆分为单词块并恢复它们的翻译。

但依旧无法解释为什么把「卡顿」翻译成「very fast」,而且当这个翻译成为国内工程师们这几天广为传颂的笑料后,Google 引以为傲的众包纠错仍没有成功干预这个错误翻译。

正因为这个小笑话,让我们想要开始研究机器翻译。本篇文章将对机器翻译这六十多年来的发展进行梳理,包括基于规则的机器翻译 (RBMT) 、基于实例的机器翻译 (EBMT) 、统计机器翻译 (SMT) 、神经机器翻译 (NMT) 等主流方法,以及 Google 、 Yandex 等厂商的领先算法进行分析。

您正在阅读的正是这篇系列文章的上半部分,《机器翻译的 1933-1984》。

进展缓慢的前四十年

机器翻译最开始出现于 1933 年,也就是冷战时期。

当时苏联科学家 Peter Troyanskii 在苏联科学院提出了「开发一种可以用于语言翻译,并能够打印文字的机器用」。这台机器的构造非常简单——只有四种不同语言的卡片和一台打字机,及一部老派电影摄影机。

操作员从文本中取出第一个单词,找到相应的卡片,拍下照片,并在打字机上键入其形态特征 (名词、复数、属格等) 。打字机根据其中某些特征进行翻译,并通过磁带和照相机的胶卷来呈现。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

即便它能进行简单的翻译,但在当时仍被认作是一项「无用的」发明。可惜的是,Troyanskii 为这项发明耗费了 20 年光阴,最终死于心绞痛,这项发明也随之告终。在 1965 年两明苏联科学家发现这个机器之前,世界上几乎没人知道它的存在。

1954 年 1 月 7 日,也就是冷战开始初期,在纽约 IBM 总部出现了历史上第一台真正意义上的翻译机——IBM701,它将 60 个俄语句子成功翻译成英文,这就是著名的乔治城——IBM 实验。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

但是,完美的噱头是为了掩盖了一个小细节。没有人提到翻译的例子经过仔细挑选和测试,以排除任何歧义。对于日常使用,这个系统不比一本快速翻译手册好。

即便如此,现代自然语言处理的基础仍是由包括美国在内的科学家们,通过不断尝试、研究和发展所创造的。今天所有的搜索引擎,垃圾邮件过滤器,以及个人助理的出现也是基于此。

基于规则的机器翻译 (RBMT)

围绕基于规则的机器翻译这个想法最早出现在 70 年代,科学家们仔细观察译员的工作,试图迫使电脑重复这些动作。这些系统包括:

  • 双语词典 (RU -> EN)

  • 每一种语言的一套语言规则 (例如以某些后缀为后缀的名词,如-heit, 、-keit 、 -ung 等),也就是词根词性。

如果需要的话,系统还可以添加一些技巧,比如名称列表、拼写校正器和音译程序。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

PROMPT 和 Systran 是 RBMT 系统中最著名的例子,即便他们也有一些细微差别和亚种。

  • 机器直接翻译

这是最直接的机器翻译类型。它将文本中的文字进行逐个翻译,并稍微纠正其形态,以及协调语法使整个段落看起来翻译的更准确。至于而这些修改规则,均是由专业的语言学家设定。

不过,这些翻译规则有时候会失效,而且翻译的很糟糕。虽然现代系统根本不使用这种规则,但却深受现代语言学家的喜爱。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)
  • 基于语法结构的机器翻译

与直译相比,我们先确定句子的语法结构,就像我们在学校老师教的那样。然后我们分析整个结构,而不是个别单词,这在理论上有助于在翻译中获得相当好的词序转换。

但在实践中,这种方法仍存在局限。一方面,它简化了一般的语法规则,但另一方面,由于词语结构的增多与单字相比,它的翻译变得更加复杂。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)
  • 中介语的机器翻译

在此方法中,源文本被转换为中间表示,并统一于所有世界语 (interlingua) 。它与笛卡尔所梦想的一样: 一种元语言,它遵循通用规则,将翻译转换成简单的「来回」任务。这可以使 interlingua 能够转换任何目标语言。

由于这种转换,Interlingua 经常与基于转移的元语言系统相混淆。不同之处在于,语言规则是针对每一种语言和语言的,而不是语言对。这意味着,我们可以向 interlingua 系统添加第三种语言,并在三者之间进行转换,而这在基于语法结构的翻译系统中很难实现。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

它看起来很完美,但在现实生活中却并非如此。创造这种中间语是极其困难的——许多科学家一生都在研究它。虽然他们没有获得巨大成功,但是多亏了他们,我们现在有了形态学,句法,甚至语义层次的表征。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

不过,RBMT 也有优点,比如它的形态学准确性 (它不会混淆单词) 、结果的再现性 (所有译者都得到相同的结果),以及将其调到主题领域的能力 (例如,教经济学家或工程界的术语) 。

即使有人成功地创造出了一个理想的 RBMT,且不断有语言学家用所有的拼写规则来增强它,但总会有一些例外是它不能应对的。比如英语中的不规则动词、德语中的可分前缀、俄语中的后缀,以及人们用不同的表达方式等。

如果要对这些细微的差别进行补充修复,所耗费的成本是非常庞大的。不要忘了同音异义词,即同一个词在不同的语境中可以有不同的意思,这就导致同一句话可能存在许多种翻译。比如,当我说「我看见一个人在山上用望远镜」时,你觉得这里面会包含多少中含义呢?

语言并不是基于一套固定的规则来发展的——这是语言学家们喜欢的一个事实。而冷战的 40 年,虽然机器翻译在发展,但并未找到一个明确的解决办法来提高翻译的精度和便捷性。

所以,RBMT 早就凉凉了。

基于实例的机器翻译 (EBMT)

到了上世纪八十年代,为了在即将到来的全球化中,尽快站稳脚跟,很少有人懂英文的日本迫切需要机器翻译。在国家政策大力支持下,日本成为当时对机器翻译最具兴趣的国家。

由于基于规则的机器翻译(RBMT)很难进行英日翻译,因为翻译过程几乎要将所有的单词重新排列,而且还涉及到新的单词,这迫使日本必须寻求新的翻译思路。

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

于是,1984 年,京都大学的 Makoto Nagao 提出了用现成的短语代替重复翻译的想法,也就是所谓基于实例的机器翻译(EBMT)。输入的案例越多,翻译也就越快越准确。

EBMT 这个想法的出现,就像一颗火种点燃了科学家们的创新灵感,这对机器翻译的发展极具意义,虽然它还谈不上革命性的创举。但在 5 年之后,极具革命意义的统计翻译将基于此出现。

下篇预告

  • 统计机器翻译 (SMT) 主导的 1990s-2000s 机器翻译时代;

  • 神经机器翻译 (NMT) 在 2015 年终于粉墨登场;

  • Google 与 Yandex 的高级玩法;

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

历史文章(点击图片阅读)

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

《为什么 10.24 是程序员节?》

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

《这篇 Paper 有毒!》

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

《面对亲友,如何解释人工智能?》

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

超神经 HyperAI

公众号 ID:HyperAI

关注

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

玻璃钢生产厂家云浮玻璃钢雕塑销售厂成都厂家玻璃钢雕塑铜陵特色玻璃钢雕塑供应商宝鸡房地产校园玻璃钢景观雕塑肇庆玻璃钢卡通雕塑规格天津人物玻璃钢雕塑哪家便宜营口玻璃钢雕塑多少钱五显灵观大帝玻璃钢雕塑江苏中庭商场美陈怎么样重庆定制玻璃钢雕塑市场曲阳玻璃钢景观雕塑安徽玻璃钢小羊动物雕塑厂家人物玻璃钢雕塑哪家靠谱黑龙江城市几何玻璃钢雕塑商场美陈中灯饰的应用濮阳玻璃钢广场卡通雕塑制作深圳玻璃钢花盆销售厂家商场顶子新年美陈商场美陈软贴纸气球商场美陈哪家专业福州龙岩玻璃钢花盆永州玻璃钢花盆忻州玻璃钢海豚雕塑价格洛阳玻璃钢动物雕塑西宁城市玻璃钢雕塑设计长春玻璃钢雕塑工程价格2019玻璃钢雕塑价格福清玻璃钢艺术雕塑盐城玻璃钢人物雕塑厂家园林景观玻璃钢雕塑设计厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化