文言文白话文互转:文言文转白话文(现代文),白话文(现代文)转文言文
前几天,看到了东北大学小牛翻译团队开源的语料项目: 文言文(古文)-现代文平行语料( https://github.com/NiuTrans/Classical-Modern) ,这个项目整理了非常全的文言文(古文)- 现代文(白话文)对齐数据,基本涵盖了大部分经典古籍著作,并且对原始爬取的篇章级对齐数据进行了断句及人工校对,形成了共计约96万句对的文言文-白话文对齐(平行)语料。
这份语料数据很珍贵,看到的第一眼想到就是用这份文言文现代文对齐语料训练一个文言文白话文转换器:文言文转白话文,文言文转现代文,白话文转文言文,现代文转文言文,古文转白话文,白话文转古文,古文转现代文,现代文转古文。
刚好春节假期有点闲,于是训练了两个神经网络机器翻译模型:文言文(古文)到白话文(现代文),白话文(现代文)到文言文(古文),现在可以在AINLP公众号后台直接对话测试了,至于效果,基于语料和模型的水平,仅供一乐,关注AINLP公众号,对话输入"文言文转白话文:待转换内容"或者"文转白:待转换内容"测试文言文转白话文,输入"白话文转文言文:待转换内容"或者"白转文:待转换内容"测试白话文转文言文:
以下是我的一些测试结果,感兴趣的朋友可以关注AINLP公众号自行评测:
甚至可以先用AINLP写一段文言文,然后再翻译成白话文:
以下是AINLP目前支持的自动生成模块,之后将加入更多的领域生成测试模块,欢迎关注测试:
鼠年春节,用 GPT-2 自动写对联和对对联
用 GPT-2 自动写诗,从五言绝句开始
自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了
仅供娱乐,藏尾诗生成器来了
中文歌词自动生成器:来试试自动写歌
文言文自动生成器:来试试自动写古文
现代文自动生成器:来试试用GPT2自动写中文
自动作文生成器:来试试用预训练模型自动写中文作文
以下是关于这个语料项目的具体介绍,感兴趣的朋友可以直接下载测试:
文言文(古文)-现代文平行语料
非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。
原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。
以下为数据统计信息。其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。
书名 | 句数 |
---|
《短篇章和资治通鉴》中各书籍统计如下(此部分数据量不完全准确):
书名 | 句数 |
---|
如果您使用该语料库,请注明出处: https://github.com/NiuTrans/Classical-Modern
感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。