首发于 NLPCAB
2021年NLP入门书籍推荐|理论&实践

2021年NLP入门书籍推荐|理论&实践

对于初学者来说,最系统的入门方法就是买一本好书。相比网络上的内容,书籍是反复审核修改过的,条理上也更加清晰,可以帮大家建立起更完备的知识体系。

今天rumor就从理论和实践两方面梳理一个中文NLP入门书单,帮大家快速入门。趁着新年的折扣季可以买起来了,薄的垫垫茶壶,保护桌子,厚的垫垫显示器,保护颈椎,还可以用来练习量子波动速读。

注:文末附NLP学习路线资料、学习群进入的方式~

理论

理论方面主要还是从统计机器学习和深度学习出发,先打牢基础,NLP很多时候只是把输入输出改变而已。目前神经网络在NLP领域的效果已大大领先,所以先推荐两本这方面的书籍。

《神经网络与深度学习》

首推邱锡鹏老师的这本书,一方面是出版时间很新(20年5月),另一方面是书相对较小,不会给初学者造成太大压力。

《深度学习》

其次必须推荐花书,花书不是一次就能读完读透的,已经有基础的同学可以当作工具书来用,在碰到难题或者面试前都可以翻翻。没有基础的同学最好先看上一本。

除了深度学习之外,经典的统计方法也是需要了解的,业界也有一些应用场景,像 分词这样对速度要求高的任务不必要上神经网络,经典方法足矣。

《自然语言处理入门》

这本是HanLP的作者何晗出品的,HanLP是Github上一个21k的项目,基于Java高效地实现了分词、词性标注等通用句法、语义任务,虽然不是研究层面的,但在工业界应用十分广泛,很多公司的分词基础组件都是基于HanLP改的。当年我优化分词模块的时候也拜读了源码,十分佩服作者的功底和学习能力。何晗大佬的这本书主要从统计算法角度讲解,侧重于句法分析任务的理论和实践。

《统计自然语言处理》

也是很经典的一本,但出版时间是2013年,很多方法都过时了。不太适合初学者用来入门现在的NLP,但用来了解统计方法是很好的。

《数学之美》

数学之美是吴军老师很经典的科普读物,用易懂的语言和故事带我们了解一个个NLP应用。书不厚,适合闲暇时间阅读。强烈推荐。

介绍完一些基础理论书籍后,也推荐些各个任务上的应用书籍。其实深入某个子任务最好的办法是去找近一年的综述文献,但找不到、或者没时间阅读大量英文文献的话也可以借助中文书籍过渡。

《知识图谱与深度学习》

刘知远老师、韩旭博士和孙茂松教授20年中出品的书,系统地介绍了知识图谱相关模型及应用,还有各模型的实验测评。

《智能问答》+《机器翻译》+《知识图谱》

这三本18年底出版的系列书籍是周明、李沐、赵军三位大佬分别署名的,主要是对该领域进行体系化地分类,再介绍历任模型、数据集等,可以当综述看。

《文本情感分析》

由中科院靳小龙团队在19年11月出版,比较新,系统地介绍了情感分析领域。

《机器阅读理解》

斯坦福博士、微软研究员朱晨光20年初的书,除了阅读理解外还介绍了NLP基础,并讲到了最新的BERT,同时配有阅读理解模型代码,适合初入该领域的同学。

《百面系列》

Hulu团队出品,基本是面试必备了。虽然基础都学了,但面试时总会发现有知识点遗漏,这两本可以帮忙迅速补救。

实践

实战的书选起来没有理论书那么纠结,现在框架都封装得很好了,如果明白原理且有一定编程基础,再看下代码就差不多懂了,甚至不买书直接去找源码也是可以的。书的好处是代码更加规范,配有一定注释且风格一致,选取自己倾向的一门语言去看即可,难度上 Keras<Pytorch<Tensorflow。

《动手深度学习》

李沐在19年中出版的实战书,虽然使用了MXNet这个框架,但概念的讲解和Python实现都不错,适合快速上手。目前的深度学习框架都差不多,蹭别人源码时用pytorch和tensorflow都有可能,不用太拘泥,初入门主要学习模型的逻辑。

《自然语言处理实战》

如果不想看MXNet,可以参考这本比较新的书,20年底出版,配有Keras代码,比其他深度学习框架都容易些。

《TensorFlow自然语言处理》

19年7月出版,从词向量到文本生成都有讲,还不错。

买书和学习

现在书籍的数量越来越多了,上述列表只是我个人筛选的结果,有些同样经典但较老的书籍就没有推荐,如有遗漏欢迎补充。同学们自己找的话,建议选择出版时间近两年、由知名业内大佬出版的图书,同时也可以看下京东、当当上的评论,避免踩坑。看书的时候,不必要求自己一口气看完,可以参考这篇 NLP学习路线,先刷一遍重要的知识点,再辅以实践去慢慢深入。

遗憾的是,上述书籍都没有涉及太多BERT之后的进展。所以书籍只是入门的辅助,帮大家打牢基础、建立知识体系,真正深入前沿还需要阅读更多的英文论文,读起来困难的话可以参考中文博客和知乎。

2021年了,要继续保持学习的心态鸭 (ง •̀_•́)ง

---

欢迎初入NLP领域的小伙伴们加入rumor建立的「NLP卷王养成群」一起学习,添加微信「leerumorrr」备注知乎+NLP即可,群里的讨论氛围非常好~

---

入门路线和各任务详解都在这里下载啦~

推荐阅读:

代做工资流水公司南昌代做购房银行流水泰安代开企业银行流水重庆车贷工资流水 开具珠海房贷流水徐州办理公司流水嘉兴代开企业银行流水泰安日常消费流水报价九江企业对公流水图片长春查询薪资流水宜昌代开转账银行流水哈尔滨银行流水电子版代做盐城签证流水费用许昌工资流水单办理西宁流水单图片嘉兴薪资流水制作泰安购房银行流水报价湖州代做工资流水济南公司银行流水价格金华工资证明费用遵义流水单代做宿迁公司银行流水报价郑州签证工资流水办理海口企业对公流水常州背调流水价格杭州签证工资流水开具绍兴转账银行流水代办湘潭代做银行流水PS洛阳对公银行流水多少钱南通流水账单代做盐城打印车贷工资流水香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化