百度语音识别新算法准确率提升超30%,鸿鹄芯片彰显AI落地新打法

2019-11-29 15:57:45爱云资讯阅读量:974

今年 7 月,在开发者大会上,百度公布了其在 AI 技术上的进展。而短短四个月后,在昨日的百度语音能力引擎论坛上,百度在语音领域再次公开了最新的算法成果。同样引人关注的还有百度鸿鹄芯片的最新进展。

昨日,百度语音能力引擎论坛在北京召开。在论坛上,百度展示了其在语音技术上的最新成果,并公开了语音专用终端芯片——百度鸿鹄的落地情况。此外,机器之心也采访了百度语音首席架构师贾磊。百度通过本次发布说明,深度学习端到端技术依然大有发展空间,软件驱动专用芯片设计成 AI 落地新打法。

语音能力 100 亿次日调用,百度大脑势头正劲

论坛开始,百度 CTO 王海峰博士公布了百度在语音技术方面的最新成绩单。目前,百度语音技术的日调用量已突破 100 亿。

而目前,百度大脑已开发 AI 能力 228 项,接入开发者数量超过 150 万,现已成为国内最大的 AI 开放平台。

王海峰博士还介绍了百度在 AI 方面的两大目标,即「进化」和「赋能」。通过技术的不断进化,推动 AI 的进一步发展,同时通过赋能合作厂商和开发者的方式,创造活跃的 AI 生态环境。

在发布会上,百度语音识别新算法和百度鸿鹄芯片的最新进展最引人注目。它们无疑是对进化和赋能两词最好的注解。

完全端到端,深度学习再次颠覆语音识别

在论坛上,百度语音首席架构师贾磊介绍了百度近一段时间的语音技术突破。其中最受瞩目的便是百度最新研发的「基于复数 CNN 网络的语音增强和语音识别一体化建模」技术。

现有方法面临瓶颈

目前主要的远场语音识别方案主要将语音识别分为两个步骤:数字信号处理和语音识别。具体而言,用户首先需要对语音识别终端进行唤醒,当设备收到信号后,采用声学模型和硬件对波束来源进行定位,定位后再继续接收目标声音。

接收到目标声音后,识别终端通过方位信息,增强目标信号并压制干扰信号,从而将增强后的信号,输入到语音识别声学建模模块中。

这一方法主要存在两个问题。首先,语音增强算法大都是基于 mse 准则优化语音的听觉感知,听觉感知变得更清晰,并不一定对应识别率提升。其次,此方法需要首先唤醒语音识别终端,并要求说话者的位置保持固定。如果在识别过程中目标信号源发送移动,或波束方向上存在噪声,则识别准确率会大幅下降。

深度学习让信号处理和语音识别终成一体

而百度提出的新算法不再需要首次唤醒。在识别开始时,目标声音信号直接被多路麦克风输入到模型中,采用复数个 CNN 网络提取声音信号中的多种特征,包括不同麦克风输入信息的特征,和跨频率耦合的声学特征。在这一过程中直接实现了前端声源定位、波束形成和增强特征提取。特征提取后,直接进行声学建模,并生成最终的文字结果。

据贾磊介绍,这一算法从根本上打通了前端的信处理和后端语音识别过程,真正实现了端到端的语音识别解决方案。该算法具有以下优势。其一,这一算法不需要事先根据前一个唤醒词的方向来定人的说话方向,定出人说话方向之后,再做波束生成,这样的话,波束生成只能对下一句话的唤醒或者是识别有提升作用。这个方法是根据当前唤醒词或者是语音指令,一次性的同时做声源定向和波数生成。使得当前这一个次唤醒或者是识别就能够显著提升。

其次,由于使用 CNN 网络捕捉多种特征,因此能够最大程度捕捉声音波形中的最本质特征信息,尤其是跨频波形特征等,因此能够模型具有更好的学习能力,性能也更好。

另外,模型最终端到端直接输出文字结果,通过字错误率进行调优,因此能够最大限度上优化模型性能。

由于没有了波束定位的环节,这一方面面临的挑战在于,如何能够区分多个声音源,并只识别真正的目标声音源。

在采访中,贾磊提到,在多个声源存在的情况下,该算法可结合语义信息进行区分。这是因为算法中融合了 SMLTA 架构,能够进行从语音到语言文字的映射,因此可以学习到语义知识。在识别过程中,算法可根据语义,选择正确的 query。

据悉,这一算法的识别准确率(即字错误率)提升超过 30%。和百度鸿鹄 AI 芯片配合使用的情况下,甚至可以提升更多。

在语音转文字方面,百度公开了 SMLTA 算法方面的最新成果。目前该算法能够识别更多方言、中英文混输等场景上也进一步提升。通过和端到端方法结合,百度已彻底实现了从语音输入、信号处理和增强、语音识别到文字输出的完全端到端深度学习解决方案。

此外,论坛上,贾磊也介绍了百度在语音合成方面的技术进展。通过 WaveRNN 算法的进一步改进,模型可提取人声中的通用特征,结合被合成者特有的声学特征,最终输出合成语音结果。

目前百度已实现无监督的语音合成模型训练,并应用于百度地图产品上。用户只需要输入 20 句话,就可以使用合成语音进行地图导航等操作。

百度鸿鹄芯片:用硬件落地算法

除了最新的语音技术进展,百度也公开了百度鸿鹄芯片的最新进展。百度鸿鹄芯片是百度第一款专门针对语音技术领域开发的 AI 芯片,是百度推动语音识别能力落地应用的新打法。

语音能力集于一芯

据百度度 AI 技术生态部总经理喻友平介绍,百度鸿鹄芯片已集成了语音方面的所有能力,包括波束定位、语音信号增强、回声处理、降噪、语音识别等方面的所有功能。整个芯片提供了完整的解决方案。

目前,百度鸿鹄芯片已提供了相关的硬件模组,包括安卓开发板等。同时,百度也邀请到了合作厂商,展示集成了百度鸿鹄芯片的智能家电——如创维智能电视等,在语音识别赋能后产生的新交互体验。

目前,百度已经完成了百度鸿鹄的智能音箱的产品原型。产品使用双麦克结构,将百度鸿鹄芯片作为语音处理芯片,来处理所有的语音的功能和任务,并最终集成到远场语音交互方案中。

专用芯片让语音识别模型真正落地

为什么要为语音技术设计专用芯片,通过发布可以看到,百度鸿鹄芯片能够满足了落地深度学习算法的要求。首先,深度学习需要大量的内存占用、计算并行化能力,更要求芯片的 Cache 足够大,模型的加载速度要够快。ARM 架构的通用芯片在这些指标上多有不及,只有专门为深度学习设计的架构和指令集能够让模型在专用硬件上发挥更好的性能。

同时,相比 ARM 架构芯片,百度鸿鹄芯片可以更加低功耗。百度本次发布的新算法在百度鸿鹄芯片上,在待机状态下功耗不足 100mW。我国节能家电标准要求待机状态功耗不高于 0.5W,有了百度鸿鹄芯片,各类家电可以集成语音识别能力,也同时满足节能家电的认证标准。

据贾磊介绍,本次公开的端到端算法在百度鸿鹄芯片上只占用 200K 的内存,可完全实现终端语音识别功能。

这样一来,以百度鸿鹄芯片为载体,以算法为核心,百度实现了通过提供硬件和算法的方式,将语音能力赋予合作商和开发者,实现了整体解决方案的开源开放。

本次论坛上,百度还介绍了其语音生态中的很多新产品和应用,说明了百度 AI 生态的日臻成熟。

语音技术落地体现百度新打法

通过本次论坛发布可以看出,百度的 AI 落地新打法已呼之欲出。在新技术的开发上,百度全面采用深度学习方式,进一步扩展 AI 能力和应用场景。在技术的落地环节,则通过软件驱动硬件发展的方式,让专用硬件承接算法模型,最终实现技术赋能。

深度学习推动跨学科融合

在谈到基于复数 CNN 网络的语音增强和语音识别一体化建模技术时,贾磊表示,这一技术说明了深度学习在推动跨学科融合方面的能力。

换句话说,通过端到端技术,百度实现了信号处理和语音识别两个部分的融合。在前端信号处理的过程中,不再需要考虑声学模型和相关的先验知识,从语音信号的输入到输出文字完全模拟人类的认知过程。

采访中贾磊表示,尽管目前深度学习看似进入到了「平台期」,但在端到端跨学科整合方面,其仍有很大的发展空间。

软件驱动芯片设计

在算法落地赋能方面,可以看到百度用「软件驱动芯片设计」的发展战略。在百度大脑开放了众多 AI 能力的时候,百度根据算法对硬件的要求,定制相应的硬件设备。相比传统的芯片厂商,这些专用芯片都是根据模型的大小、特性和计算方式特殊定制的,只有掌握算法细节的厂商才能够定制开发。

这样的算法落地方式无疑有着独特的优势。首先算法能够和硬件深度结合,通过硬件开放的方式融合到各类场景中,发挥最佳的性能。

此外,硬件能够提供更为端到端的解决方案,显著降低算法落地的成本。例如,百度鸿鹄芯片整合了语音识别中的所有能力,提供了综合的解决方案。这样在落地算法的过程中,合作商不再需要关心各种算法的运行情况,以及和硬件适配的相关问题。

同时,专用芯片的功耗更低,在保证模型性能的同时,不会对集成的系统(如家电产品等)带来很高的功耗。

从这些新打法中可以看出百度的坚持和创新探索。不变的是百度对深度学习算法的坚持。即使目前深度学习看似进入平台期,但百度持续推动深度学习以端到端的方式进入新的场景,逐渐取代需要过去传统学科长期积累和大量先验知识的领域。

与此同时,百度仍在探索 AI 落地的新形式。鸿鹄芯片的公布无疑是其以互联网企业的方式进入到芯片设计领域的新思路。围绕算法对算力和硬件的需求,定制专用的硬件,让算法更好地发挥性能优势,也在同时降低厂商合作落地 AI 的成本和门槛,实现其让 AI 进化和赋能行业生态的目标。

相关文章
  • 百度国际MediaGo成为Tinder亚洲区广告伙伴
  • 百度国际MediaGo获得2024年美国商业奖金史蒂夫奖
  • 海鑫科金与百度智能云深化合作 | 共探行业大模型应用
  • 百度何俊杰:智能体将成为车企7X24小时在线的金牌业务员
  • 百度CTO王海峰:智能体是重要发展方向,会带来更多应用爆发
  • 标贝科技亮相Create 2024百度AI开发者大会
  • 百度文库超前一步携手顶级国漫,探索AIGC应用垂类进化
  • 百度大模型助推工业智能化应用,微美全息AIGC全面升级加速数字化转型进程
  • 百度AI开发者大会为何只选跨越速运 科技实力+定制服务给答案
  • 摄影界的ChatGPT来了!百度网盘推出AI摄影创意工具超能画布
  • 刘强东“分身”直播首秀带火AI数字人直播 万兴科技百度等厂商受关注
  • 百度何俊杰:智能体,创造AI原生未来
  • 百度智能云新一代智能计算操作系统发布,定名万源
  • 百度沈抖:传统云计算不再是主角,智能计算呼唤新一代“操作系统”
  • 百度文库官宣「AI创作」体验官李雪琴,带来AI办公提效新范式
  • 苹果携手百度共探AI合作新机遇,微美全息竞速开展AIGC应用构建竞争优势
热门文章
更多>>
  • 百度:文心大模型日均处理Tokens文本已达2490亿
  • 百度:文心大模型日均处理Tokens文本已达2490亿
  • 心大陆AI大模型再加速!获批国内首个「人工智能心理算法」国家备案
  • 心大陆AI大模型再加速!获批国内首个「人工智能心理算法」国家备案
  • 百度Apollo:自动驾驶比人类驾驶更安全,美好出行指日可待
  • 百度Apollo:自动驾驶比人类驾驶更安全,美好出行指日可待
  • ABeam(德硕)大语言模型系列(3):企业如何拥抱大语言模型
  • ABeam(德硕)大语言模型系列(3):企业如何拥抱大语言模型
  • 零一万物发布千亿参数模型Yi-Large,李开复呼吁关注TC-PMF,拒绝ofo式烧钱打法
  • 零一万物发布千亿参数模型Yi-Large,李开复呼吁关注TC-PMF,拒绝ofo式烧钱打法
  • 生成式AI时代的“信任危机” 企业该如何应对
  • 生成式AI时代的“信任危机” 企业该如何应对
头条文章
更多>>
  • 高通中国区董事长孟樸:5G Advanced与AI融合发展,加速开启数字未来
  • 保障数字资产安全:微美全息比特币TrustBlock验证器确保交易安全可靠
  • 中科视语AI智慧平台助力干熄焦安全生产
  • 矩阵起源全面拥抱AIDC开源软件生态,世纪互联领投千万美元Pre-A轮融资
  • 世优科技亮相元宇宙生态博览会,荣获优秀数字人企业等五大奖项
  • 英特尔推进面向未来节点的技术创新,在2025年后巩固制程领先性
  • AI驱动智能文档处理,合合信息破解央企保理公司供应链审单痛点
  • 中国量子研究实现国际重大突破,微美全息争先布局量子科技赛道
重点文章
更多>>
  • 星纪元ET上市,大卓智驾成就“超级智能”
  • 用经典缔造经典,荣耀200系列与巴黎雅顾摄影工作室达成技术合作
  • 荣耀200系列5月27日正式发布 全新海岸配色 影像屏幕续航大幅升级
  • ROG幻16 Air领衔 华硕35款产品荣获2024年度红点产品设计奖
  • 联发科出大招:参与设计Armv9新架构 天玑9400旗舰CPU性能能效碾压对手
  • 华为MateBook 14 Ultra5 16G+512G皓月银版在京东先人一步开售
  • 累计焊接机器人出货量超3000台,这家企业两大新品实力出众!
  • 门保真度达99.9%,英特尔展示领先自旋量子比特器件性能
推荐文章
更多>>
  • 九章云极DataCanvas公司DingoDB完成中国信通院权威多模数据库测试
  • 优刻得:使用USDP实践近实时数据湖仓
  • Testin云测:企业如何在数字化时代中获得持续优势
  • 企云方助力卓尚服饰打造企业数字化经营计划与分析管理平台
  • 浩鲸科技:扩大云服务生态,重塑服务体系,提高服务质量
  • 容联云零代码平台容犀desk:重新定义坐席工作台
  • 优刻得助力HGC环电打造专属云,为东南亚企业提供优质云服务
  • 青云科技启动鲲鹏原生开发合作,加深鲲鹏昇腾联合创新
热点文章
更多>>
  • 517电信日:“5G+物联网”双轮驱动,新型工业化加速驶入快车道
  • 分享6个实用的ESP32-S3物联网项目:从智能设备到安全创新
  • 中移物联双碳能耗解决方案赋能千行百业绿色低碳转型
  • 中移物联“和易充”助力福建泉州丰泽街道绿色出行
  • 闪联主导智能蓝牙锁国际标准正式发布,为推进信息产业技术创新和发展助力
  • 隔空科技与酷宅科技合作升级,共谋IoT智能传感创新发展
  • 宜鼎推出 iCAP Air 智能物联空气质量管理解决方案
  • 中移物联OneMO亮相慧聪物联网品牌巡展重庆站
关于我们| 联系我们| 免责声明| 会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023

代做工资流水公司泰州房贷工资流水 多少钱九江企业对公流水代开签证流水价格济南打印背调流水廊坊代办房贷流水赣州工资流水报价金华工资流水单图片商丘购房银行流水查询宜昌制作企业对私流水重庆代办车贷银行流水揭阳制作对公流水石家庄打自存流水赣州房贷银行流水 样本福州贷款流水制作无锡个人银行流水办理金华流水账单公司郑州办理企业对公流水江门入职银行流水费用佛山薪资银行流水代办莆田公司流水图片海口代做薪资流水湛江离职证明珠海工资代付流水代办信阳房贷银行流水 公司莆田制作工资流水app截图江门工资银行流水图片包头企业流水打印模板宁德入职银行流水唐山企业对私流水费用衡阳办理企业银行流水香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化