王海峰谈人工智能:语音合成也取得巨大进展
发布时间:2019-08-29 | 发布者: 东东工作室 | 浏览次数: 次算力是AI发展的重要基础。8月27-28日,由中国工程院信息与电子工程学部主办的AICC 2019人工智能计算大会上,与会嘉宾就AI计算和AI创新展开了探讨。百度首席技术官王海峰发表题为《人工智能加速产业智能化升级》的演讲,分享了百度对于AI计算发展的洞察,并介绍百度AI在算力、算法等层面的最新进展和助力产业智能化的成果。
王海峰表示,迄今为止人类经历的三次工业革命,分别以机械技术、电气技术和信息技术为核心驱动力,而这些技术都表现出很强的通用性。当前,我们身处以人工智能为核心驱动力量的新一轮科技革命和产业变革大潮,人工智能正在将人类社会带入智能时代。
百度是国内投入最早、技术最强、布局最完整的AI领军企业,在AI技术领域保持领先优势,并积极建设人工智能开源开放平台,推动应用落地,促进产业智能化的发展。百度人工智能技术多年积累和业务实践的集大成——百度大脑布局完整,核心技术领先,既有基础的算法、数据和算力,也有语音、视觉、AR/VR 等感知技术,自然语言处理、知识图谱等语言与知识技术,还包括开源开放、支持产业应用的AI平台与生态,并打造了完整的AI安全防护体系。
近年来,在数据、算法和算力三要素的共同作用下,人工智能技术取得巨大进步,尤其是深度学习领域突破显著。
语音识别的准确率不断提升,在很多场景中已经超过人类。百度今年实现了注意力模型在大规模线上语音识别系统中的应用,同时准确率进一步提升。该技术应用于智能音箱和语音输入法等产品,实现高精准的中英文混合语音识别。
语音合成也取得巨大进展。百度前不久上线的并行WaveRNN模型,解决了WaveNet模型需要大量计算资源的问题,合成效果大幅提升,同时能够满足在线的实时需求。
通过结合端侧的算力,百度领先的语音技术正在发挥越来越大的价值。百度打造了一款针对远场语音交互的芯片“鸿鹄”,按照车规级打造,采用HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW,可实现远场阵列信号的实时处理和高精度低误报语音唤醒,并集成离线语音识别功能,适配车载语音交互、智能家居等各种场景。
计算机视觉技术也越来越实用化,形成适用于不同应用场景的技术矩阵,如文字识别(OCR)、图像处理、人脸/人体识别、图像生成、人机交互等。综合应用语音和视觉技术,机器可以自动合成虚拟形象。百度大脑的虚拟形象自动生成技术,可以对语音信号和视频信号进行识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,自动生成一个虚拟形象。
在认知技术上,百度建立了完整的、包含知识图谱、语言理解、语言生成等在内的语言和知识技术体系,构建了世界上最大的多源异构知识图谱,在包含数亿实体、千亿级事实,能够满足90%用户需求的实体图谱的基础上,针对不同的应用场景和知识形态建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。例如视频理解知识图谱,百度大脑结合视觉、语音和自然语言处理技术解析多模态信息,并与知识图谱的相关实体建立关联,通过计算和推理,得到视频内容的结构化语义表示,从而精确解析一部视频中出现的人物及其关系、音频、事件、主题等信息。
在自然语言处理方面,百度发布了基于知识增强的ERNIE 模型,通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力,在共计16个中英文自然语言处理任务上超越了谷歌BERT和XLNet, 取得了SOTA效果。百度的语言与知识技术已经广泛应用于机器同传、智能写作等产品中。在机器同传领域,百度综合联合词向量解码、语篇翻译模型等新技术,实现高准确、低时延的机器同传,并发布了语音到语音的机器同传系统:DuTongChuan(度同传),翻译效果极具竞争力。
人工智能技术快速发展,离不开算力的支撑。算法持续突破,算力缺口巨大,王海峰认为,这需要算法、计算架构等多方面努力来解决。
百度大脑的AI计算架构,实现了芯片、互联、系统和调度的协同设计和技术创新,并紧密结合百度飞桨(PaddlePaddle)训练与推理框架,提供面向算法优化的极致效率,并做到异构、无感的使用。
王海峰指出,在智能时代,深度学习框架起到承上启下的作用,下接芯片,上承各种应用,是“智能时代的操作系统”。百度打造了中国首个也是目前国内唯一开源开放、功能完备的深度学习平台——百度飞桨。飞桨的核心框架,包括开发、训练和预测,以及涵盖推荐、视觉、自然语言处理、语音等在内的丰富模型库。同时,飞桨提供包括迁移学习、强化学习、自动化网络结构设计、训练可视化工具、弹性深度学习计算、图神经网络等在内的工具组件,以及零基础定制化训练和服务平台EasyDL、一站式实训开发平台AI Studio和端计算模型生成平台EasyEdge等服务平台。飞桨也与浪潮在算力层面进行合作,进一步降低深度学习应用门槛,加速推动产业智能化变革。
基于对中国产业的深度洞察和对中国开发者的理解,飞桨具备五大核心优势:同时支持动态图和静态图的编程,能够兼顾易用性和效率;开源70多个经过真实业务场景验证的官方模型,涵盖视觉、NLP、推荐等 AI核心技术领域;具备适用大规模数据场景的分布式训练能力,从优化算力的角度为深度学习的应用提供支撑;提供包括底层硬件、推理引擎、多种程序设计语言、方案与服务工具在内的端到端全流程部署方案,助力产业开发者实现应用的快速落地。同时,针对没有深度学习技术基础的开发者,百度飞桨提供定制化训练和服务平台EasyDL,让他们可以基于自身业务需求和数据,快速训练定制化AI模型。
以百度飞桨深度学习平台为核心基础,百度大脑实现了AI算法、计算架构和应用场景融合创新,成为“软硬一体AI大生产平台”。在数据和算力的基础上,打通了人工智能产业化应用落地的全部流程,实现了AI技术的标准化、自动化、模块化,助力开发者快速实现应用,带来价值。
转载请标注:我爱技术网——王海峰谈人工智能:语音合成也取得巨大进展