当前位置:主页 > 军事 > 正文

王海峰谈人工智能:语音合成也取得巨大进展

时间:2019-08-29 03:28 来源:江苏快三 编辑:http://xnylkjc.com

核心提示

算力是AI发展的重要基础。8月27-28日,由中国工程院信息与电子工程学部主办的AICC 2019人工智能计算大会上,与会嘉宾...

  算力是AI发展的重要基础。8月27-28日,由中国工程院信息与电子工程学部主办的AICC 2019人工智能计算大会上,与会嘉宾就AI计算和AI创新展开了探讨。百度首席技术官王海峰发表题为《人工智能加速产业智能化升级》的演讲,分享了百度对于AI计算发展的洞察,并介绍百度AI在算力、算法等层面的最新进展和助力产业智能化的成果。

王海峰谈人工智能:语音合成也取得巨大进展

  王海峰表示,迄今为止人类经历的三次工业革命,分别以机械技术、电气技术和信息技术为核心驱动力,而这些技术都表现出很强的通用性。当前,我们身处以人工智能为核心驱动力量的新一轮科技革命和产业变革大潮,人工智能正在将人类社会带入智能时代。

  百度是国内投入最早、技术最强、布局最完整的AI领军企业,在AI技术领域保持领先优势,并积极建设人工智能开源开放平台,推动应用落地,促进产业智能化的发展。百度人工智能技术多年积累和业务实践的集大成——百度大脑布局完整,核心技术领先,既有基础的算法、数据和算力,也有语音、视觉、AR/VR 等感知技术,自然语言处理、知识图谱等语言与知识技术,还包括开源开放、支持产业应用的AI平台与生态,并打造了完整的AI安全防护体系。

图片包含 天空, 监视器, 蓝色  描述已自动生成

  近年来,在数据、算法和算力三要素的共同作用下,人工智能技术取得巨大进步,尤其是深度学习领域突破显著。

  语音识别的准确率不断提升,在很多场景中已经超过人类。百度今年实现了注意力模型在大规模线上语音识别系统中的应用,同时准确率进一步提升。该技术应用于智能音箱和语音输入法等产品,实现高精准的中英文混合语音识别。

  语音合成也取得巨大进展。百度前不久上线的并行WaveRNN模型,解决了WaveNet模型需要大量计算资源的问题,合成效果大幅提升,同时能够满足在线的实时需求。

  通过结合端侧的算力,百度领先的语音技术正在发挥越来越大的价值。百度打造了一款针对远场语音交互的芯片“鸿鹄”,按照车规级打造,采用HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW,可实现远场阵列信号的实时处理和高精度低误报语音唤醒,并集成离线语音识别功能,适配车载语音交互、智能家居等各种场景。

  计算机视觉技术也越来越实用化,形成适用于不同应用场景的技术矩阵,如文字识别(OCR)、图像处理、人脸/人体识别、图像生成、人机交互等。综合应用语音和视觉技术,机器可以自动合成虚拟形象。百度大脑的虚拟形象自动生成技术,可以对语音信号和视频信号进行识别与理解,再通过唇动生成,以及语音、面部和肢体的合成,自动生成一个虚拟形象。

  在认知技术上,百度建立了完整的、包含知识图谱、语言理解、语言生成等在内的语言和知识技术体系,构建了世界上最大的多源异构知识图谱,在包含数亿实体、千亿级事实,能够满足90%用户需求的实体图谱的基础上,针对不同的应用场景和知识形态建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱。例如视频理解知识图谱,百度大脑结合视觉、语音和自然语言处理技术解析多模态信息,并与知识图谱的相关实体建立关联,通过计算和推理,得到视频内容的结构化语义表示,从而精确解析一部视频中出现的人物及其关系、音频、事件、主题等信息。

  在自然语言处理方面,百度发布了基于知识增强的ERNIE 模型,通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力,在共计16个中英文自然语言处理任务上超越了谷歌BERT和XLNet, 取得了SOTA效果。百度的语言与知识技术已经广泛应用于机器同传、智能写作等产品中。在机器同传领域,百度综合联合词向量解码、语篇翻译模型等新技术,实现高准确、低时延的机器同传,并发布了语音到语音的机器同传系统:DuTongChuan(度同传),翻译效果极具竞争力。

  人工智能技术快速发展,离不开算力的支撑。算法持续突破,算力缺口巨大,王海峰认为,这需要算法、计算架构等多方面努力来解决。