网站首页 互联网 重磅!百度CTO王海峰详解语言与知识完整布局 正文

重磅!百度CTO王海峰详解语言与知识完整布局

admin 2020/08/25 互联网 85℃

[db:标签][db:标签]语言理解被誉为“人工智能皇冠上的宝石”,这意味着语言和知识等认知方面的技术突破将进一步推动人工智能的深入发展

8月25日,百度大脑语言与知识技术峰会召开,主题是“掌握知识、理解语言、拥有智慧”。百度首席技术官王海峰发表了主旨演讲,阐释了百度语言和知识技术的发展历史和最新成果,并与业界、学术界和研究界分享了技术和产业发展的趋势和前景。百度集团副总裁吴添和百度技术委员会主席吴华分别发布了百度语言与知识技术系列产品和数据集的共建计划,并推出了5款新产品,以加快人工智能技术的大规模应用。这是一次盛会,体现了百度十年来在语言和知识领域的技术积累和产业实践,必将产生深远的影响。

(百度首席技术官王海峰)

十年:开拓者、深耕者、引领者

语言和知识技术是人工智能认知能力的核心。2010年,百度成立自然语言处理部,在前瞻性技术和产业结构上不断引领和创新,成为中国自然语言处理十年发展的一面旗帜。

在峰会上,王海峰回忆道:“在百度语言和知识技术的布局和发展中,我们始终注重把握两个趋势,即技术发展趋势和行业发展趋势,努力引领潮流。”

从研究方、研究对象、研究方向、工业应用等方面来看百度语言和知识技术的发展历史。布局完整,不断打磨和成熟,始终符合应用的发展趋势和需求,并符合行业。

十年来,百度在脑语言和知识技术方面取得了丰硕的成果,获得了包括国家科技进步奖在内的20多个奖项,30多个国际竞赛冠军,发表了300多篇学术论文,申请了2000多项专利。技术在不断突破和创新的同时,也在不断创新和探索产品,同时向开发者合作伙伴输出领先的技术,提升各行业的智能水平。

全面分享语言与知识技术成果

王海峰充分分享了百度语言和知识技术的完整布局和最新成果。

首先,知识地图是机器认识世界的重要基础。百度创造了世界上最大的知识地图,拥有超过50亿个实体和5500亿个事实,它们在不断发展和更新。百度知识地图应用于各行各业,每天有超过400亿次的通话。

其次,在整合知识的基础上,语言理解能力不断提高。2019年3月,百度提出了ERNIE,这是一个用于知识增强的语义理解框架,它在深度学习的基础上整合知识,具有持续学习的能力。百度一度高居全球权威数据集GLUE的榜首,首次突破90大关,刷新了榜单历史。它以知识地图和语义表征为基础,突破了阅读理解、对话理解和跨模态深层语义理解。

第三,语言生成是语言和知识技术的重要组成部分。基于预训练技术的成功经验,百度提出了一种基于多流机制的语言生成预训练技术,该技术考虑了词和短语等不同粒度的语义信息,显著提高了生成效果。百度还探索了多文档摘要的生成,并通过图结构的语义表示引入章节知识,提高了单文档和多文档摘要的生成效果。

在应用系统层面,对话系统和机器翻译在《等待结果》中表现突出。百度提出了知识地图驱动的对话控制技术和第一个基于隐藏空间的大规模开放领域对话模型柏拉图(PLATO),并推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现大规模应用。百度翻译支持超过

王海峰首次发布百度大脑语言和知识产品全景图。百度集团副总裁吴添先后发布了三款新产品,即语义理解技术和平台文心、智能文档分析平台文本思维和人工智能同步会议解决方案,还发布了六个升级版,包括三个智能创意平台场景和三个智能对话定制和服务平台单元新升级版。

(百度集团副总裁吴添)

吴添表示:“我们一直致力于将语言和知识技术浓缩为一系列技术平台和产品,在应用中创造大量价值,并为开发者和行业从业者提供一系列由语言和知识技术驱动的产品。”

百度的语义理解技术和平台基于深度学习平台,依托领先的语义理解核心技术,整合优秀的预训练模型、全面的自然语言处理算法集、端到端开发工具包和平台,提供一站式自然语言处理开发和服务,让开发人员可以更加简单高效地定制企业自然语言处理模型。文心经历了很多实际应用场景,具有优秀的工业级登陆实力。

新发布的智能文档分析平台TextMind以OCR和NLP技术为基础,以文档分析为核心能力,支持文档比较和文档审查,以“多快多经济”为核心优势,推动企业办公智能升级。

百度大脑智能创作平台对媒体应用场景进行了升级,推出了三个新的媒体场景方案:智能规划、智能编辑和智能校对,进一步帮助媒体人创作得更快更好,可谓触及了媒体人的“痛点”。

智能对话定制和服务平台UNIT升级有三个特点:更智能的基于任务的对话理解,极其方便的形式问答,以及集成通用的新型对话引擎。新升级的UNIT三大功能将进一步降低基于任务的对话和智能问答的定制成本,整合通用对话功能,提升互动体验。

新发布的人工智能同声传译会议解决方案涵盖了会议的整个场景和过程,旨在为用户打造一个“会议同声传译专家”。吴添向我们展示了如何只用一台电脑和一部手机快速建立一套同声传译服务。只需轻点鼠标和几个字,您就可以快速获得专业的同声传译服务。

数据的缺乏和计算能力的不足一直是语言和知识技术研发的瓶颈。为了突破这一瓶颈,百度与中国计算机联合会和中国信息学会联合推出了一个3335.4万字的中文自然语言处理数据共建计划,以解决数据稀缺问题。颜倩的第一阶段由中国11所大学和企业的数据资源开发商共同建设,涵盖了开放领域对话和阅读理解等7项主要任务,以及20多个中国开源数据集。

百度技术委员会主席吴华表示:“今后,我们希望更多的数据集作者能够参与到成千上万字的建设中来,共同推动中文信息处理技术的进步,打造中文信息处理在全球的影响力。”我们计划在未来三年收集和建立不少于100个中文自然语言处理数据集,用于20多项任务,涵盖语言和知识技术的所有领域。”

(百度技术委员会主席吴华(中)、中国信息学会副会长兼秘书长孙乐(左)、中国计算机联合会自然语言处理委员会主任周(右)正式启动千字工程)

吴华还发布了百度语言和知识技术计算能力共享计划,通过百度AI STUDIO平台提供计算能力支持,让开发者突破计算能力的束缚,专注于技术创新

在十年的历程中,百度在语言和知识技术的发展过程中,培养和吸引了一大批世界顶尖人才。会上,百度推出了以王海峰为代表的百度NLP“十年十人”,十年如一日,不要忘记你的首创精神,坚持“以人为本”

正如王海峰所说:“我们致力于更好地与学术界和工业界合作,推动语言和知识技术的发展,进而推动人工智能技术的不断进步,从而提升工业智能,发展高质量的社会经济。”我们对未来充满信心,坚持研发,让机器掌握知识,懂语言,有智慧,不断突破创新,为科技进步和社会进步做出更大贡献。”

网站地图