能「说」会「画」, 阿里小蜜多模态问答的探索及实践

所属专题:人工智能与机器学习

嘉宾 : 赵中州 | 阿里巴巴算法专家、小蜜机器阅读与 VQA 团队 Team Leader

讲师介绍

专题演讲嘉宾:赵中州

阿里巴巴算法专家、小蜜机器阅读与 VQA 团队 Team Leader

赵中州,哈工大本硕,2014 年毕业后加入阿里,现为达摩院小蜜阅读理解与多模态问答技术负责人。专注于自然语言理解及智能人机交互领域的算法研究和业务落地,作为核心骨干搭建了阿里小蜜、店小蜜、企业小蜜等小蜜问答体系,并带领团队从 0 到 1 构建了图文问答能力,实现机器阅读从单点技术到体系化平台的演进,以技术升级对话交互体验;沉淀多篇顶会期刊论文与相关专利,涉及对话理解、VQA、跨模态匹配、知识推理、迁移学习等方向。

议题介绍

演讲:能「说」会「画」, 阿里小蜜多模态问答的探索及实践

以阿里小蜜为代表的对话式 AI 已应用在购物、办事、助理等多个场景,但目前的问答系统主要依赖于人工知识库的构建,配置成本高且覆盖有效,同时以文字为主的答案表现也不直观。在电商问答场景中,详情图片和 PDF 说明书里有大量信息,如何打通内容和服务,减轻配置成本同时保证体验?这驱动小蜜对多模态问答能力进行了探索。在落地过程中,除了文本和图片跨模态匹配,还需要考虑图片裁切、图文召回、内容呈现等环节,以及海量商品和大促高峰带来的服务延时与吞吐量优化问题。围绕着对话式多模态交互场景,我们沉淀了一套接入快速、效果精准和迭代自动化的图文问答解决方案,横向支撑了店小蜜、盒马小蜜等多个业务场景。本次分享将结合业务落地与学术探索,梳理多模态交互中的挑战、方案及实施路径。

内容大纲

1. 业务背景与典型场景

  • 阿里小蜜问答平台介绍
  • 智能服务之痛
  • 多模态交互       

2. 小蜜中多模态问答挑战与应用

  • 技术挑战             
  • 学术研究中的 VQA
  • 应用场景 & 技术方案
  • 多模态能力大图 & 处理流程

3. 总结与展望

  • 多模态统一路径
  • 面向多模态的技术准备(Take-away message)
  • 多模态交互的未来方向

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-17310043226