能「说」会「画」，阿里小蜜多模态问答的探索及实践

所属专题：人工智能与机器学习

嘉宾 : 赵中州 | 阿里巴巴算法专家、小蜜机器阅读与 VQA 团队 Team Leader

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾：赵中州

阿里巴巴算法专家、小蜜机器阅读与 VQA 团队 Team Leader

赵中州，哈工大本硕，2014 年毕业后加入阿里，现为达摩院小蜜阅读理解与多模态问答技术负责人。专注于自然语言理解及智能人机交互领域的算法研究和业务落地，作为核心骨干搭建了阿里小蜜、店小蜜、企业小蜜等小蜜问答体系，并带领团队从 0 到 1 构建了图文问答能力，实现机器阅读从单点技术到体系化平台的演进，以技术升级对话交互体验；沉淀多篇顶会期刊论文与相关专利，涉及对话理解、VQA、跨模态匹配、知识推理、迁移学习等方向。

议题介绍

地点：第二会议厅A

所属专题：人工智能与机器学习

演讲：能「说」会「画」，阿里小蜜多模态问答的探索及实践

以阿里小蜜为代表的对话式 AI 已应用在购物、办事、助理等多个场景，但目前的问答系统主要依赖于人工知识库的构建，配置成本高且覆盖有效，同时以文字为主的答案表现也不直观。在电商问答场景中，详情图片和 PDF 说明书里有大量信息，如何打通内容和服务，减轻配置成本同时保证体验？这驱动小蜜对多模态问答能力进行了探索。在落地过程中，除了文本和图片跨模态匹配，还需要考虑图片裁切、图文召回、内容呈现等环节，以及海量商品和大促高峰带来的服务延时与吞吐量优化问题。围绕着对话式多模态交互场景，我们沉淀了一套接入快速、效果精准和迭代自动化的图文问答解决方案，横向支撑了店小蜜、盒马小蜜等多个业务场景。本次分享将结合业务落地与学术探索，梳理多模态交互中的挑战、方案及实施路径。