赵中州,哈工大本硕,2014 年毕业后加入阿里,现为达摩院小蜜阅读理解与多模态问答技术负责人。专注于自然语言理解及智能人机交互领域的算法研究和业务落地,作为核心骨干搭建了阿里小蜜、店小蜜、企业小蜜等小蜜问答体系,并带领团队从 0 到 1 构建了图文问答能力,实现机器阅读从单点技术到体系化平台的演进,以技术升级对话交互体验;沉淀多篇顶会期刊论文与相关专利,涉及对话理解、VQA、跨模态匹配、知识推理、迁移学习等方向。
赵中州,哈工大本硕,2014 年毕业后加入阿里,现为达摩院小蜜阅读理解与多模态问答技术负责人。专注于自然语言理解及智能人机交互领域的算法研究和业务落地,作为核心骨干搭建了阿里小蜜、店小蜜、企业小蜜等小蜜问答体系,并带领团队从 0 到 1 构建了图文问答能力,实现机器阅读从单点技术到体系化平台的演进,以技术升级对话交互体验;沉淀多篇顶会期刊论文与相关专利,涉及对话理解、VQA、跨模态匹配、知识推理、迁移学习等方向。
以阿里小蜜为代表的对话式 AI 已应用在购物、办事、助理等多个场景,但目前的问答系统主要依赖于人工知识库的构建,配置成本高且覆盖有效,同时以文字为主的答案表现也不直观。在电商问答场景中,详情图片和 PDF 说明书里有大量信息,如何打通内容和服务,减轻配置成本同时保证体验?这驱动小蜜对多模态问答能力进行了探索。在落地过程中,除了文本和图片跨模态匹配,还需要考虑图片裁切、图文召回、内容呈现等环节,以及海量商品和大促高峰带来的服务延时与吞吐量优化问题。围绕着对话式多模态交互场景,我们沉淀了一套接入快速、效果精准和迭代自动化的图文问答解决方案,横向支撑了店小蜜、盒马小蜜等多个业务场景。本次分享将结合业务落地与学术探索,梳理多模态交互中的挑战、方案及实施路径。
1. 业务背景与典型场景
2. 小蜜中多模态问答挑战与应用
3. 总结与展望