将识别率从 95% 提升到 99%,贝壳找房 OCR 实战

所属专题:人工智能与机器学习

嘉宾 : 郭流芳 | 贝壳找房交易智能技术负责人

会议室 : 第二会议厅A

讲师介绍

专题演讲嘉宾:郭流芳

贝壳找房交易智能技术负责人

郭流芳,贝壳找房交易智能技术负责人。硕士毕业于中国矿业大学(北京),研究领域为图像处理,从事人工智能工作5年。现为贝壳找房交易智能技术负责人。从零到优构建了贝壳找房交易 OCR 技术体系,抽象总结了票据卡证类的 Uni-iMatch 解决方案和 ASLS 自学习系统,备件识别精度处于行业领先水平。团队著有《深度学习 PyTorch 实战——图像技术在 OCR 上的应用》一书,将于今年面世。

议题介绍

演讲:将识别率从 95% 提升到 99%,贝壳找房 OCR 实战

图像处理技术是目前人工智能发展最为迅猛的领域,而贝壳找房又是以技术驱动的品质居住服务平台,积累和沉淀了大量的交易数据,场景+数据+算法,贝壳交易智能围绕以房产证识别为核心 OCR 技术架构也在落地实践中逐步建立起来。

本次分享我将重点介绍 OCR 技术的一般流程、各个环节遇到的实际问题以及整个技术架构的变迁,贝壳交易智能是如何通过一个一个技术点的突破,使识别率从无到有,从 95% 到 99% 的。还将介绍下基于业务演进打造的 Uni-iMatch 和 ASLS 系统。

内容大纲

1. 了解贝壳 OCR 能力的三⼤⽅向

  • 房产备件票据卡证类现状
  • 房产合同 IM 类通⽤用文本识别现状
  • 房产征信报告表单类通⽤表格识别现状

2. ⻉壳 OCR 识别的⼀般流程

  • 分类+摆正+检测+识别+结构化+NLP

3. 分类遇到的问题

  • 样本量小,正负类别分布不均

4. 摆正遇到的问题

  • 通⽤摆正的正确率的问题及相应的兜底策略

5. 检测遇到的问题

  • 倾斜和弯曲

6. 识别遇到的问题

  • 分类&序列
  • 形近字和⽣僻字如何处理 

7. 结构化

  • 从位置匹配到⾃定义模版技术
  • 再到深度学习位置关系 

8. 工程化进展

  • 模型裁剪
  • model version 控制

听众收益

1. 了解 OCR 技术的整体架构

  • 分类+摆正+检测+识别+结构化

2. 基本图像技术如何和具体的业务结合

  • VGG16+ 传统特征提⾼摆正准确性
  • DenseNet 的卷积处理,提高识别鲁棒性
  • AdaVancedEAST,更改起始点和终结点,提⾼ IoU
  • Attention 在解码中的应⽤用

3. 形近字和⽣僻字从技术和工程两个角度如何改进

  • 如何增加更加有效的特征
  • GAN 合成数据的冷启动,配合⼯程数据回流,打造自学习闭环

适合人群

图像分类、图像检测等图像处理相关从业技术人员。

 

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86 17310043226