概述

OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。

文字检测数据集摘要

daaset语言体量特色MTWI中英文20k源于网络图像,主要由合成图像,产品描述,网络广告(淘宝)MSRA-TD500中英文SynthText800k img + 8000k text合成数据CTW1500中文32k野外场景ICDAR 2015ICDAR 2019-ReCTS中文标识牌上的文字(店铺名等)ICDAR2019-ArT中英文组合Total-Text+SCUT-CTW1500+Baidu Curved Scene TextICDAR2019-LSVT中英文30k full annotation + 40k weakly annotationLarge-scale Street View Text with Partial Labeling,ICDAR2017-DeTextText Extraction from Biomedical Literature Figures, 生物医学文献图形中的文本提取ICDAR 2011 (Born-Digital Images)、ICDAR 2017英文CurvedSynText150k英文Total-Text英文+少量中文1.5k各种形状的文本,包括水平的,多取向的和弯曲的Lecture Video DBIMGURhandwritingKAISTILST印度语言三种印度语言(Devanagari 、 Telugu 和Malayalam)的场景文本识别数据集VinTextBID巴西身份证件数据集RCTW12k+手机野外拍摄,包括街景、海报、菜单、室内场景以及手机应用的截图HierText (Google)英文自然图像或者文献

OCR方法

前沿text spotter方法

PSENet、PAN、PAN++(PAMI 2021)DeepSolo (CVPR2023)

方法框架

mmocr: 集成方法并不是最新的(2022年以前的),其中预训练方法只支持英文,文字检测方法还可以检测出中文,文字识别无法识别中文,text spotter尚未介入到统一的接口中。

Github high star

tesseract(57.7k star):大概率是文字识别模型,C/C++,提供command line tool。PaddleOCR(38.1k star): 80+ language support。提供轻量化、提供在线demo(后面有测试),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。EasyOCR(21.8k star): pytorch based,文字检测基于CRAFT,识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在线DEMO。tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。UniOCR (20.6k star): 提供一个界面。OCRmyPDF (11.8k star): 解析pdf图片,基于tesseract。

PaddleOCR(PP-OCRv4)测试图如下

(1)弧形分布文字检测和识别都不准 (2) 放大了也识别不出来,应该和training data相关

Reference

https://mmocr.readthedocs.io/en/dev-1.x/

相关文章

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。