近年来,文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而,在光学字符识别 (OCR) 任务中,将文本实例与图像中的对应文本区域对齐存在挑战,因为这不仅需要对图像整体内容的理解,更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题,论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格,从而实现文本与 OCR-Text 之间更好的对齐,使预训练模型能够适应复杂多样的场景文本检测和识别任务。
此外,论文中还为 ODM 设计了一种新的标注生成方法,并结合提出的 Text-Controller 模块,解决了 OCR 任务中高昂的标注成本问题,使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明,该方法大幅提升了性能,并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。
#OCR #论文
https://levix.notion.site/ODM-ODM-A-Text-Image-Further-Alignment-Pre-training-Approach-for-Scene-46d3432530f94a1da5c8e074becc3eed?pvs=74
此外,论文中还为 ODM 设计了一种新的标注生成方法,并结合提出的 Text-Controller 模块,解决了 OCR 任务中高昂的标注成本问题,使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明,该方法大幅提升了性能,并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。
#OCR #论文
https://levix.notion.site/ODM-ODM-A-Text-Image-Further-Alignment-Pre-training-Approach-for-Scene-46d3432530f94a1da5c8e074becc3eed?pvs=74