Post #723 — Levix 空间站 (@synctoai)

TGStat

Type to search

Advanced channel search

English

Site language

Russian English Uzbek
Sign In

Catalog

Channels and groups catalog Search for channels
Add a channel/group
Ratings

Rating of channels Rating of groups Posts rating
Ratings of brands and people
Analytics
Search by posts
Telegram monitoring

Levix 空间站

20 Jun 2024, 04:00

Open in Telegram Share Report

近年来，文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而，在光学字符识别 (OCR) 任务中，将文本实例与图像中的对应文本区域对齐存在挑战，因为这不仅需要对图像整体内容的理解，更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题，论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格，从而实现文本与 OCR-Text 之间更好的对齐，使预训练模型能够适应复杂多样的场景文本检测和识别任务。

此外，论文中还为 ODM 设计了一种新的标注生成方法，并结合提出的 Text-Controller 模块，解决了 OCR 任务中高昂的标注成本问题，使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明，该方法大幅提升了性能，并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。

#OCR #论文

https://levix.notion.site/ODM-ODM-A-Text-Image-Further-Alignment-Pre-training-Approach-for-Scene-46d3432530f94a1da5c8e074becc3eed?pvs=74

ODM：一种用于场景文本检测和识别的文本和图像对齐预训练方法 - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting | Notion

近年来，文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而，在光学字符识别 (OCR) 任务中，将文本实例与图像中的对应文本区域对齐存在挑战，因为这不仅需要对图像整体内容的理解，更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题，论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格，从而实现文本与 OCR-Text 之间更好的对齐，使预训练模型能够适应复杂多样的场景文本检测和识别任务。

148 0 1

Catalog

Channels and groups catalog Channels compilations Search for channels Add a channel/group

Ratings

Rating of Telegram channels Rating of Telegram groups Posts rating Ratings of brands and people

API

API statistics Search API of posts API Callback

Our channels

@TGStat @TGStat_Chat @telepulse @TGStatAPI

Read