TGStat
TGStat
Type to search
Advanced channel search
  • flag English
    Site language
    flag Russian flag English flag Uzbek
  • Sign In
  • Catalog
    Channels and groups catalog Search for channels
    Add a channel/group
  • Ratings
    Rating of channels Rating of groups Posts rating
    Ratings of brands and people
  • Analytics
  • Search by posts
  • Telegram monitoring
Levix 空间站

20 Jun 2024, 04:00

Open in Telegram Share Report

近年来,文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而,在光学字符识别 (OCR) 任务中,将文本实例与图像中的对应文本区域对齐存在挑战,因为这不仅需要对图像整体内容的理解,更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题,论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格,从而实现文本与 OCR-Text 之间更好的对齐,使预训练模型能够适应复杂多样的场景文本检测和识别任务。

此外,论文中还为 ODM 设计了一种新的标注生成方法,并结合提出的 Text-Controller 模块,解决了 OCR 任务中高昂的标注成本问题,使更多未标注的数据可以用于预训练。大量公共数据集上的广泛实验表明,该方法大幅提升了性能,并在场景文本检测和识别任务中超越了现有的预训练方法。代码可在 ODM 获取。

#OCR #论文

https://levix.notion.site/ODM-ODM-A-Text-Image-Further-Alignment-Pre-training-Approach-for-Scene-46d3432530f94a1da5c8e074becc3eed?pvs=74
ODM:一种用于场景文本检测和识别的文本和图像对齐预训练方法 - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting | Notion
近年来,文本与图像的联合预训练技术在各种任务中显示出了良好的效果。然而,在光学字符识别 (OCR) 任务中,将文本实例与图像中的对应文本区域对齐存在挑战,因为这不仅需要对图像整体内容的理解,更需要对文本与 OCR-Text (图像中的文本) 的有效对齐。为解决这一问题,论文提出了一种新的预训练方法——OCR-Text 去风格化建模 (ODM)。ODM 方法将图像中不同风格的文本统一为一种风格,从而实现文本与 OCR-Text 之间更好的对齐,使预训练模型能够适应复杂多样的场景文本检测和识别任务。

148 0 1
Catalog
Channels and groups catalog Channels compilations Search for channels Add a channel/group
Ratings
Rating of Telegram channels Rating of Telegram groups Posts rating Ratings of brands and people
API
API statistics Search API of posts API Callback
Our channels
@TGStat @TGStat_Chat @telepulse @TGStatAPI
Read
Академия TGStat Telegram Research 2019 Telegram Research 2021 Telegram Research 2023
Contacts
Справочный центр Support Email Jobs
Miscellaneous
Terms and conditions Privacy policy Public offer
Our bots
@TGStat_Bot @SearcheeBot @TGAlertsBot @tg_analytics_bot @TGStatChatBot