Добавить
Уведомления

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

PaddleOCR-VL: Ускорение многоязычного анализа документов с помощью ультракомпактной визуально-языковой модели 0.9B В этом документе представлена PaddleOCR-VL — передовая и ресурсоэффективная модель, разработанная для многоязычного анализа документов. Ее основным компонентом является PaddleOCR-VL-0.9B, компактная, но мощная визуально-языковая модель (VLM), которая интегрирует визуальный кодировщик с динамическим разрешением в стиле NaViT с легковесной языковой моделью ERNIE-4.5-0.3B. Эта архитектура значительно улучшает распознавание плотного текста и эффективность декодирования, позволяя модели поддерживать 109 языков и отлично распознавать сложные элементы, такие как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. PaddleOCR-VL использует двухэтапный подход: сначала выполняет обнаружение макета и предсказание порядка чтения, а затем передает сегментированные элементы в VLM для распознавания. Всесторонние оценки подтверждают ее передовую производительность как на уровне страницы, так и на уровне элементов, превосходя существующие решения и успешно конкурируя с ведущими VLM. Модель отличается высокой скоростью вывода и низкими затратами на обучение, что делает ее очень подходящей для практического внедрения, особенно в условиях ограниченных ресурсов. Для обеспечения стабильной работы был разработан высококачественный конвейер создания обучающих данных, использующий более 30 миллионов образцов, промпт-инжиниринг и автоматическую разметку. #PaddleOCR #ВизуальноЯзыковаяМодель #АнализДокументов #МногоязычныйИИ #Ресурсоэффективность #SOTA #ГлубокоеОбучение #OCR #ИИИсследования #Байду документ - https://arxiv.org/pdf/2510.14528 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
4 подписчика
12+
3 просмотра
месяц назад
12+
3 просмотра
месяц назад

PaddleOCR-VL: Ускорение многоязычного анализа документов с помощью ультракомпактной визуально-языковой модели 0.9B В этом документе представлена PaddleOCR-VL — передовая и ресурсоэффективная модель, разработанная для многоязычного анализа документов. Ее основным компонентом является PaddleOCR-VL-0.9B, компактная, но мощная визуально-языковая модель (VLM), которая интегрирует визуальный кодировщик с динамическим разрешением в стиле NaViT с легковесной языковой моделью ERNIE-4.5-0.3B. Эта архитектура значительно улучшает распознавание плотного текста и эффективность декодирования, позволяя модели поддерживать 109 языков и отлично распознавать сложные элементы, такие как текст, таблицы, формулы и диаграммы, при минимальном потреблении ресурсов. PaddleOCR-VL использует двухэтапный подход: сначала выполняет обнаружение макета и предсказание порядка чтения, а затем передает сегментированные элементы в VLM для распознавания. Всесторонние оценки подтверждают ее передовую производительность как на уровне страницы, так и на уровне элементов, превосходя существующие решения и успешно конкурируя с ведущими VLM. Модель отличается высокой скоростью вывода и низкими затратами на обучение, что делает ее очень подходящей для практического внедрения, особенно в условиях ограниченных ресурсов. Для обеспечения стабильной работы был разработан высококачественный конвейер создания обучающих данных, использующий более 30 миллионов образцов, промпт-инжиниринг и автоматическую разметку. #PaddleOCR #ВизуальноЯзыковаяМодель #АнализДокументов #МногоязычныйИИ #Ресурсоэффективность #SOTA #ГлубокоеОбучение #OCR #ИИИсследования #Байду документ - https://arxiv.org/pdf/2510.14528 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии