DeepSeek-OCR 2: Visual Causal Flow
DeepSeek-OCR 2: Визуальный Причинный Поток DeepSeek-OCR 2 представляет новый кодировщик DeepEncoder V2, разработанный для преодоления ограничений традиционных моделей «зрение-язык» (VLM), которые жестко обрабатывают визуальные токены в растровом порядке. Вдохновленный человеческим зрительным восприятием, следующим гибким и семантически связным шаблонам сканирования, DeepEncoder V2 обеспечивает динамическое переупорядочивание визуальных токенов на основе семантики изображения. Эта новая архитектура наделяет кодировщик возможностями причинно-следственного рассуждения, приближаясь к более человекоподобному визуальному пониманию сложных 2D-данных, таких как документы. Ключевые инновации включают замену компонента CLIP компактной архитектурой LLM и введение обучаемых «запросов причинно-следственного потока» для прогрессивного переупорядочивания. Настраиваемая маска внимания позволяет визуальным токенам сохранять глобальные рецептивные поля, в то время как токены причинно-следственного потока получают способность переупорядочивать визуальную информацию. DeepSeek-OCR 2, используя DeepEncoder V2, достигает значительного улучшения производительности, в частности прироста на 3.73% на OmniDocBench v1.5, при сохранении эффективности. Исследование подтверждает целесообразность использования архитектур языковых моделей в качестве кодировщиков VLM, открывая путь к унифицированному омнимодальному кодированию и использованию оптимизаций инфраструктуры LLM. Проект сосредоточен на чтении документов как основной испытательной площадке из-за их внутренней причинно-следственной визуальной логики и сложных проблем макета. Код и веса модели DeepSeek-OCR 2 общедоступны. #DeepSeekOCR2 #ВизуальныйПричинныйПоток #DeepEncoderV2 #VLM #ПониманиеДокументов #ПричинноеРассуждение #ИИ документ - https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
DeepSeek-OCR 2: Визуальный Причинный Поток DeepSeek-OCR 2 представляет новый кодировщик DeepEncoder V2, разработанный для преодоления ограничений традиционных моделей «зрение-язык» (VLM), которые жестко обрабатывают визуальные токены в растровом порядке. Вдохновленный человеческим зрительным восприятием, следующим гибким и семантически связным шаблонам сканирования, DeepEncoder V2 обеспечивает динамическое переупорядочивание визуальных токенов на основе семантики изображения. Эта новая архитектура наделяет кодировщик возможностями причинно-следственного рассуждения, приближаясь к более человекоподобному визуальному пониманию сложных 2D-данных, таких как документы. Ключевые инновации включают замену компонента CLIP компактной архитектурой LLM и введение обучаемых «запросов причинно-следственного потока» для прогрессивного переупорядочивания. Настраиваемая маска внимания позволяет визуальным токенам сохранять глобальные рецептивные поля, в то время как токены причинно-следственного потока получают способность переупорядочивать визуальную информацию. DeepSeek-OCR 2, используя DeepEncoder V2, достигает значительного улучшения производительности, в частности прироста на 3.73% на OmniDocBench v1.5, при сохранении эффективности. Исследование подтверждает целесообразность использования архитектур языковых моделей в качестве кодировщиков VLM, открывая путь к унифицированному омнимодальному кодированию и использованию оптимизаций инфраструктуры LLM. Проект сосредоточен на чтении документов как основной испытательной площадке из-за их внутренней причинно-следственной визуальной логики и сложных проблем макета. Код и веса модели DeepSeek-OCR 2 общедоступны. #DeepSeekOCR2 #ВизуальныйПричинныйПоток #DeepEncoderV2 #VLM #ПониманиеДокументов #ПричинноеРассуждение #ИИ документ - https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
