Learning For Lip-Sync Estimation Through Ranking Augmented Contrastive Training
Audio-Visual Representation Learning For Lip-Sync Estimation Through Ranking Augmented Contrastive Training Аудиовизуальное обучение представлений для оценки синхронизации губ с помощью контрастивного обучения, дополненного ранжированием В данном документе представлен новый подход глубокого метрического обучения, разработанный для улучшения моделей оценки синхронизации губ, особенно при оценке различных степеней аудиовизуальной синхронизации в таких приложениях, как производство медиаконтента и его локализация. Традиционные модели синхронизации губ испытывают трудности с частичной синхронизацией, например, в дублированном аудио, поскольку они обучены в основном различать только идеальную синхронизацию от полного отсутствия синхронизации. Чтобы преодолеть это ограничение, авторы предлагают формулировку функции потерь Ranking Supervised Multi-Similarity (RSMS), которая включает приоритет ранжирования как сигнал контроля и использует майнинг сложных примеров. Этот метод позволяет модели эффективно различать идеальную, частичную и полностью несинхронизированную аудио-видео пары, создавая непрерывное и хорошо откалиброванное пространство вложений. Стратегия обучения состоит из трех этапов: начальное контрастивное предварительное обучение, за которым следует точная настройка на основе ранжирования с использованием синтетически сдвинутых синхронизаций и, наконец, точная настройка с использованием реальных примеров дублированного аудио. Эксперименты с реальным дублированным аудио от Netflix демонстрируют, что этот подход значительно превосходит существующие передовые методы в практических сценариях. #СинхронизацияГуб #АудиоВизуальное #ГлубокоеОбучение #МетрическоеОбучение #КонтрастивноеОбучение #Синхронизация #ЛокализацияКонтента #ДублированноеАудио #Netflix #ИИ документ - https://research.netflix.com/publication/audio-visual-representation-learning-for-lip-sync-estimation-through-ranking подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Audio-Visual Representation Learning For Lip-Sync Estimation Through Ranking Augmented Contrastive Training Аудиовизуальное обучение представлений для оценки синхронизации губ с помощью контрастивного обучения, дополненного ранжированием В данном документе представлен новый подход глубокого метрического обучения, разработанный для улучшения моделей оценки синхронизации губ, особенно при оценке различных степеней аудиовизуальной синхронизации в таких приложениях, как производство медиаконтента и его локализация. Традиционные модели синхронизации губ испытывают трудности с частичной синхронизацией, например, в дублированном аудио, поскольку они обучены в основном различать только идеальную синхронизацию от полного отсутствия синхронизации. Чтобы преодолеть это ограничение, авторы предлагают формулировку функции потерь Ranking Supervised Multi-Similarity (RSMS), которая включает приоритет ранжирования как сигнал контроля и использует майнинг сложных примеров. Этот метод позволяет модели эффективно различать идеальную, частичную и полностью несинхронизированную аудио-видео пары, создавая непрерывное и хорошо откалиброванное пространство вложений. Стратегия обучения состоит из трех этапов: начальное контрастивное предварительное обучение, за которым следует точная настройка на основе ранжирования с использованием синтетически сдвинутых синхронизаций и, наконец, точная настройка с использованием реальных примеров дублированного аудио. Эксперименты с реальным дублированным аудио от Netflix демонстрируют, что этот подход значительно превосходит существующие передовые методы в практических сценариях. #СинхронизацияГуб #АудиоВизуальное #ГлубокоеОбучение #МетрическоеОбучение #КонтрастивноеОбучение #Синхронизация #ЛокализацияКонтента #ДублированноеАудио #Netflix #ИИ документ - https://research.netflix.com/publication/audio-visual-representation-learning-for-lip-sync-estimation-through-ranking подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
