TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models
TP-Blend: Сопоставление внимания на основе текстовых подсказок для точного смешивания объектов и стилей в диффузионных моделях Документ представляет TP-Blend, инновационную, не требующую обучения архитектуру, разработанную для решения проблем одновременного внедрения новых объектов и стилей в текстово-обусловленных диффузионных моделях. Существующие методы часто испытывают трудности с точным смешиванием объектов и детальной передачей стиля, особенно в сохранении высокочастотных текстурных деталей. TP-Blend преодолевает эти ограничения, используя две отдельные текстовые подсказки: одну для смешиваемого объекта и другую для целевого стиля, внедряя обе в единый процесс денойзинга. Архитектура включает два основных компонента: Слияние объектов перекрестного внимания (CAOF) и Слияние стилей самовнимания (SASF). CAOF использует проблему оптимальной транспортировки для интеграции признаков смешиваемого объекта для бесшовных морфологических переходов, в то время как SASF внедряет сложный стиль на уровне мазков кисти с помощью нормировки экземпляров, чувствительной к деталям, и контекстно-ориентированной замены матриц Key/Value. Этот механизм двойных подсказок обеспечивает точное представление содержимого и достоверную передачу стиля без помех, предлагая детальный контроль над силой смешивания и текстурой. Обширные эксперименты показывают, что TP-Blend генерирует высококачественные фотореалистичные изменения с превосходной количественной точностью, воспринимаемым качеством и скоростью инференса по сравнению с недавними базовыми моделями. Его способность объединять замену объектов, смешивание и передачу стиля в одном процессе повышает управляемость без дополнительных вычислительных затрат. #TPBlend #ДиффузионныеМодели #СмешиваниеОбъектовИСтилей #ТекстовоеРедактированиеИзображений #РедактированиеИзображений #ИИ #ГлубокоеОбучение #ГенеративныйИИ #ПередачаСтиля #СлияниеОбъектов документ - https://arxiv.org/pdf/2601.08011v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
TP-Blend: Сопоставление внимания на основе текстовых подсказок для точного смешивания объектов и стилей в диффузионных моделях Документ представляет TP-Blend, инновационную, не требующую обучения архитектуру, разработанную для решения проблем одновременного внедрения новых объектов и стилей в текстово-обусловленных диффузионных моделях. Существующие методы часто испытывают трудности с точным смешиванием объектов и детальной передачей стиля, особенно в сохранении высокочастотных текстурных деталей. TP-Blend преодолевает эти ограничения, используя две отдельные текстовые подсказки: одну для смешиваемого объекта и другую для целевого стиля, внедряя обе в единый процесс денойзинга. Архитектура включает два основных компонента: Слияние объектов перекрестного внимания (CAOF) и Слияние стилей самовнимания (SASF). CAOF использует проблему оптимальной транспортировки для интеграции признаков смешиваемого объекта для бесшовных морфологических переходов, в то время как SASF внедряет сложный стиль на уровне мазков кисти с помощью нормировки экземпляров, чувствительной к деталям, и контекстно-ориентированной замены матриц Key/Value. Этот механизм двойных подсказок обеспечивает точное представление содержимого и достоверную передачу стиля без помех, предлагая детальный контроль над силой смешивания и текстурой. Обширные эксперименты показывают, что TP-Blend генерирует высококачественные фотореалистичные изменения с превосходной количественной точностью, воспринимаемым качеством и скоростью инференса по сравнению с недавними базовыми моделями. Его способность объединять замену объектов, смешивание и передачу стиля в одном процессе повышает управляемость без дополнительных вычислительных затрат. #TPBlend #ДиффузионныеМодели #СмешиваниеОбъектовИСтилей #ТекстовоеРедактированиеИзображений #РедактированиеИзображений #ИИ #ГлубокоеОбучение #ГенеративныйИИ #ПередачаСтиля #СлияниеОбъектов документ - https://arxiv.org/pdf/2601.08011v1 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
