Добавить
Уведомления

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

Условная Память через Масштабируемый Поиск: Новая Ось Разреженности для Больших Языковых Моделей Документ представляет условную память как новую ось разреженности для больших языковых моделей (БЯМ), призванную дополнить существующие архитектуры "Смеси Экспертов" (MoE) путем решения их неэффективности в поиске знаний. Этот новый примитив реализуется через Engram — модуль, который модернизирует классические N-граммные вложения для обеспечения поиска статических знаний за постоянное время O(1). Авторы сформулировали задачу "Распределения разреженности", обнаружив U-образный закон масштабирования, который оптимизирует компромисс между нейронными вычислениями (MoE) и статической памятью (Engram). Руководствуясь этим законом, модель Engram с 27 миллиардами параметров продемонстрировала превосходную производительность по сравнению с базовыми моделями MoE с аналогичным количеством параметров и операций FLOPs. Примечательно, что Engram достиг значительных успехов не только в задачах, требующих больших знаний, но и в общем рассуждении, а также в областях программирования и математики. Механистический анализ показывает, что Engram увеличивает эффективную глубину сети, освобождая ранние слои от статической реконструкции, и улучшает обработку длинных контекстов, высвобождая емкость внимания. Кроме того, Engram обеспечивает инфраструктурно-ориентированную эффективность, позволяя предзагрузку во время выполнения и агрессивное расширение параметров с незначительными накладными расходами. В заключение, в статье предсказывается, что условная память станет незаменимым примитивом моделирования для разреженных БЯМ следующего поколения. #БЯМ #Разреженность #УсловнаяПамять #Энгрэм #СмесьЭкспертов #ГлубокоеОбучение #ИзвлечениеЗнаний #ИИИсследования #МасштабируемыеМодели #Трансформер документ - https://github.com/deepseek-ai/Engram/ подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
4 подписчика
12+
3 просмотра
2 месяца назад
12+
3 просмотра
2 месяца назад

Условная Память через Масштабируемый Поиск: Новая Ось Разреженности для Больших Языковых Моделей Документ представляет условную память как новую ось разреженности для больших языковых моделей (БЯМ), призванную дополнить существующие архитектуры "Смеси Экспертов" (MoE) путем решения их неэффективности в поиске знаний. Этот новый примитив реализуется через Engram — модуль, который модернизирует классические N-граммные вложения для обеспечения поиска статических знаний за постоянное время O(1). Авторы сформулировали задачу "Распределения разреженности", обнаружив U-образный закон масштабирования, который оптимизирует компромисс между нейронными вычислениями (MoE) и статической памятью (Engram). Руководствуясь этим законом, модель Engram с 27 миллиардами параметров продемонстрировала превосходную производительность по сравнению с базовыми моделями MoE с аналогичным количеством параметров и операций FLOPs. Примечательно, что Engram достиг значительных успехов не только в задачах, требующих больших знаний, но и в общем рассуждении, а также в областях программирования и математики. Механистический анализ показывает, что Engram увеличивает эффективную глубину сети, освобождая ранние слои от статической реконструкции, и улучшает обработку длинных контекстов, высвобождая емкость внимания. Кроме того, Engram обеспечивает инфраструктурно-ориентированную эффективность, позволяя предзагрузку во время выполнения и агрессивное расширение параметров с незначительными накладными расходами. В заключение, в статье предсказывается, что условная память станет незаменимым примитивом моделирования для разреженных БЯМ следующего поколения. #БЯМ #Разреженность #УсловнаяПамять #Энгрэм #СмесьЭкспертов #ГлубокоеОбучение #ИзвлечениеЗнаний #ИИИсследования #МасштабируемыеМодели #Трансформер документ - https://github.com/deepseek-ai/Engram/ подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии