Добавить
Уведомления

Как выбирать LLM‑модель для self‑hosted: бенчмарки, вайб‑чеки

Veai - это Cursor для JetBrains IDE — платформа управляемого ИИ для разработки, которая помогает СТО и техническим командам внедрять AI‑ассистентов и код‑агентов в продакшен с измеримым эффектом и соблюдением требований корпоративной безопасности. 00:00 – Приветствие, тема выпуска: как выбирать модель для self‑hosted, почему «какая модель лучше» — неправильный вопрос. 01:44 – Где искать актуальные модели: таблица Life‑Architect, слухи, публичность, open‑source/закрытые модели. 03:30 – Нишевые модели и китайские лаборатории: почему сильные модели часто не попадают в хайп‑каналы. 04:10 – Ограничения табличек и заметок: комментарии, контекст, зачем читать с поправкой на «их use‑case». 05:30 – Reddit /r/LocalLLaMA, сливы и «рано увиденные» модели, мониторинг API провайдеров. 06:50 – Hugging Face как прямой источник новинок vs. Telegram/Хабр с лагом в несколько дней. 07:55 – Enterprise‑контекст: почему для компаний важно «социальное принятие» модели и фильтрация через комьюнити. 08:19 – Боль бенчмарков: benchmaxing, дообучение на публичных тестах и маркетинговые графики. 10:30 – Почему красивые графики «intelligence index» ≈ попугаи, а не гарантия качества в бою. 12:31 – Локальные модели «на коленке»: где они реально полезны (CLI, простые скрипты) и где резко упираются в потолок. 13:34 – Аналогия с железными бенчмарками: как «идеальные цифры» расходятся с реальной разработкой. 15:40 – Посты и отзывы людей как источник шума: боты, промо‑комментарии, повторное обучение на популярных промптах. 18:18 – Пугающий тренд: посты и видео от нейросетей, всё сложнее отличить от живых людей. 18:40 – Вайб‑чек «20 вопросов» для маленьких моделей: почему это иногда лучше, чем искусственные задачки. 20:45 – Зачем нужен собственный закрытый бенчмарк: задачи, метрики, дорого, но по‑другому никак. 22:00 – Внутренний бенчмарк Veai: реальные enterprise‑репозитории на разных языках, диалоговый сценарий «issue → PR», невозможность benchmaxing. [workos](https://workos.com/blog/enterprise-infrastructure-for-ai-apps) 23:06 – Практика клиентов Veai: как они доходят до GLM 4.7, DeepSeek и где Qwen‑линейка упирается в «зону экспертизы». 24:04 – Анонс второй части: выбор железа, квантизация, mixture of experts и производительность; призыв присылать вопросы. О чем поговорили: - Публичные бенчмарки и красивые графики по моделям — это в лучшем случае ориентир, в худшем — маркетинг и результат benchmaxing; на них нельзя опираться вслепую. - Чтобы не узнавать о моделях последним, нужно смотреть не только Telegram/Хабр, но и нишевые источники: таблицы вроде Life‑Architect, Reddit /r/LocalLLaMA, Hugging Face, утечки по API. - Отзывы и «живые» посты в соцсетях тоже ненадёжны: лаборатории обучаются на типичных промптах, а комментарии часто пишут боты, мимикрирующие под людей. - Лучший способ выбора модели для компании — свой закрытый бенчмарк под реальные задачи, с честно спроектированными метриками, а не абстрактные задачки «посчитай буквы». - В Veai для этого есть собственный внутренний бенчмарк на enterprise‑кодовых базах и сценариях «issue → PR», по которому сравниваются модели и конфигурации (включая self‑hosted и китайские LLM) перед тем, как рекомендовать их клиентам. Полезные ссылки: https://lifearchitect.ai/models-table/ Сайт: https://veai.ru Мы в Телеграм: https://t.me/Veaicode Мы в Макс: https://max.ru/join/y0Ww7-2L61pazl4CqjNIiq8KHGTW4cwNxFkM9wAgPes

Иконка канала Veai (Виай)
17 подписчиков
12+
31 просмотр
11 дней назад
12+
31 просмотр
11 дней назад

Veai - это Cursor для JetBrains IDE — платформа управляемого ИИ для разработки, которая помогает СТО и техническим командам внедрять AI‑ассистентов и код‑агентов в продакшен с измеримым эффектом и соблюдением требований корпоративной безопасности. 00:00 – Приветствие, тема выпуска: как выбирать модель для self‑hosted, почему «какая модель лучше» — неправильный вопрос. 01:44 – Где искать актуальные модели: таблица Life‑Architect, слухи, публичность, open‑source/закрытые модели. 03:30 – Нишевые модели и китайские лаборатории: почему сильные модели часто не попадают в хайп‑каналы. 04:10 – Ограничения табличек и заметок: комментарии, контекст, зачем читать с поправкой на «их use‑case». 05:30 – Reddit /r/LocalLLaMA, сливы и «рано увиденные» модели, мониторинг API провайдеров. 06:50 – Hugging Face как прямой источник новинок vs. Telegram/Хабр с лагом в несколько дней. 07:55 – Enterprise‑контекст: почему для компаний важно «социальное принятие» модели и фильтрация через комьюнити. 08:19 – Боль бенчмарков: benchmaxing, дообучение на публичных тестах и маркетинговые графики. 10:30 – Почему красивые графики «intelligence index» ≈ попугаи, а не гарантия качества в бою. 12:31 – Локальные модели «на коленке»: где они реально полезны (CLI, простые скрипты) и где резко упираются в потолок. 13:34 – Аналогия с железными бенчмарками: как «идеальные цифры» расходятся с реальной разработкой. 15:40 – Посты и отзывы людей как источник шума: боты, промо‑комментарии, повторное обучение на популярных промптах. 18:18 – Пугающий тренд: посты и видео от нейросетей, всё сложнее отличить от живых людей. 18:40 – Вайб‑чек «20 вопросов» для маленьких моделей: почему это иногда лучше, чем искусственные задачки. 20:45 – Зачем нужен собственный закрытый бенчмарк: задачи, метрики, дорого, но по‑другому никак. 22:00 – Внутренний бенчмарк Veai: реальные enterprise‑репозитории на разных языках, диалоговый сценарий «issue → PR», невозможность benchmaxing. [workos](https://workos.com/blog/enterprise-infrastructure-for-ai-apps) 23:06 – Практика клиентов Veai: как они доходят до GLM 4.7, DeepSeek и где Qwen‑линейка упирается в «зону экспертизы». 24:04 – Анонс второй части: выбор железа, квантизация, mixture of experts и производительность; призыв присылать вопросы. О чем поговорили: - Публичные бенчмарки и красивые графики по моделям — это в лучшем случае ориентир, в худшем — маркетинг и результат benchmaxing; на них нельзя опираться вслепую. - Чтобы не узнавать о моделях последним, нужно смотреть не только Telegram/Хабр, но и нишевые источники: таблицы вроде Life‑Architect, Reddit /r/LocalLLaMA, Hugging Face, утечки по API. - Отзывы и «живые» посты в соцсетях тоже ненадёжны: лаборатории обучаются на типичных промптах, а комментарии часто пишут боты, мимикрирующие под людей. - Лучший способ выбора модели для компании — свой закрытый бенчмарк под реальные задачи, с честно спроектированными метриками, а не абстрактные задачки «посчитай буквы». - В Veai для этого есть собственный внутренний бенчмарк на enterprise‑кодовых базах и сценариях «issue → PR», по которому сравниваются модели и конфигурации (включая self‑hosted и китайские LLM) перед тем, как рекомендовать их клиентам. Полезные ссылки: https://lifearchitect.ai/models-table/ Сайт: https://veai.ru Мы в Телеграм: https://t.me/Veaicode Мы в Макс: https://max.ru/join/y0Ww7-2L61pazl4CqjNIiq8KHGTW4cwNxFkM9wAgPes

, чтобы оставлять комментарии