Как на самом деле измеряют интеллект у AI?
🚀 Я запускаю iOS-приложение с ИИ и приглашаю вас в закрытое бета-тестирование! Вся подробная информация — в моём Телеграм-канале: https://t.me/ikryukovs --- Бенчмарки — это стандартизированные экзамены для ИИ. По ним инвесторы принимают решения на миллиарды долларов, разработчики выбирают модели, а журналисты пишут заголовки. Но можно ли им верить? В этом видео разобрал всю систему оценки ИИ: от классических тестов до скандалов с жульничеством. Как работают главные бенчмарки, что они реально измеряют, и почему цифры в красивых таблицах могут не иметь никакого отношения к вашим задачам. ⏱ Таймкоды: 00:00 — Зачем вообще тестировать ИИ 02:28 — Три задачи бенчмарков 03:57 — MMLU: дедушка бенчмарков и почему он устарел 06:07 — SWE-bench: тесты на реальном коде с GitHub 11:50 — GPQA: экзамен уровня PhD, который модели уже сдают лучше людей 13:01 — Humanity's Last Exam: 2500 вопросов, на которые ИИ не может ответить 18:07 — ARC-AGI: тест на абстрактное мышление, где ИИ проигрывает ребёнку 20:53 — Chatbot Arena: голосование людей 📊 Бенчмарки в видео: - MMLU — общие знания по 57 предметам - SWE-bench — исправление реальных багов на GitHub - GPQA Diamond — научные вопросы уровня PhD - Humanity's Last Exam — фронтир человеческих знаний - ARC-AGI — абстрактное мышление и паттерны - Chatbot Arena / LMArena — пользовательские предпочтения
🚀 Я запускаю iOS-приложение с ИИ и приглашаю вас в закрытое бета-тестирование! Вся подробная информация — в моём Телеграм-канале: https://t.me/ikryukovs --- Бенчмарки — это стандартизированные экзамены для ИИ. По ним инвесторы принимают решения на миллиарды долларов, разработчики выбирают модели, а журналисты пишут заголовки. Но можно ли им верить? В этом видео разобрал всю систему оценки ИИ: от классических тестов до скандалов с жульничеством. Как работают главные бенчмарки, что они реально измеряют, и почему цифры в красивых таблицах могут не иметь никакого отношения к вашим задачам. ⏱ Таймкоды: 00:00 — Зачем вообще тестировать ИИ 02:28 — Три задачи бенчмарков 03:57 — MMLU: дедушка бенчмарков и почему он устарел 06:07 — SWE-bench: тесты на реальном коде с GitHub 11:50 — GPQA: экзамен уровня PhD, который модели уже сдают лучше людей 13:01 — Humanity's Last Exam: 2500 вопросов, на которые ИИ не может ответить 18:07 — ARC-AGI: тест на абстрактное мышление, где ИИ проигрывает ребёнку 20:53 — Chatbot Arena: голосование людей 📊 Бенчмарки в видео: - MMLU — общие знания по 57 предметам - SWE-bench — исправление реальных багов на GitHub - GPQA Diamond — научные вопросы уровня PhD - Humanity's Last Exam — фронтир человеческих знаний - ARC-AGI — абстрактное мышление и паттерны - Chatbot Arena / LMArena — пользовательские предпочтения
