Superhuman Performance in Chutes and Ladders Through Deep Neural Networks and Tree Search4просмотра2 месяца назад
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs4просмотра2 месяца назад
THEDRAGONHATCHLING: THEMISSINGLINK BETWEEN THETRANSFORMER ANDMODELS OF THEBRAIN1просмотр2 месяца назад
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation4просмотра2 месяца назад
Комплексный анализ сбоя электросети Сан-Франциско в декабре 2025 года и паралича роботакси Waymo1просмотр2 месяца назад
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models2просмотра2 месяца назад