COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs4просмотра3 месяца назад
THEDRAGONHATCHLING: THEMISSINGLINK BETWEEN THETRANSFORMER ANDMODELS OF THEBRAIN1просмотр4 месяца назад
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation4просмотра4 месяца назад
Комплексный анализ сбоя электросети Сан-Франциско в декабре 2025 года и паралича роботакси Waymo1просмотр4 месяца назад
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models2просмотра4 месяца назад
Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets7просмотров4 месяца назад