文献計量学的監査により、学術的なLLM評価文献における根本的な欠陥が明らかになりました。研究者たちは古く安価なモデル(例:GPT-4o-mini ゼロショット)を数ヶ月から数年後に最先端システム(GPT-5.5 Pro、Claude Opus 4.7)に対して評価しており、この時間差により能力表示の誤りが生じ、結論が誤解を招くものになっています。
研究者は AuditRepairBench を導入する。これは AI エージェント修復リーダーボードの安定性と信頼性を評価するために特別に設計された 576,000 個のペアリング実行トレースを含む大規模なデータセットである。この研究は重大な評価上の課題を特定して対処する:リーダーボードランキングは、評価者構成が変更されるときに大幅に変動し、多くのトップランク修復方法は実際には真の転用可能な改善を達成するのではなく、評価者固有の信号に過剰適合していることを示唆している。「evaluator-channel-blocking」問題を具体化することにより、このデータセットは AI エージェント修復方法向けのより信頼性が高く、解釈可能な評価システムを構築するためのツールを提供する。
Research from Anthropic's Fellows Program demonstrates that training language models on texts explaining the rationale behind intended values—before teaching specific behaviors—leads to significantly better value adherence, even in novel situations. This approach proves more effective than behavioral training alone for achieving reliable AI alignment.
A developer has published four years of San Francisco criminal court data to Hugging Face, containing 77,000 detailed case records. This comprehensive dataset covers the entire judicial process from initial arrest through final sentencing, making it freely accessible for researchers, legal technologists, and policy advocates.
Real-world clinical evaluation of four open-weight MLLMs (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct) and commercial GPT-4.1 across three public dermatology datasets. Study quantifies the benchmark-to-bedside performance gap in actual clinical dermatology decision-making scenarios.
Paper introduces the first physics-informed DLinear time-series model for forecasting GPU power demand in AI data centers. Addresses rapid power fluctuations from heterogeneous computational tasks, particularly distinct power profiles between LLM inference and training workloads that impact grid stability.