2026-05-17 · 日 生成 10:18:16
ソース
178
記事数
446
高得点 8+
12
クラスタ
3
🌟 本日のヘッドライン
新ベンチマークがClaude MythosとGPT-5.5が実際のブラウザエクスプロイトを自律的に開発可能なことを実証
Carnegie Mellonの研究者たちは、AIエージェントがGoogleのV8エンジンの実際の脆弱性を自律的に悪用する能力を測定するベンチマークを開発しました。Claude MythosはGPT-5.5を大幅に上回る性能を示しますが、コストは12倍高く、AI安全性研究におけるコスト効率のトレードオフについて重要な疑問を提起しています。
続きを読む → 深掘り
🔥本日のハイライト
9/10 ニュース
AIチップメーカーの大手Cerebasは600億ドルのIPOを完了し、AIインフラストラクチャー企業にとって大きなマイルストーンとなりました。この企業評価額は、世界中でモデルトレーニングと推論の需要が加速する中で、専門的なAIコンピューティングハードウェアに対する投資家の強い信頼を反映しています。
9/10 ニュース
UbuntuはそのAI戦略を概説し、クラウド中心でAI優先のオペレーティングシステムへの業界トレンドからの意図的な逸脱と述べています。同社は代わりに、将来のリリースをローカルインテリジェンス、モジュール設計、および厳密なユーザー制御に焦点を当てると述べています。
9/10 ニュース
MicrosoftはAspire 13.3をリリースし、Azure、Kubernetes、およびComposeを横断したデプロイメントを破壊するための新しいaspire…
9/10 ニュース
San Jose Spotlightのレポーターであるブランドン・フォーの報告:月曜日に提出された訴訟は、ユーザーをお金から騙すように設計された欺瞞的な広告に対抗する代わりに、Metaが独自の詐欺防止チームを妨害し、偽の企業がそのフィルターをバイパスするのを支援したと主張しています。
9/10 新製品
Zerostack是一款采用纯Rust语言编写、受Unix哲学启发的编程代理工具,已正式发布1.0.0版本并在Rust包管理平台crates.io上提供。该发布在技术社区Hacker News上获得115点关注,反映出开发者对其的高度兴趣。
9/10 新製品
处理大家的反馈让我们感到太有趣了。 (请继续反馈。) 键盘快捷键现已支持自定义。 围绕你的实际工作方式设置 Codex,然后通过设置调整快捷键,无需再适应我们的默认配置。
📊トピッククラスタ
📌 AI エージェント システム
エージェント フレームワーク アーキテクチャ、評価ベンチマーク、マルチエージェント協働、メモリ管理とワークフロー編成など、最もホットなトピック方向。
📌 LLM 推論最適化
推論高速化、量子化、蒸留、KV キャッシュ圧縮、トークン最適化などの効率向上による、レイテンシとコスト圧力への対応。
📌 ビジョン生成とマルチモーダル
ビデオ生成、3D 生成編集、マルチモーダルモデル、医学画像再構成などのビジョンタスク突破。
📖深読みの価値あり
🕐 約 3 分 · チュートリアル 7/10
RLVR は科学において不均衡に悪い可能性がある
💡 チュートリアル素材に展開可能
RLVR(强化学习与验证)在科学理论验证中可能表现出不成比例的缺陷。科学理论的验证循环周期长达数十年甚至数个世纪,且当前被视为更优的理论实际上常会做出更差的预测。这一矛盾揭示了基于短期反馈的强化学习范式与科学探索长期性、复杂性之间的根本冲突,凸显了现有AI方法在应对科学发现这类超长反馈周期任务时存在的结构性局限。
続きを読む →
🕐 約 3 分 · オピニオン 7/10
研究者がわずか 12.5% の専門家でほぼ完全なパフォーマンスを達成する AI モデルを訓練
💡 視点と論拠が参考になる
Allen Institute for AI と UC Berkeley の研究者は、わずか 12.5% の専門家を使用してほぼ完全なパフォーマンスを達成する EMO(Mixture-of-Experts)モデルを開発しました。この効率性の飛躍は、モデルの品質と推論速度を維持しながら大規模 AI システムの計算コストを削減する大きな可能性を示しています。
続きを読む →
🕐 約 3 分 · 業界分析 7/10
哎!这玩意越看让人越有点感慨不已! 人形机器人的真的逐渐在替代某些岗位啊! Figure 人形机器人已经进入第4天 nonstop autonomous operations了。 F.03 正在…
💡 業界動向と分析
Figure公司的F.03人形机器人已进入第四天不间断自主运行测试,在真实仓库环境中24/7连续工作直至出现故障。测试核心在于评估机器人执行抓取、搬运、分拣等任务的长期耐力,并收集故障数据、维护需求及安全恢复机制等信息。这标志着人形机器人从展示单次动作的"能动"阶段,进入了考验持续工作能力的"能干"实用化关键阶段。
続きを読む →
🕐 約 3 分 · チュートリアル 7/10
Interesting interpretability paper on tool-using agents. The authors probe hidden states and find t…
💡 チュートリアル素材に展開可能
该可解释性论文聚焦工具使用代理,通过探测隐藏状态发现模型常能识别应调用工具,但实际调用失败,不匹配率达26%-54%。问题完全集中于认知到行动的过渡阶段,而非认知本身。内部探测方向可解码,但后期层的最后令牌机制使信号旋转,几乎与产生的行动正交。研究旨在预测干预措施效果,指出常见归因如提示或训练不足可能忽略后期层几何结构,这为工具使用提示A/B测试中的性能上限提供了合理解释。
続きを読む →
🕐 約 3 分 · 業界分析 7/10
美国开始出现人工智能相关岗位的大规模裁员
💡 業界動向と分析
美国人工智能相关岗位正出现大规模裁员。根据彭博社报道,受AI影响的职位开始经历严重的就业岗位流失。这一趋势表明AI技术对劳动力市场的冲击已从理论讨论进入现实阶段,具体裁员数字和涉及的行业领域在进一步显现中。
続きを読む →
📂カテゴリで見る
新製品
今月はフラッグシップオープンソースモデルリリースの急増がもたらされました:Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1。それぞれは異なるモデルファミリー全体で大幅な能力向上を表しており、開発者とクリエイターに商用製品の強力なオープンな代替案を提供しています。
不知为何我们选择周六发布更新,但Codex确实迎来了一系列优化。 这些改进让使用体验愉悦许多,实在不该拖到周二再公布。 键盘快捷键现已支持自定义。 根据实际工作方式配置Codex,通过设置调整快捷键,不必再迁就默认设定。
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡
オピニオン
本研究は、AI モデル開発企業がピアレビュー方式のベンチマークから、企業ブログでの結果の選別的提示へシフトした過程を検証しています。このシフトがベンチマーク選択をマーケティング戦略へと変えてしまい、現在の評価慣行がモデルの真の性能を正確に反映しているのかという疑問を提起しています。
20億ユーザーに展開されるGoogle AI Overviewsを分析する大規模研究。研究者は、AIが選択するソース、クレームの忠実度、および1つの合成回答が従来のランク付け検索結果に置き換わる際の前例のない編集権力の集中を調査しています。
本研究は、適応的敵対者に直面したときの悪意のある微調整に対する現在の防御における重大な失敗を明らかにしています。堅牢性の主張は防御を回避するために特別に設計された攻撃に対して崩れ、オープンウェイトモデルの安全戦略における根本的なギャップを露出させています。
業界分析
メンロベンチャーズのパートナー Deedy Das によると、Anthropic、OpenAI、xAI、Meta、Nvidia の約 10,000 人のシリコンバレー従業員が AI ブームから 2000 万ドル以上の資産を蓄積しています。一方、中間管理職は空洞化を感じており、多くの人がこの機会を逃してしまったのではないかと疑問に思っています。
本定性研究は、米国の国際学生がChatGPTやGoogle Geminiのような対話型AIをどのように使用して、重複する文化的、学術的、心理的な課題をナビゲートしているかを探索しています。この研究は、断片化された大学サポートシステムを補完する際のAIの新しい役割を明らかにしています。
Google officially debunked emerging SEO trends like Generative Engine Optimization (GEO) and Answer Engine Optimization (AEO), clarifying they are simply traditional SEO practices rebranded. The company's new documentation dismisses common tactics such as LLMS.txt files and content chunking, reaffirming that quality content and standard SEO fundamentals remain essential for AI search ranking.
チュートリアル
MagicPath AI CEO @skirano 演示了其产品与Codex的深度整合。用户现可将MagicPath作为原生画布直接在Codex中运行,通过拖拽设计UI,Codex能实时感知项目并自动生成、编辑代码,实现设计与开发的无缝衔接,无需在Figma和IDE间切换。
Eric Jang在过去几个月从零开始实现AlphaGo,这是2016年激发他进入深度学习的AI突破。他最初理解AlphaGo为"通过自我对弈训练的搜索增强深度神经网络",但通过亲手构建获得了更深层次的理解。
本論文は、サンプル数が限られている、または費用が高い多エージェント環境における信頼性の高いエージェント性能評価に対処しています。分散低減技術の病理を特定し、AIVAT族の手法における不偏性能推定への改善を提案します。
📭今日はスキップ

自動でフィルタしました。理由をご覧ください:

📎 ロングテール (165) · クリックで展開
Warelay → OpenClaw 5
Julia Evans を引用 5
監視データ認識時間的性質(拡張版) 5
逆強化学習の高速レート 5
自己回帰シーケンスモデルによる条件付き属性推定 5
ChromaFlow: ツール拡張エージェント評価におけるオーケストレーションオーバーヘッドのネガティブアブレーション研究 5
注意誘導動的分解を用いた医薬品不足薬剤師の有界合理性のモデリング 5
ReLU 触媒化抽象化改善を通じた Transformer の正確な検証 5
複雑なシステムにおける解釈可能予測保全のための意味特徴セグメンテーション 5
CrystalReasoner: 性質条件付き結晶構造生成のための推論と RL 5
過完全推論トレースにおける最小コアの表現幾何の発見 5
POMDP ポリシーの合成: サンプリングと学習を通じたモデルチェックの融合 5
ラジオミック AI モデルは取得パラメータにどれほど敏感であるか? 5
深い決定性ポリシー勾配深層学習調査を通じた犯人の特定 5
将来の圧縮進捗のための帰納的ヒューリスティックとしての興味深さ 5
HS 関税分類のための決定的エージェンティックワークフロー: 解釈可能な決定による多次元規則推論 5
COREKG: コアセット誘導知識グラフの個性化要約 5
自己組織化をガイドするための発達スキャフォールディングの学習 5
SparseOIT: アクティブセット法を通じた順序非依存透明性 3DGS の改善 5
ARES-LSHADE: GNBG ベンチマークのためのミメティック修正を備えた自己研究拡張 LSHADE 5
ローカル構造認識自己注意を用いた Transformer ベーススパイキングニューラルネットワークにおけるグローバル自己注意ボトルネックの破壊 5
非破壊的方法論フレームワーク:AI駆動型薬剤情報学のためのレガシー臨床レポートシステムの最新化(SASケーススタディ) 5
AIS:量子化強化学習のための適応的重要度サンプリング 5
オンライン多重検定に対する後悔の観点 5
WarmPrior:時間的事前分布によるフロー整合ポリシーの直線化 5
CineMesh4D:スパースシネMRIからの個人化4D心臓全体再構成 5
Dywave:異質なIoTセンシング信号のためのイベント整合動的トークン化 5
R2R2:自己予測学習における冗長性削減を通じた集約的経験再利用の堅牢表現 5
農村医療ギャップの橋渡し:自動網膜スクリーニングのためのカスケード化エッジクラウドアーキテクチャ 5
ProtoMedAgent:プライバシー認識エージェントワークフロー経由のマルチモーダル臨床解釈可能性 5
LLMベースのマイクロサービスアプリケーション堅牢性テスト:実証研究 5
AudioMosaic:対比的マスク音声表現学習 5
AIM-DDI:薬物相互作用予測のためのモデル非依存マルチモーダル統合モジュール 5
RQ-MoE:効率的な入力依存ベクトル圧縮のための専門家混合による残差量子化 5
LoMETab:表形式深層学習のためのランク1アンサンブルを超えて 5
データ拡張ゲーム開始:不完全情報ゲームにおける自己対戦探索の加速化 5
MahaVar:ニューラル崩壊下のクラス別マハラノビス距離分散によるOOD検出 5
ROAD:二段階最適化を通じたオフラインからオンライン強化学習への適応的データ混合 5
非対称生成推奨:マルチエキスパート射影とマルチファセット階層量子化経由 5
PROVE:視覚メディア用認知除去一貫性ベンチマーク 5
RxEval:LLM医薬品推奨評価のための処方箋レベルベンチマーク 5
組合せ最適化におけるニューラルおよびヒューリスティック求解器の比較のための償却効率閾値 5
CAMを評価および洗練する方法 5
材料科学応用のための自動研究を通じた合成記述子のエージェント設計 5
SceneFunRI:タスク駆動型機能オブジェクト位置特定のための見えない推論 5
ビジョンコアガイド対比学習による脳卒中の均衡マルチモーダル予後予測 5
TAPIOCA:タスク認識プルーニングがOODモデル能力を改善する理由 5
認知不確実性ガイド知識蒸留による学生の誤解の正確な分類 5
ニューラルアーキテクチャ設計のための帰納バイアスとしての合成スパース性 5
何を選択するかを超えて:効率的なモデルトレーニングのためのプラグアンドプレイ発振データボリュームスケジューリング 5
XFP:LLM推論のためのスパースアウトライア分離を伴う品質指向適応コードブック量子化 5
IFPV:生成的運用計画および高忠実度計画検証のための統合マルチエージェントフレームワーク 5
動的移動予測における隠れた文脈の利用:再帰型からグラフニューラルネットワークおよび汎用トランスフォーマーへのニューラルネットワークの旅 5
マルチエージェント再帰思考によるマイクロサービスの深い根本原因局在化に向けて 5
あなたのCLIPは164次元のノイズを持つ:対比的に事前学習された視覚言語トランスフォーマーの埋め込み共分散固有スペクトラムの探索 5
批評家駆動ボロノイ量子化による深いRL政策の説明可能なモデルへの蒸留 5
Slot-MPC:オブジェクト中心表現を用いた目標条件付きモデル予測制御 5
幾何学的一貫性のための量的ビデオワールドモデル評価 5
Mixture-of-Visual-Thoughts:一般的な視覚推論のための文脈適応推論モード選択の探索 5
時系列異常検出のための問題指向的評価メトリクス分類 5
ユーザー選好から段階的議論における基本スコア抽出関数へ(付録付き) 5
適応的サポートユーザーを伴うパーソナライズされたデジタルヘルスモデリング 5
EEG基礎モデルは人間の脳信号から何をキャプチャするのか? 5
比較ベース勾配推定を用いた逐次リソーストレーディング 5
加算的ガウス過程を通じた複雑な制御システムの安全ベイズ最適化 5
時間周波数モチーフ学習を用いた単一チャネルEEGのトークン化 5
Pro-DG:建築ファサード生成のための手続き的拡散ガイダンス 5
逆問題のための双上昇拡散 5
行動としての分布:多様な行動空間のための統一フレームワーク 5
AVEX:動物発声符号化で重要なもの 5
脳を通して見る:fMRIで視覚刺激をデコードすることからの新しい洞察 5
エージェント AI 駆動 6G 自律ネットワークにおける認知バイアスのチュートリアル 5
ランキングから推論へ:セマンティック推論による説明可能な Web API 推奨 5
ディスクリプタ:距離注釈付き交通認識質問回答(DTPQA) 5
鉱物処理操業における不確実性下の AI 駆動最適化 5
VLRS-Bench:遠隔センシング向けビジョン言語推論ベンチマーク 5
オフライン強化学習における行動クローニング Actor-Critic の近位行動置換 5
Krause 同期トランスフォーマー 5
ArGEnT:演算子学習向け任意幾何エンコードトランスフォーマー 5
ニューラルネットワークを使用した形状関数範囲の数値探索 5
欧州連合における人工知能専門化:NUTS-3 レベルでの周辺部の未開発の役割 5
有限次元代数のグロッキング 5
勾配反復時間差分学習 5
ニューラルフィールド熱トモグラフィ:非破壊評価向け微分可能物理フレームワーク 5
PinpointQA:室内ビデオにおける小物中心空間理解向けデータセットとベンチマーク 5
ランダム行列理論を使用した長期グロッキング中のニューラルネットワーク過学習検出 5
ユーザーデジタルトレースからのうつ病状態シフトの説明可能な検出 5
GAMBIT:マルチエージェント LLM 集合における敵対的ロバストネスの三モードベンチマーク 5
IntentVLA:エイリアスロボット操作向け短期インテントモデリング 5
MemQ:系統 DAG 上の自己進化メモリエージェントへの Q-学習統合 5
完了したが不確実:具体化エージェントにおける世界完了と自己終了の分離 5
言語エージェントにおける予測不可能性と構造化制御の乖離 5
教師なし学習による表現空間の解釈可能な部分空間への分解 5
fMRI-LM:言語アライン fMRI 理解向け普遍基盤モデルへ向けて 5
ポリマー設計関連タスクについて LLM に推論を教え評価する 5
CUICurate:NLP アプリケーション向け自動臨床概念キュレーション GraphRAG ベースフレームワーク 5
現代トランスフォーマーアーキテクチャにおける残差ストリーム双対性 5
UniMamba:状態空間とアテンション統合による統一空間時間モデリングフレームワーク 5
シミュレートされた学習者による教育読み物の適応的パーソナライゼーション評価 5
任意バックボーン向け正規化等変性、画像ノイズ除去への応用 5
エージェントの進化的アンサンブル 5
ShadowMerge:関係チャネル競合によるグラフベースエージェントメモリへの新規ポイズニング攻撃 5
LoKA:推奨モデル大規模展開向け低精度カーネルアプリケーション 5
生成的メタ継続学習による少数ショット音声単語分類のスケーリング 5
Genkit ミドルウェア発表:エージェント的アプリをインターセプト、拡張、堅牢化 5
オンデバイス AI の加速:Arm および Google AI Edge 最適化の検討 5
ADK で一時停止、再開、コンテキストを失わない長時間実行 AI エージェント構築 5
Database Observability 向け新 Grafana Assistant 統合でパフォーマンス問題を素早くトラブルシュート 5
脳機能接続表現学習向けネットワーク認識双線形トークン化 4
論理プログラミングと抽象議論における強等価性概念について 4
ユーザー定義提供粒度によるパーソナライズ食事最適化のための混合整数目標計画法 4
反事実的後悔最小化の並列化 4
離散不確実性を伴う二段階ロバスト最適化のシナリオ削減学習 4
BiFedKD:非 IID および長尾 ECG モニタリング向け双方向フェデレーション知識蒸留フレームワーク 4
ハイブリッド潜在空間モデリングによる構造コネクトーム取得変動性の教師なし学習 4
AttnGen:解釈可能ゲノム配列分類向けアテンション誘導顕著性学習 4
部分観測下の安全重視制御向けアクション条件付きリスクゲーティング 4
完全情報展開形ゲームにおけるゲームプレイエージェントのウォーターマーク 4
混合勾配によるハイブリッド離散連続行動空間でのポリシー最適化 4
ローカル遷移幾何再利用向け行列空間強化学習 4
Analog RF Computing:MU-MIMO システムでのエネルギー効率的エッジ AI の新パラダイム 4
陳旧な勾配を安定した勾配に変える:軽量な零次最適化のための暗黙的景観平滑化を持つ一貫座標降下法 4
シンボリック規則ベース分類のための最適パターン検出木 4
コンプライアント足を備えたエネルギー効率的な四足歩行 4
マルチサテライト降水推定のためのプラグアンドプレイ生成フレームワーク 4
インピーダンスベースの攻撃到達可能域を介した電力電子システムのサイバー脆弱性の定量化 4
ビジョンベースの水位および流量推定 4
深い情報伝播のための自発的対称性破れとゴールドストーンモード 4
データ駆動型デマンドレスポンス・スケジューリングにおける終端制約の対処 4
REALM:LFPモデリングのための遡及的エンコーダアラインメント 4
SurgicalMamba:オンライン手術フェーズ認識のための状態再文法化を備えたデュアルパスSSD 4
すべてのシンボルが等しいわけではない:セマンティック通信のための重要度認識星座設計 4
MicroscopyMatching:多様な条件での顕微鏡画像分析のための既製フレームワークに向けて 4
ポリシーヘッシアン分解を介した割引MDPのための二次アクター・クリティック法 4
マルチロス深層学習を使用してCT基準からの卵巣がんへの新補助化学療法応答を予測する 4
一般化された優先度認識シャプリー値 4
車両事故損傷重症度予測のための新規動的バッチ感応型Adam最適化器 4
オフポリシー評価のためのロギング・ポリシー設計 4
証拠推論が解釈可能なリアルワールド疾病スクリーニングを進める 4
近似対称性の達成は完全対称性よりも指数的に容易である 4
スタッフエンジニアとして2026年にLLMを使用する方法 4
EP215:AIエージェントの解剖学 4
Sonyは、そのAIカメラアシスタントが悪くないことを説明しようとしている 4
一部の無性愛者は、セックスなしで親密さのためにAIコンパニオンを使用している 4
トランスフォーマメモリの吸引子幾何学:紛争仲裁から確実な幻覚へ 4
MRIラジオミクスにおけるマルチビュー・パラダイム・シフト:グリオブラストーマのMGMTメチル化予測 4
商空間拡散モデル 4
攻撃者をジレンマに陥れる:GNNバックドア防御のためのトリガーの内部相関と外部影響の検証 4
エントロピー最適輸送を介した冠動脈造影における幾何学的制約付き狭窄編集 4
MLGIB:表現力豊かで堅牢なメッセージパッシングのためのマルチラベルグラフ情報ボトルネック 4
メトリック空間における憲法的ガバナンス 4
AI支援テスト、拡張機能の更新など:k6 2.0がリリースされた 4
ニューラル感度カーネルと波動接線カーネルを使用したニューラルリパラメータ化フルウェーブフォーム反転の解読 3
承認投票のための一致度、多様性、および偏極化指数 3
多元主義:Trumpの予定外の米帝国の空中分解の意味(2026年5月16日) 3
読書リスト 05/16/26 3
SQLAlchemy 2実践 - 第8章:SQLAlchemyとWeb 3
Tomy Tutorと1983年のホームコンピュータの状態 3
より優れたボルトメータークロック 3
ENSEMBITS:タンパク質コンフォメーション・アンサンブルのアルファベット 3
スーパーリニアリターン 3
素晴らしい仕事をする方法 3
新しいアイデアを得る方法 3
Adaptive Logsドロップルールでノイズの多いログラインを排除する 3
Redditは一部のユーザーがモバイルデバイスからそのウェブサイトにアクセスするのをブロックしている 2