🌟 本日のヘッドライン
NVIDIA Cosmos 3:マルチモーダル統合ファウンデーションモデル
NVIDIAは、言語、画像、ビデオ、オーディオ、アクションのモダリティを統合した最新鋭ユニファイドファウンデーションモデル「Cosmos 3」を発表しました。Mixture-of-Transformers アーキテクチャを採用し、Base Nano(8B推論+8B生成タワー搭載の16B)とSuper(64B)の2つのサイズで利用可能です。Text2ImageとImage2Video向けにファインチューニングされたバージョンは、これらのカテゴリにおけるトップクラスのオープンウェイトモデルとなり、Nano Banana 2の性能にほぼ匹敵します。Cosmos 3は発表初日から、ワールドレゾニングおよび関連ベンチマークにおいて、8個以上のオープンモデルリーダーボードで首位を獲得しました。このアーキテクチャは自己回帰推論器と拡散生成器を組み合わせており、マルチモーダル推論と生成タスクの高度な処理を実現します。開発者とAI研究者にとって、プロプライエタリモデルのみに依存することなく、アクセス可能なマルチモーダルAI機能の大きな前進を意味します。
💬 編集コメント
オープンソースのマルチモーダルAIが実用レベル化することで、クリエイターのツール選択権が劇的に増す。ただし、ローカル運用のコスト・手間がAPIの利便性をどこまで脅かすかが、本当の分岐点だ。
10/10
テック
Computex 2026で、NVIDIAは550Bパラメータのオープンウェイト大規模言語モデル「Nemotron 3…
10/10
業界分析
AIエージェントが企業内で直接使用されやすくなるにつれ、SnowflakeやMicrosoft、Databricksなどのエンタープライズソフトウェアベンダーは、依然として不可欠であることを証明するために奮闘しています。Snowflakeは株価が33%上昇し、FY2027の製品売上ガイダンスを$5.84Bに引き上げるなど強力な実績を示しました。同社は5年間で…
9/10
新製品
datasette-agent-micropython 0.1a0は、Datasette Agentがサンドボックス環境でPythonコードを安全に生成して実行することを可能にします。初期テストでは、GPT-5.5およびその他の最先端モデルがサンドボックスからの脱出に失敗しており、このアプローチが安全なコード実行ワークフローとして有望であることを示唆しています。
9/10
新製品
微软在Build 2026上发布了其首款高级推理AI模型MAI-Thinking-1。该模型被定位为"中等规模",能在"关键"软件工程基准测试中达到领先模型的水平。微软称其完全从头使用干净数据进行训练,未涉及从第三方模型进行知识蒸馏。
9/10
ニュース
ウォーレン・バフェット率いるバークシャー・ハサウェイが、AlphabetのAIインフラ拡張に100億ドルを投資します。Alphabetは合計800億ドルの調達を行い、2026年の資本支出は190億ドルに達すると予想されており、巨大なAIインフラ構築競争を示唆しています。
9/10
新製品
在 COMPUTEX 上,NVIDIA 发布了 NemoClaw 平台,这是一个用于构建专业、长时间运行 AI 智能体的开放蓝图。该平台提供安全运行时、前沿模型支持以及多种编排框架集成选项,可通过 DGX Spark、数据中心或云端部署。
🕐 約 4 分
· チュートリアル
6/10
💡 チュートリアル素材に展開可能
This research introduces SemGrad, the first gradient-based uncertainty quantification method for free-form LLM generation. Unlike existing sampling-heavy approaches that are computationally expensive, SemGrad is sampling-free and computationally efficient. It leverages semantic-preserving embeddings to provide reliable uncertainty estimates, helping ensure LLM trustworthiness and reduce hallucination-related risks.
🕐 約 3 分
· チュートリアル
6/10
💡 チュートリアル素材に展開可能
Zamba2-VL is a suite of vision-language models combining Mamba2 state-space layers with transformer blocks. It achieves competitive performance with leading open-weight VLMs like Molmo2, Qwen3-VL, and InternVL3.5 across image understanding, reasoning, OCR, grounding, and counting benchmarks.
オピニオン
ThinkSwitch is a low-compute procedure for co-training paired instruct and thinking checkpoints to optimize inference-time reasoning. Starting from compatible Qwen3-4B models, the approach reduces latency and token costs while maintaining reasoning quality through efficient checkpoint interpolation.
A controlled experiment comparing 12 multi-agent LLM collaboration topologies for software architecture design using a 2×2×2 factorial design. The study ran 520 experimental runs across 8 design tasks with 5 repetitions each, evaluated by three independent automated evaluators including Claude Opus 4.6.
Audits Pali-to-English translation quality from GPT-5.5, Claude Sonnet 4.6, Gemini 3.1 Pro, and Grok 4.3 on 1,700 passages from the Pali Canon using three professional human reference translations. Addresses how single-score metrics conflate legitimate translation variation with actual translation errors.
業界分析
这项行政令是加强美国AI领导地位的重要一步。
我们期待与白宫合作,支持其实施。
https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovatio…
Alphabet宣布拟通过股权融资800亿美元,用于扩展AI基础设施。Anthropic已秘密提交IPO申请,在上市竞赛中领先于竞争对手OpenAI。此外,SpaceX正与华尔街机构协商其IPO的承销费用,HPE则因AI基础设施需求旺盛,年度销售预期超出市场估计。
Study evaluates Gemini 3.5 Flash's medical triage recommendations across six languages (English, Spanish, Chinese, Hindi, Japanese, Arabic) for identical neurological symptoms. Results show the model produces different emergency recommendations based solely on patient prompt language, revealing critical language-driven disparities in medical decision-making.
チュートリアル
在Code w/ Claude SF 2026活动上,Claude Code工程团队分享了将智能体编程设为默认工作方式后带来的流程与结构变革。核心变化包括:规划转向即时(JIT)模式,强调快速原型与反馈;上下文收集变为"先问Claude";代码审查中Claude处理风格与测试,人工专注于法律、安全等…
MLLM-Microscope is a system for analyzing hidden representations in Multimodal LLMs by evaluating linearity, intrinsic dimension, and anisotropy of multimodal token embeddings across transformer layers. The study evaluates LLaVA-NeXT and OmniFusion on the ScienceQA dataset.
Introduces Prototype Transformer (ProtoT), an autoregressive language model that replaces quadratic-cost self-attention with a linear-cost prototype-based module, improving interpretability of LM reasoning and reducing hallucination risks.