【行业热点】大模型周报（12.1-12.7）

2025-12-10 15:33:40来源：中关村超互联新基建产业创新联盟作者：

https://runwayml.com/research/introducing-runway-gen-4.5

Runway推出视频模型Gen-4.5，以1247的Elo分数位居Artificial Analysis文生视频基准的榜首。模型在预训练数据效率和后训练技术方面进步显著，在保持Gen-4的速度和效率的同时，树立了可控动作生成、时序一致性、控制精度等的新标准，支持多种艺术风格。

https://seed.bytedance.com/en/seedream4_5

字节跳动推出Seedream 4.5，可在多图组合中精准识别并稳定锁定主体，保持原图特征与细节质感，同时进一步强化海报等密集文字的排版渲染能力，相较Seedream 4.0，在指令遵循、一致性、美学表现等维度实现全面提升。

https://www.vidu.com/zh

生数科技升级Vidu Q2参考生图功能，同时上线文生图、图像编辑功能，一致性效果惊艳，尤其图像编辑功能跻身Artificial Analysis榜单前四，比肩Nano Banana 2。支持一站式多参工作流，生成速度最快5秒。

https://bytedance.github.io/vidi-website

字节跳动推出视频理解模型Vidi2，能够以细粒度的时空定位能力（STG）更好地理解视频，实现全面的多模态推理。Vidi2可以根据文本问询精准定位到视频中对应事件发生的时间，并且在画面中用边界框标出对应主体的空间位置，可应用于复杂的编辑场景。Vidi2在两个时间检索和时空定位的基准的表现超过Gemini 3 Pro（Preview）和GPT-5。

https://x.com/Kling_ai/status/19954499505199

快手Kling AI发布：多模态创作工具Kling O1，可稳定保持角色和场景的一致性；图像生成和编辑模型Kling Image O1，支持多张参考图像的特征抓取和主体一致性；音频-视频模型Kling 2.6，能够生成搭配音频的视频，支持口型对齐、乐器演奏、音效生成，目前仅支持中英双语；KlingAI Avatar 2.0，可生成时长五分钟的虚拟形象演绎，表情丰富、口型对齐。

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

DeepSeek推出DeepSeek-V3.2，主要技术突破包括：1. 推出注意力机制DSA，能够在长上下文场景中保持性能的同时，大幅降低计算复杂度；2. 可扩展增强学习框架，让DeepSeek-V3.2实现不输GPT-5的性能，另外还有高算力衍生版DeepSeek-V3.2-Speciale，推理性能比肩Gemini-3.0-Pro；3. 大规模智能体任务合成管线，能够系统性、规模化地生成训练数据，将推理融入工具使用场景，在复杂的交互环境中显著提升智能体的泛化能力和指令遵循能力。

https://mistral.ai/news/mistral-3

Mistral AI开源Mistral 3系列模型，包括参数分别为140亿、80亿和30亿的三个小模型。同时推出总参数6750亿的稀疏MoE模型Mistral Large 3，LMArena ELO Score分数接近DeepSeek v3.2。

https://z-image.ai

阿里通义团队开源图像生成模型Z-Image（造相），速度优先的Turbo蒸馏版参数60亿，支持行业领先的高清画质、中英双语文本渲染，有提示词增强器赋予模型推理能力，从而融合世界知识、生成内容，Elo得分位居开源模型榜首。另外还有待发布的面向微调与研究的完整版模型Z-Image-Base，以及面向图像编辑的衍生版Z-Image-Edit，通过自然语言指令进行图像转图像。

https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan.

腾讯混元3D Studio升级到1.1版，接入3D生成模型PolyGen 1.5，实现端到端四边形网格生成，PolyGen 1.5可以直接学习四边形拓扑结构，适用于游戏开发、动画设计、VR内容创作等。

https://hunyuanocr.org

腾讯混元开源端到端OCR专家视觉-语言模型HunyuanOCR，参数10亿，将检测、识别、解析、翻译和信息提取功能整合到一个统一的流程中，这样就不需要额外的模型或者复杂的预处理步骤了，提高模型的部署运行效率。HunyuanOCR在文本识别、复杂文档解析、开放字段信息提取、字幕提取和图片翻译方面表现出色，能够准确处理多语种内容以及复杂的文档布局，在多项OCR任务和基准的表现领先。

https://chat.primeintellect.ai

Prime Intellect发布参数1000亿的混合专家模型INTELLECT-3，在数学、代码、科学和推理基准的表现超过一些规模更大的前沿模型。INTELLECT-3首先基于GLM-4.5-Air基础模型进行监督微调（SFT），然后进行大规模RL训练，两个阶段都是在一个由512块H200 GPU组成的集群上完成的，历时两个月。模型权重、训练框架、数据集、RL环境和模型评估等全部开源。

https://kiro.dev/autonomous-agent

AWS面向AI编程推出自主智能体Kiro，旨在将开发者从繁琐的协调工作中解放出来。Kiro具备跨越会话的上下文能力，能够持续学习用户的pull requests和反馈，处理问题分诊、提升代码覆盖率等多样的任务。用户可以直接通过GitHub向Kiro布置任务，然后它会独立规划并执行，通过编辑建议和拉取请求的方式交付成果。

https://arxiv.org/pdf/2511.21689

英伟达和香港大学的研究者介绍ToolOrchestra方法，采用结果感知、效率感知和用户偏好感知的强化学习奖励机制，通过管理其它模型、协调各类工具，来突破智能的上限，解决复杂的智能体任务。基于ToolOrchestra推出的80亿参数模型Orchestrator模型，能够根据用户偏好选择适合特定任务的工具，以更低成本实现更高的准确率，在HLE的表现超越GPT-5，效率提升2.5倍。

https://www.barry-callebaut.com/en/about-us/media/news-stories/barry-callebaut-partners-notco-ai-unlock-next-level-chocolate

巧克力制造商Barry Callebaut与食品科技公司NotCo合作利用AI开发巧克力配方，融合Barry Callebaut跨越一个多世纪的巧克力经验与NotCo的前沿AI能力，更高效地探索口味、口感和巧克力产业的可持续发展。

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

SemiAnalysis指出，世界上最好的两大模型Anthropic的Claude 4.5 Opus和谷歌的Gemini 3主要的训练和推理基础设施用的都是谷歌的TPUs和亚马逊的Trainium，而非英伟达的GPUs。在Anthropic之外，Meta、SSI等也加入谷歌TPU的客户名单。黄仁勋从多年前反复强调的“The more you buy, the more you save”，似乎正在变成“The more TPUs you buy, the more GPUs you save”。

https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission

美国启动“创世纪计划”，旨在倾举国之力汇聚政企学研各方的研发资源，用AI加速创新发现、解决这个世纪最具挑战的问题。该计划将创建统一的AI平台the American Science and Security Platform，利用积累了几十年的联邦科学数据集，训练科学基础模型并创建AI智能体，基于在半导体和高性能计算领域的创新和沉淀，加速科学突破，尤其聚焦先进制造、生物科技、材料科学、核裂变与核聚变能、量子信息科学、半导体与微电子学。

https://iceberg.mit.edu

MIT等联合开展“冰山项目”，利用大型人口模型来模拟人与AI协作的劳动力市场，旨在捕捉GDP、失业率等传统指标所无法有效捕捉的AI经济带来的影响。该项目用自主智能体代表1.51亿名劳动者，与数千个AI工具交互，施展3.2万多种技能。同时推出“冰山指数”，以技能为中心，衡量每个职业中AI系统能够执行的技能所对应的工资价值。分析显示，目前AI已经能够接管大约1.2万亿美元的工资价值，比重占到11.7%，影响遍及全美各州，覆盖管理、金融、专业服务等领域。

返回列表