中国金属材料流通协会,欢迎您!

English服务热线:010-59231580

搜索

【行业热点】大模型周报(12.1-12.7)

https://runwayml.com/research/introducing-runway-gen-4.5

图片

Runway推出视频模型Gen-4.5,以1247的Elo分数位居Artificial Analysis文生视频基准的榜首。模型在预训练数据效率和后训练技术方面进步显著,在保持Gen-4的速度和效率的同时,树立了可控动作生成、时序一致性、控制精度等的新标准,支持多种艺术风格。

https://seed.bytedance.com/en/seedream4_5

图片

字节跳动推出Seedream 4.5,可在多图组合中精准识别并稳定锁定主体,保持原图特征与细节质感,同时进一步强化海报等密集文字的排版渲染能力,相较Seedream 4.0,在指令遵循、一致性、美学表现等维度实现全面提升。

https://www.vidu.com/zh

图片

生数科技升级Vidu Q2参考生图功能,同时上线文生图、图像编辑功能,一致性效果惊艳,尤其图像编辑功能跻身Artificial Analysis榜单前四,比肩Nano Banana 2。支持一站式多参工作流,生成速度最快5秒。

https://bytedance.github.io/vidi-website

图片

字节跳动推出视频理解模型Vidi2,能够以细粒度的时空定位能力(STG)更好地理解视频,实现全面的多模态推理。Vidi2可以根据文本问询精准定位到视频中对应事件发生的时间,并且在画面中用边界框标出对应主体的空间位置,可应用于复杂的编辑场景。Vidi2在两个时间检索和时空定位的基准的表现超过Gemini 3 Pro(Preview)和GPT-5。

https://x.com/Kling_ai/status/19954499505199

图片

快手Kling AI发布:多模态创作工具Kling O1,可稳定保持角色和场景的一致性;图像生成和编辑模型Kling Image O1,支持多张参考图像的特征抓取和主体一致性;音频-视频模型Kling 2.6,能够生成搭配音频的视频,支持口型对齐、乐器演奏、音效生成,目前仅支持中英双语;KlingAI Avatar 2.0,可生成时长五分钟的虚拟形象演绎,表情丰富、口型对齐。

https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf

图片

DeepSeek推出DeepSeek-V3.2,主要技术突破包括:1. 推出注意力机制DSA,能够在长上下文场景中保持性能的同时,大幅降低计算复杂度;2. 可扩展增强学习框架,让DeepSeek-V3.2实现不输GPT-5的性能,另外还有高算力衍生版DeepSeek-V3.2-Speciale,推理性能比肩Gemini-3.0-Pro;3. 大规模智能体任务合成管线,能够系统性、规模化地生成训练数据,将推理融入工具使用场景,在复杂的交互环境中显著提升智能体的泛化能力和指令遵循能力。

https://mistral.ai/news/mistral-3

图片

Mistral AI开源Mistral 3系列模型,包括参数分别为140亿、80亿和30亿的三个小模型。同时推出总参数6750亿的稀疏MoE模型Mistral Large 3,LMArena ELO Score分数接近DeepSeek v3.2。

https://z-image.ai

图片

阿里通义团队开源图像生成模型Z-Image(造相),速度优先的Turbo蒸馏版参数60亿,支持行业领先的高清画质、中英双语文本渲染,有提示词增强器赋予模型推理能力,从而融合世界知识、生成内容,Elo得分位居开源模型榜首。另外还有待发布的面向微调与研究的完整版模型Z-Image-Base,以及面向图像编辑的衍生版Z-Image-Edit,通过自然语言指令进行图像转图像。

https://3d.hunyuan.tencent.com/login?redirect_url=https%3A%2F%2F3d.hunyuan.

图片

腾讯混元3D Studio升级到1.1版,接入3D生成模型PolyGen 1.5,实现端到端四边形网格生成,PolyGen 1.5可以直接学习四边形拓扑结构,适用于游戏开发、动画设计、VR内容创作等。

https://hunyuanocr.org

图片

腾讯混元开源端到端OCR专家视觉-语言模型HunyuanOCR,参数10亿,将检测、识别、解析、翻译和信息提取功能整合到一个统一的流程中,这样就不需要额外的模型或者复杂的预处理步骤了,提高模型的部署运行效率。HunyuanOCR在文本识别、复杂文档解析、开放字段信息提取、字幕提取和图片翻译方面表现出色,能够准确处理多语种内容以及复杂的文档布局,在多项OCR任务和基准的表现领先。

https://chat.primeintellect.ai

图片

Prime Intellect发布参数1000亿的混合专家模型INTELLECT-3,在数学、代码、科学和推理基准的表现超过一些规模更大的前沿模型。INTELLECT-3首先基于GLM-4.5-Air基础模型进行监督微调(SFT),然后进行大规模RL训练,两个阶段都是在一个由512块H200 GPU组成的集群上完成的,历时两个月。模型权重、训练框架、数据集、RL环境和模型评估等全部开源。

https://kiro.dev/autonomous-agent

图片

AWS面向AI编程推出自主智能体Kiro,旨在将开发者从繁琐的协调工作中解放出来。Kiro具备跨越会话的上下文能力,能够持续学习用户的pull requests和反馈,处理问题分诊、提升代码覆盖率等多样的任务。用户可以直接通过GitHub向Kiro布置任务,然后它会独立规划并执行,通过编辑建议和拉取请求的方式交付成果。

https://arxiv.org/pdf/2511.21689

图片

英伟达和香港大学的研究者介绍ToolOrchestra方法,采用结果感知、效率感知和用户偏好感知的强化学习奖励机制,通过管理其它模型、协调各类工具,来突破智能的上限,解决复杂的智能体任务。基于ToolOrchestra推出的80亿参数模型Orchestrator模型,能够根据用户偏好选择适合特定任务的工具,以更低成本实现更高的准确率,在HLE的表现超越GPT-5,效率提升2.5倍。

https://www.barry-callebaut.com/en/about-us/media/news-stories/barry-callebaut-partners-notco-ai-unlock-next-level-chocolate

图片

巧克力制造商Barry Callebaut与食品科技公司NotCo合作利用AI开发巧克力配方,融合Barry Callebaut跨越一个多世纪的巧克力经验与NotCo的前沿AI能力,更高效地探索口味、口感和巧克力产业的可持续发展。

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

图片

SemiAnalysis指出,世界上最好的两大模型Anthropic的Claude 4.5 Opus和谷歌的Gemini 3主要的训练和推理基础设施用的都是谷歌的TPUs和亚马逊的Trainium,而非英伟达的GPUs。在Anthropic之外,Meta、SSI等也加入谷歌TPU的客户名单。黄仁勋从多年前反复强调的“The more you buy, the more you save”,似乎正在变成“The more TPUs you buy, the more GPUs you save”。

https://www.whitehouse.gov/presidential-actions/2025/11/launching-the-genesis-mission

图片

美国启动“创世纪计划”,旨在倾举国之力汇聚政企学研各方的研发资源,用AI加速创新发现、解决这个世纪最具挑战的问题。该计划将创建统一的AI平台the American Science and Security Platform,利用积累了几十年的联邦科学数据集,训练科学基础模型并创建AI智能体,基于在半导体和高性能计算领域的创新和沉淀,加速科学突破,尤其聚焦先进制造、生物科技、材料科学、核裂变与核聚变能、量子信息科学、半导体与微电子学。

https://iceberg.mit.edu

图片

MIT等联合开展“冰山项目”,利用大型人口模型来模拟人与AI协作的劳动力市场,旨在捕捉GDP、失业率等传统指标所无法有效捕捉的AI经济带来的影响。该项目用自主智能体代表1.51亿名劳动者,与数千个AI工具交互,施展3.2万多种技能。同时推出“冰山指数”,以技能为中心,衡量每个职业中AI系统能够执行的技能所对应的工资价值。分析显示,目前AI已经能够接管大约1.2万亿美元的工资价值,比重占到11.7%,影响遍及全美各州,覆盖管理、金融、专业服务等领域。


返回列表