平博体育- 平博体育官方网站- APP下载【华鑫计算机行业周报】华为发布盘古大模型55 MiniMax“发布周”拉开序幕
2025-08-18平博体育规则,平博体育,平博真人,平博棋牌,平博彩票,平博电竞,平博百家乐,平博电子,平博游戏,平博体育官方网站,平博体育官网入口,平博体育网址,平博体育靠谱吗,平博体育app,平博app下载,平博投注,平博下注,平博官方网站,平博最新入口,平博体育平台推荐,平博体育平台赛事,平博赛事,平博在线体育博彩,平博足球博彩,平博足球投注,平博娱乐场
6月21日,前 OpenAI 首席技术官 Mira Murati 创立的神秘 AI 初创公司 Thinking Machines Lab 已完成 20 亿美元种子轮融资,这可能是历史上最大规模的种子轮融资。根据《金融时报》报道,本轮融资由 Andreessen Horowitz 领投,Sarah Guo 的 Conviction Partners 参投,公司估值达到 100 亿美元。根据Thinking Machines的官方博客,公司的AI将在科学和编程等领域处于技术前沿,致力于开发具有推理功能的多模态AI模型。公司计划为模型配备多模态功能,并承诺将部分技术开源,特别是在AI安全相关领域。虽然具体研究方向尚未对外公布。但公司凭借 Murati 的声誉以及其他加入团队的知名 AI 研究人员,成功吸引了投资者的关注。
中长期,建议关注临床 AI 产品成功落地验证的嘉和美康(688246.SH)、以AI为核心的龙头厂商科大讯飞(002230.SZ)、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于 GB200 放量的鼎通科技(688668.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。
具体来说,盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构与 TinyInit 小初始化方法,在昇腾 NPU 上实现 10+T token 数据的长期稳定训练。华为还提出 EP group loss 负载优化设计,既保障专家间负载均衡,又提升领域特化能力。Pangu Ultra MoE 采用业界先进的 MLA 和 MTP 架构,训练时运用 Dropless 策略。得益于此,该模型具备了高效长序列、高效思考、DeepDiver、低幻觉等核心能力,并在知识推理、自然科学、数学等领域的大模型榜单上位列前沿。
盘古 Pro MoE 是一个 72B A16B 的模型,即每次工作时会激活其中 160 亿参数。在智能体任务打榜中,其成绩可比肩 6710 亿参数的 DeepSeek - R1,在文本理解与创作领域位居开源模型榜首。该模型经大量昇腾硬件特性仿真建模,形成最优架构,尤其适配 300I Duo 推理芯片的宽度、深度及专家数等参数。针对不同芯片专家负载不均衡问题,华为提出分组混合专家 MoGE 算法,实现跨芯片计算负载均衡,显著提升盘古训推系统吞吐效率。
华为实现相关技术突破的关键路径如下:在后训练阶段使用渐进式 SFT 和多维度奖励的强化学习,这提高了模型的推理能力;针对长序列进行重点优化,提出 Adaptive SWA 和 ESA 两项关键技术来降低长序列场景中的计算量和 KV Cache,由此盘古 Embedding 可轻松应对 100 万 token 长度的上下文;针对幻觉问题,提出知识边界判定、结构化思考验证等创新方案,实现模型推理准确度的提升。
M1显著的优势是支持目前业内最高的100万上下文的输入,与闭源模型里面的GoogleGemini 2.5 Pro 一样,是 DeepSeek R1 的 8 倍,以及业内最长的8万Token的推理输出。这主要得益于MiniMax独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得我们在训练和推理的时候都有很大的算力效率优势。除此之外,MiniMax提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重(而非传统token更新)提升强化学习效率。在AIME 的实验中,我们发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍,显著的优于 DeepSeek 早期使用的 GRPO。
目前,MiniMax官方提供了3种API版本:768p-6s、768p-10s和1080p-6s。在此背后,官方首次公开技术细节,透露了“降本”关键——Hailuo 02的核心框架:噪声感知计算重分配(Noise-aware Compute Redistriburion,NCR)。基于这一架构,Hailuo 02的训练和推理效率均提升了2.5倍。这使得模型能够通过增大参数量来增强表达能力,同时不增加太多的训练成本。而更大的参数量和更高的训练效率,也意味着模型能够在更广泛的数据集中提升能力。最终,Hailuo 02的参数量达到前代模型的3倍,训练数据提升4倍。从技术角度出发,不断抬高效果天花板的同时,一次次重新定义性价比。毫无疑问的是,以视频生成领域为代表,国产模型正在全球舞台上,从追赶者进阶到潮流引领者。
根据Thinking Machines的官方博客,公司的AI将在科学和编程等领域处于技术前沿,致力于开发具有推理功能的多模态AI模型。与现有算法相比,其模型将具有更强的适应性,能够适应人类专业知识的全部范围。公司计划为模型配备多模态功能,并承诺将部分技术开源,特别是在AI安全相关领域。虽然具体研究方向尚未对外公布。但公司凭借 Murati 的声誉以及其他加入团队的知名 AI 研究人员,成功吸引了投资者的关注。
本周(6.16-6.20日),AI算力指数/AI应用指数/万得全A/中证红利日涨幅最大值分别为1.67%/1.69%/0.54%/0.23%,AI算力指数/AI应用指数/万得全A日跌幅最大值分别为-1.83%/-2.03%/-1.20%/-0.65%。 AI算力指数内部,中际旭创以+11.46%录得上周最大涨幅,*ST云创以-19.33%录得上周最大跌幅。 AI应用指数内部,沪电股份以+11.88%得上周最大涨幅,实丰文化以-16.10%录得上周最大跌幅。
中长期,建议关注临床 AI 产品成功落地验证的嘉和美康(688246.SH)、以AI为核心的龙头厂商科大讯飞(002230.SZ)、芯片技术有望创新突破的寒武纪(688256.SH)、高速通信连接器业务或显著受益于 GB200 放量的鼎通科技(688668.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。