Minimax“五连发”都包含哪些内容? 有何影响? 一篇文章为你全面解读
- 2025-07-15 08:22:10
- 482
五天五款新品,MiniMax上演“技术爆炸”:百万字上下文推理模型、全球性价比最高的视频生成、零门槛AI制片、靠谱Agent与任意音色合成齐发。作者亲测后直言,这可能是下一个“DeepSeek时刻”。
6月17日-23日,MiniMax 稀宇科技一连五天发布了五项产品。一时间,网络上各类消息四起。当然,毫不意外地又有一批喊“颠覆”、“变天”的博眼球内容混杂在其中。
坦率说,“宣传为虚,上手为实”,是否有真正上手使用,在实际应用场景是否如宣传般好用,这并不是短时间内可以得出结论的(多年的产品经理生涯告诉我,“体验”不等于“使用”)。
因此,这段时间以来,我刻意地将使用场景切换到Minimax的相关产品当中。经过一段时间的使用,也算是有些心得与思考。
接下来,我将按照发布内容,进行一一梳理和解读(由于官方有关于这5天更新内容的详细介绍,因此我将不再重复)。
Day 1/5: MiniMax-M1,全球首个开源大规模混合架构的推理模型
打头阵的M1推理模型,从测评结果来看,与OpenAI-o3、Gemini-2.5 Pro、Deepseek-R1-0528等公认的Top级模型的表现是齐平的。
从我这些天的日常体验来看,与我常用的Deepseek-R1-0528相比,体感上的确没有明显的差别。这个“没有明显的差别”,是指既没有感觉到弱在哪,也没有感觉到强在哪。甚至我敢打赌,如果对结果进行盲测,绝大部分人应该都分辨不出二者的差别。
但M1的差异化其实不在于能力,而是源自其“混合架构”的两点,其一是“支持目前业内最高的100万上下文的输入”,其二是“以业内最低的价格在官网提供API”。以下是Minimax的官方文章对这两点的表述。
这主要得益于我们独创的以闪电注意力机制为主的混合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。例如,在用8万Token深度推理的时候,只需要使用DeepSeek R1约30%的算力。这个特性使得我们在训练和推理的时候都有很大的算力效率优势。
因为相对高效的训练和推理算力使用,我们在 MiniMax APP 和 Web 上都保持不限量免费使用,并以业内最低的价格在官网提供API。
这就是Minimax标题所宣称的“全球首个开源大规模混合架构的推理模型”。当然,我认知里的“首个混合架构”应该是腾讯的混元大模型(号称“业内首个超大规模混合Mamba推理模型”)。
不过这些名头归属的争论,咱们作为使用者并不太需要关注。我这里更想点出的,是我发现各大模型在“卷能力”的同时,也开始卷其他的差异化特性。像之前腾讯的混元T1大模型,就是通过混合Mamba架构提升了运行速度。
而Minimax则是从上下文长度和运行成本上拉开差距(没想到之前以“高效的算力利用”著称的Deepseek,不到半年就成了对比中的“高成本”产品)。
Day 2/5:Hailuo 02,打破全球视频模型效果成本纪录
视频领域我关注不算多,因此对于MiniMax本次更新,我更多地参考了多方的意见。总的来说,我认为“数字生命卡兹克”的测评和总结比较值得一看。
大体来讲,本次Hailuo 02最为惊艳的地方就是,它可能是目前全球唯一一个可以生成体操、杂技表演等复杂人体动作的模型。这一点从官方的演示视频和最近在网上火热的“动物奥运会”视频就可以看出。
同样让人惊艳的还有价格,从下图可以看到,同样的成本,Hailuo 02无论是在768p和1080p的生成,性价比都是最高的。同时Hailuo 02优秀的指令遵循特性,我们知道,视频生成领域有着“抽卡机制”的存在。二者相结合,可以说,Hailuo 02是目前生成视频使用者的首选模型了。
Day 3/5:MiniMax Agent,最大的智慧是“靠谱”
这应该是国内继Manus、扣子空间之后,第三个具有影响力的AI Agent产品了。官方对其的表述是,“MiniMax Agent,一个能完成长程(Long Horizon)复杂任务的通用智能体,也就是能多步规划出专家级解决方案、能灵活拆解任务需求、并能执行多个子任务从而交付最终结果”。
从能力来看,编程、多模态、MCP扩展,这些AI Agent该有的,MiniMax Agent都具备。那么标题所说的“靠谱”从何而来呢?按照官方的说法,就是它“能够模拟用户操作做非常全面的测试,不交付有bug的网页”。
关于这一点,我在介绍扣子空间时就提到,“对于复杂的任务,扣子空间的稳定性还有待提升”。因此,MiniMax说“最大的智慧是‘靠谱’”,这一点我很是认同。当然,在“靠谱”这个层面,是需要来自各类场景的使用来验证的,我们姑且把它作为一个长期观察项,期待更多使用者的验证吧。
Day 4/5:Hailuo Video Agent,Vibe Videoing 零门槛,成片直出
标题中的“Vibe Videoing”,是指通过AI技术实现“言出法随”的视频生成方式。对于Hailuo Video Agent,可以简单理解为“视频模板 + AI生成”,即我们选择视频模板,再输入视频主题的文字或图片,AI就可以将二者进行结合,通过调用各类视频制作工具,从构思到视频生成到后期配音直接完成,直接向用户交付成品级别的视频。关于这一点,MiniMax官方有更详细的描述。
抛弃传统工作流+节点的工具模式,通过LLM语言模型的工具调用能力,创新性地支持用户在自然语言描述中构建完整视频;
打造视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程工具集,并通过Agent模型在不同阶段实现自动调用。为了提高短片创作的质量,我们遴选了所有视频创作需要的最佳工具集;
Agent思维链可视化,用户实时查看Agent创作流程,为自定义编辑功能提供可视窗口与操作空间。
我自己曾经试过全程用AI来生成一首歌曲及其MV。但过程中的所有工具都需要我自己来调用,最后在拼接画面加特效的步骤还是得靠人工操作剪映来完成。应该说视频视频的AI Agent产品的出现,是很让人惊喜的。但对比起来,MiniMax说他们将分三个阶段打造Hailuo Video Agent,这一点更加让人期待。
第一阶段,提供专业视频创意Agent模版,用户只需根据提示输入文字或图片,即可一键生成高质量创意短片;
第二阶段,半自定义视频Agent,让用户能够在视频生成的任一环节进行自由编辑;
第三阶段,实现完全形态的端到端视频Agent。
MiniMax说,接下来的这个夏天,我们计划陆续把第二阶段的Agent创作工具开放给大家。我们也可以期待,在它的推动下,业界能够做到“更轻松转化创意,让视频创意和生成更加普惠”。
Day 5/5:Voice Design,万般声韵,因你而生
最后一个是“声音生成”领域的模型Speech 02,它最为亮眼之处,就是支持基于用户通过自然语言描述,包括音频质量、发声方式、情感基调以及人物画像,来生成用户心中所想的音色。关于这一点,我们可以直接感受一下用它的模型生成的介绍文本的朗读。
通过Voice Design的方式生成声音,主要解决语音合成领域的两个挑战:
第一个挑战是,音色库所提供的系统音色质量虽高,但往往侧重于通用场景,难以精准匹配用户各个细分场景下的多样需求;
第二个挑战是,复刻音色虽然可实现“所听即所得”,但为了达到满意的效果,用户需要花大量的时间准备高质量输入素材,同时存在潜在的版权风险,用户想要获得所需要的音色仍存在一定门槛。
理论上,Speech 02就是一个“任意语言 + 任意音色”的“声音生成”模型。再结合近期AI Agent的迅猛发展,我们完全可以憧憬,在今年就会看到直接由AI全自动全流程生成的,符合书中各个角色设定的“有声书”。甚至,我可以肯定,类似的产品已经在研发中,或者是在本人还没注意到的地方诞生了。
不算总结的总结
我在去年曾经体验过一段时间的“海螺AI”(那会儿的Chat还叫“海螺”,现在这个品牌已经是视频专属了),坦率说并没有任何让我留下深刻印象之处。
之后的日子里,时而也有听说Hailuo 01、Speech 01的一些报道,但也谈不上惊艳。而这两周前的“五连发”,从文本生成、视频生成、Agent再到声音生成,可以说覆盖了我们日常应用的各个领域,一下子就全面开花,而且表现优秀,就这么不讲道理地大跨步向前迈进。
Minimax在介绍中说,M1推理模型能够支持100万上下文的输入,而《三体》三部曲一共才86万字。思及此处,不禁让我想起大刘在《三体》中所提到的“技术爆炸”。
或者说,这,会不会是又一次“Deepseek时刻”呢?且让我们继续保持关注吧。
题图来自 unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 上一篇:苹果卓里卓气
- 下一篇:林里回应高考生买奶茶收到分鸭子