Minimax“五连发”都包含哪些内容? 有何影响? 一篇文章为你全面解读

2025-07-15 08:22:10
482

五天五款新品，MiniMax上演“技术爆炸”：百万字上下文推理模型、全球性价比最高的视频生成、零门槛AI制片、靠谱Agent与任意音色合成齐发。作者亲测后直言，这可能是下一个“DeepSeek时刻”。

6月17日-23日，MiniMax 稀宇科技一连五天发布了五项产品。一时间，网络上各类消息四起。当然，毫不意外地又有一批喊“颠覆”、“变天”的博眼球内容混杂在其中。

坦率说，“宣传为虚，上手为实”，是否有真正上手使用，在实际应用场景是否如宣传般好用，这并不是短时间内可以得出结论的（多年的产品经理生涯告诉我，“体验”不等于“使用”）。

因此，这段时间以来，我刻意地将使用场景切换到Minimax的相关产品当中。经过一段时间的使用，也算是有些心得与思考。

接下来，我将按照发布内容，进行一一梳理和解读（由于官方有关于这5天更新内容的详细介绍，因此我将不再重复）。

Day 1/5： MiniMax-M1，全球首个开源大规模混合架构的推理模型

打头阵的M1推理模型，从测评结果来看，与OpenAI-o3、Gemini-2.5 Pro、Deepseek-R1-0528等公认的Top级模型的表现是齐平的。

从我这些天的日常体验来看，与我常用的Deepseek-R1-0528相比，体感上的确没有明显的差别。这个“没有明显的差别”，是指既没有感觉到弱在哪，也没有感觉到强在哪。甚至我敢打赌，如果对结果进行盲测，绝大部分人应该都分辨不出二者的差别。

但M1的差异化其实不在于能力，而是源自其“混合架构”的两点，其一是“支持目前业内最高的100万上下文的输入”，其二是“以业内最低的价格在官网提供API”。以下是Minimax的官方文章对这两点的表述。

这主要得益于我们独创的以闪电注意力机制为主的混合架构，从而在计算长的上下文输入以及深度推理的时候显著高效。例如，在用8万Token深度推理的时候，只需要使用DeepSeek R1约30%的算力。这个特性使得我们在训练和推理的时候都有很大的算力效率优势。

因为相对高效的训练和推理算力使用，我们在 MiniMax APP 和 Web 上都保持不限量免费使用，并以业内最低的价格在官网提供API。

这就是Minimax标题所宣称的“全球首个开源大规模混合架构的推理模型”。当然，我认知里的“首个混合架构”应该是腾讯的混元大模型（号称“业内首个超大规模混合Mamba推理模型”）。

不过这些名头归属的争论，咱们作为使用者并不太需要关注。我这里更想点出的，是我发现各大模型在“卷能力”的同时，也开始卷其他的差异化特性。像之前腾讯的混元T1大模型，就是通过混合Mamba架构提升了运行速度。

而Minimax则是从上下文长度和运行成本上拉开差距（没想到之前以“高效的算力利用”著称的Deepseek，不到半年就成了对比中的“高成本”产品）。

Day 2/5：Hailuo 02，打破全球视频模型效果成本纪录

视频领域我关注不算多，因此对于MiniMax本次更新，我更多地参考了多方的意见。总的来说，我认为“数字生命卡兹克”的测评和总结比较值得一看。

大体来讲，本次Hailuo 02最为惊艳的地方就是，它可能是目前全球唯一一个可以生成体操、杂技表演等复杂人体动作的模型。这一点从官方的演示视频和最近在网上火热的“动物奥运会”视频就可以看出。

同样让人惊艳的还有价格，从下图可以看到，同样的成本，Hailuo 02无论是在768p和1080p的生成，性价比都是最高的。同时Hailuo 02优秀的指令遵循特性，我们知道，视频生成领域有着“抽卡机制”的存在。二者相结合，可以说，Hailuo 02是目前生成视频使用者的首选模型了。

Day 3/5：MiniMax Agent，最大的智慧是“靠谱”

这应该是国内继Manus、扣子空间之后，第三个具有影响力的AI Agent产品了。官方对其的表述是，“MiniMax Agent，一个能完成长程（Long Horizon）复杂任务的通用智能体，也就是能多步规划出专家级解决方案、能灵活拆解任务需求、并能执行多个子任务从而交付最终结果”。

从能力来看，编程、多模态、MCP扩展，这些AI Agent该有的，MiniMax Agent都具备。那么标题所说的“靠谱”从何而来呢？按照官方的说法，就是它“能够模拟用户操作做非常全面的测试，不交付有bug的网页”。

关于这一点，我在介绍扣子空间时就提到，“对于复杂的任务，扣子空间的稳定性还有待提升”。因此，MiniMax说“最大的智慧是‘靠谱’”，这一点我很是认同。当然，在“靠谱”这个层面，是需要来自各类场景的使用来验证的，我们姑且把它作为一个长期观察项，期待更多使用者的验证吧。

Day 4/5：Hailuo Video Agent，Vibe Videoing 零门槛，成片直出

标题中的“Vibe Videoing”，是指通过AI技术实现“言出法随”的视频生成方式。对于Hailuo Video Agent，可以简单理解为“视频模板 + AI生成”，即我们选择视频模板，再输入视频主题的文字或图片，AI就可以将二者进行结合，通过调用各类视频制作工具，从构思到视频生成到后期配音直接完成，直接向用户交付成品级别的视频。关于这一点，MiniMax官方有更详细的描述。

抛弃传统工作流+节点的工具模式，通过LLM语言模型的工具调用能力，创新性地支持用户在自然语言描述中构建完整视频；

打造视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程工具集，并通过Agent模型在不同阶段实现自动调用。为了提高短片创作的质量，我们遴选了所有视频创作需要的最佳工具集；

Agent思维链可视化，用户实时查看Agent创作流程，为自定义编辑功能提供可视窗口与操作空间。

我自己曾经试过全程用AI来生成一首歌曲及其MV。但过程中的所有工具都需要我自己来调用，最后在拼接画面加特效的步骤还是得靠人工操作剪映来完成。应该说视频视频的AI Agent产品的出现，是很让人惊喜的。但对比起来，MiniMax说他们将分三个阶段打造Hailuo Video Agent，这一点更加让人期待。

第一阶段，提供专业视频创意Agent模版，用户只需根据提示输入文字或图片，即可一键生成高质量创意短片；

第二阶段，半自定义视频Agent，让用户能够在视频生成的任一环节进行自由编辑；

第三阶段，实现完全形态的端到端视频Agent。

MiniMax说，接下来的这个夏天，我们计划陆续把第二阶段的Agent创作工具开放给大家。我们也可以期待，在它的推动下，业界能够做到“更轻松转化创意，让视频创意和生成更加普惠”。

Day 5/5：Voice Design，万般声韵，因你而生

最后一个是“声音生成”领域的模型Speech 02，它最为亮眼之处，就是支持基于用户通过自然语言描述，包括音频质量、发声方式、情感基调以及人物画像，来生成用户心中所想的音色。关于这一点，我们可以直接感受一下用它的模型生成的介绍文本的朗读。

通过Voice Design的方式生成声音，主要解决语音合成领域的两个挑战：

第一个挑战是，音色库所提供的系统音色质量虽高，但往往侧重于通用场景，难以精准匹配用户各个细分场景下的多样需求；

第二个挑战是，复刻音色虽然可实现“所听即所得”，但为了达到满意的效果，用户需要花大量的时间准备高质量输入素材，同时存在潜在的版权风险，用户想要获得所需要的音色仍存在一定门槛。

理论上，Speech 02就是一个“任意语言 + 任意音色”的“声音生成”模型。再结合近期AI Agent的迅猛发展，我们完全可以憧憬，在今年就会看到直接由AI全自动全流程生成的，符合书中各个角色设定的“有声书”。甚至，我可以肯定，类似的产品已经在研发中，或者是在本人还没注意到的地方诞生了。

不算总结的总结

我在去年曾经体验过一段时间的“海螺AI”（那会儿的Chat还叫“海螺”，现在这个品牌已经是视频专属了），坦率说并没有任何让我留下深刻印象之处。

之后的日子里，时而也有听说Hailuo 01、Speech 01的一些报道，但也谈不上惊艳。而这两周前的“五连发”，从文本生成、视频生成、Agent再到声音生成，可以说覆盖了我们日常应用的各个领域，一下子就全面开花，而且表现优秀，就这么不讲道理地大跨步向前迈进。

Minimax在介绍中说，M1推理模型能够支持100万上下文的输入，而《三体》三部曲一共才86万字。思及此处，不禁让我想起大刘在《三体》中所提到的“技术爆炸”。

或者说，这，会不会是又一次“Deepseek时刻”呢？且让我们继续保持关注吧。

题图来自 unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

魔法塔的星空百度百科发布网,提供魔法塔的星空百度百科发布信息,第一时间发布列表及资讯,魔法塔全集是魔法塔的星空起点中文网_魔法塔全集首选资讯平台。