通用Agent都快被骂废了，MiniMax突然搞了个能打的

效果也比我预计中要好很多，是一个比较标准的产品展示页，或者博客类型的页面，顶端栏划分了不同的信息，顶端和底部都保留了大量跟Hailuo 02的相关项，每一个页面都能交互，包含的信息量非常大，几乎完美的匹配了我的需求，你看到提示语中我说到的东西几乎都实现了。直接把生成的结果和我给的提示语对照一下，可以看到我给出的要求基本都做出来了，每一屏需要的景色背景图、数据表、地图、语音播放全都完成，编程考了，多

AI生成曾小健

538人浏览 · 2025-06-19 09:44:14

AI生成曾小健 · 2025-06-19 09:44:14 发布

通用Agent都快被骂废了，MiniMax突然搞了个能打的

原创 AI沃茨卡尔的AI沃茨 2025年06月18日 18:03 浙江

螺旋镖还是回到通用 Agent 了，

100天里，我们一起见证了创作、设计、搜索、编程、旅游、办公、播客等垂直领域 Agent 们的诞生，

也迎来了通用 Agent 一次完整的能力升级 ——

MiniMax Agent

不需要邀请码，也不搞限额，这几天已经在海外火起来了，

几周前我就拿到了这款 Agent 的测试资格，现在可算是蹲到了MiniMax 开源周，可以好好说说，通用 Agent 2.0（我单方面起的名字）具体升级了什么：

PPT：有多套模版，还可以包含Smartart元素和可视化图表
编程：能模拟实际场景下的真实操作，减少网页类代码的Bug
多模态理解：既可以输入音频、视频、图像，又能生成图像、视频和视频
Deep ReSearch（深度研究）：内置API、基础搜索、Browser use等信息检索工具
支持MCP：内置地图、github/gitlab、slack、figma等 MCP Servers，后续还可以自定义

那我就按照群里收集到的Agent使用场景和频率，给增强后的能力们安排上测试案例，从对话交互、思考过程、交付结果来直观展示这次通用 Agent 的升级变化，Here we go！

🔗 agent.minimax.io（⬅️使用去这里）

01｜多模态网页

我现在已经习惯把搜索或者对话记录打包好做成可视化网页了，

这用来自己重温或者是分享给别人都是方便到离谱，之前的缺点就是文字对应的图片找不到，或者是找不准。如果是喜欢自驾的朋友，这段时间新疆独库公路开放了，直接用MiniMax Agent给大家做一个带音频解说的旅游网站。

，时长00:55

提示语长度预告～

我要制作一个以“新疆独库公路 · 四季穿越”为主题的沉浸式滚动网页，每一屏聚焦一个沿线景点，比如独山子大峡谷、那拉提草原、巴音布鲁克、库车大峡谷等等。页面采用全屏滚动翻页的形式，让浏览者随着页面的推进，像是亲自沿着这条561公里的传奇公路穿行一样。

每一屏都包含：

一张全屏的景点照片（Hero image）
一段由 MiniMax 生成的中文音频讲解（配合静音播放控制）
一个 Google Maps 地图，定位该景点的位置与路线
一张基于 Apache ECharts 绘制的简洁数据图表，例如海拔变化、开放月份、日照强度等

## 色彩风格（参考新疆自然地貌）

为了更贴合新疆的自然气质，我希望页面整体颜色风格参考“高原自然色”

##排版与视觉比例

中文大标题使用黑体粗字，英文作为注释点缀，字号小一阶
核心数字（如公里数、海拔等）使用超大字号，形成视觉锚点
整体遵循 8pt 栅格排版，保持对齐、留白有节奏感
滚动结构使用 scroll-snap，用户每次滚动都跳到一整屏，不混乱

## 数据可视化

每个景点配一张简洁的折线图，基于 Apache ECharts 5（CDN 引入）渲染，不要复杂交互，仅做信息补充

## 地图与语音

地图用 Google Maps iframe 嵌入，每一屏都要准确标注当前景点位置，并允许拖动浏览
MiniMax TTS 生成的音频讲解，页面打开时延迟加载，首次播放需要用户交互触发（保证自动播放策略合规）
所有地图与音频组件都使用懒加载方式，减少页面初始加载压力

## 技术架构要求

使用 HTML5 + Tailwind CSS 3（JIT 模式）+ 原生 JavaScript 开发
动画库统一用 anime.js，通过 CDN 引入
页面内不超过 6 个并行请求（含图表、地图、音频），保持加载体验流畅
页面可直接部署在静态页面平台（如 Vercel、GitHub Pages）

## 输出格式

单页响应式页面，支持大屏（1920px）浏览体验
向下滚动时自动加载下一屏
页面内容以模块形式组织，每一屏保持信息一致性：景点图、地图、音频、图表
页面整体视觉统一、干净、现代、具有新疆地域识别度与沉浸感

MiniMax Agent 只需要半小时就完成了，

直接把生成的结果和我给的提示语对照一下，可以看到我给出的要求基本都做出来了，每一屏需要的景色背景图、数据表、地图、语音播放全都完成，

而且图片质量很高，有点子国家地理那味儿了，网页设计审美也很绝，这个极简风又高级又好看，我直接幻视苹果组件。

在执行过程里，Minimax Agent会结合自己的代码优势，创建数据收集脚本、可视化数据分析脚本、

还会主动创建一个源文件跟踪记录，记录所有使用的资源和验证过程，

因为有多模态能力，在验证的过程中，它还可以自己体验看一遍确保质量。而且上面展示效果里所有的图片和音频都是直接生成。现在很多通用 Agent 会用图片搜索来匹配合适的图片，结果不是因为分辨率低，就是因为图片尺寸不一，有些时候图片本身跟文字内容就配不上。

而且我还发现一个有趣的设定，MiniMax Agent 能自己选择合适的中文音色，

换句话说任务执行前我是不是还可以主动指定音色偏好。

更6的来了，

它在构建好网页后还可以主动模拟浏览器操作，

确保输出的网页不会有打不开这类低级错误。

还有还有，

minimax agent支持批量打包下载中间生成的所有文件，

这一点是很多Agent都没有的。

🔗 对话记录 agent.minimax.io/share/281052363272344

作为第一个case，我们再上点强度，

跟隔壁 Manus 对比一下效果吧，

，时长00:19

如果没看minimax之前，我确实还觉得很不错。

但现在可以看到背景图确实很糊很糊，一下子拉低了整个页面的质量，

而且 manus 没有内置音频能力，对话过程中也无法调用对应api或者代码实现，这个音频组件就是小摆设实际上是不能直接使用的，体验-1。

02｜主题PPT

再来做个PPT吧，

既然买不到 Labubu，那我做几个 Labubu 养养眼总可以了吧。

幸好四月份还囤了一个，

这可能是我上半年唯一一只了。

，时长00:24

提示语长度预告～

制作一个 “LABUBU 现象” 网页，类似可滑动的 PPT 展示，从角色起源、彩色变体、市场热度、文化影响到未来趋势进行全方位剖析。

每屏内容包括：

Hero 图（Labubu 角色）
简洁数据图（ECharts 折线/条形）
深色按钮 & 关键句强调
字幕式英文小注
## 动效设计

引入 anime.js（CDN），实现模块级 scroll-triggered 动画，如 Zoom-In、Parallax 移动、淡入淡出
动画节奏由缓动函数 cubic-bezier(.33,.01,.68,1) 控制，提供轻松 yet 有张力的切换体验
增设 “减少动画” 模式，符合可访问性需求

## 数据可视化

使用 Apache ECharts 5（CDN）生成折线图/条形图，展示如：色彩变体数、年度发售数量、盲盒获得率
图表线条通过特殊点缀色（薄荷青）呈现，透明渐变只在此色区域展开
线条样式简洁，无填充背景色，提升信息识别度；图层支持 mix-blend-mode: multiply 与背景融合

## 技术栈 & 资源

HTML5 + Tailwind CSS 3（JIT + Purge 模式，下发 < 25 KB CSS）
引入 Google Fonts（中：思源黑体，英：Outfit 或 Nunito）
动画库：anime.js（JsDelivr CDN）
图表库：Apache ECharts 5（CDN）
图标：Font Awesome 6 / Material Symbols（SVG/CDN）
图片 & SVG 使用 SVGO 优化，CLS < 0.1；页面请求 ≤6 并行，保障首屏渲染性能

## 输出格式

单页响应式布局，模块展现为可翻页“PPT”
每块 Hero 图 + 小英文注解 + 中文重点讲解 + 符号图表
色彩、动效、排版风格经过新 Labubu 主题定制
视觉调性统一：干净明快、资讯清晰、调性年轻趣味

这个封面是营销汇报环节中最重要的一页，

做过运营的都知道，高亮最优数据是必须的一环，

这一页minimax做的非常漂亮，数据正确、配图配色好看、排版都很精致，可以直接照搬。

再看中间页的数据分析，

从市场占比、泡泡玛特的IP 营收对比、二手市场价格上做出了相应的数据总结，

甚至引入了前几天拍卖掉的108万天价初代labubu（许个愿，我也想要）。

而且它还能总结了目前某音、某书、某博的讨论数据，

并且列出真实产生的明星效应事件，非常清晰一目了然。

最后介绍了labubu的创始人、设计理念以及labubu和泡泡玛特和简要合作历史，总结了未来的发展趋势，整个网页不管是从一个报告看还是从设计上看质量都蛮高的。

03｜深度研究

编程考了，多模态考了，MCP、PPT也跑了，是时候试试看硬实力的 Deep Search 了。

刚好 MiniMax 的视频模型 Hailuo 02（0616(其实是618）都起来打榜了，

单看视频效果也是很离谱的程度，

，时长00:05

这打击感太强了，

所以我这把直接让 MiniMax Agent 自己来做一个AI视频发展全景总结：

，时长00:33

提示语短度不预告～

MiniMax 的视频模型 Hailuo 02（0616（其实是618）马上就要上线了，我真的非常兴奋。现在，我想知道关于AI视频的所有的一切，包括时长、清晰度、技术架构、功能点首尾帧、超清、延长、主体一致性等，从24年6月份到25年6月份。我希望得到一个极度详细的万字报告。这个报告不要太单调，要写的像故事那样。同时做一个时间线，放上所有ai视频产品，包括Hailuo的迭代时间点。把最后搜索得到的结果，按照合适的格式整理成美观的网页。

这一次跟前两次不同，我没有具体指定一些风格、技术栈、配色方案等等，

而是直接让 MiniMax Agent 自己选择合适的格式整理成网页。

这更接近我平时使用深度研究或者深度搜索的场景，需求比较模糊，更期待模型自身给我的反馈。

效果也比我预计中要好很多，是一个比较标准的产品展示页，或者博客类型的页面，顶端栏划分了不同的信息，顶端和底部都保留了大量跟Hailuo 02的相关项，每一个页面都能交互，包含的信息量非常大，几乎完美的匹配了我的需求，你看到提示语中我说到的东西几乎都实现了。

我最最喜欢的是顶部这个类似通知滚动条的设计，就很有一种人感，有一种小巧思的感觉。

很多高频运营的网页都会使用的做法，nice。