MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

2024年04月25日,12时41分29秒 OpenAI 阅读 3 views 次

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

MiniMax 用业界标准的开源测试集测试两个模型。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s,在知识、推理、数学、编程、指令遵从等维度与行业领先的语言模型进行了对比,结果如上。标注星号的为 MiniMax 调用API测试得到的结果,其余分数来自对应的技术报告。

机器之心了解,MiniMax还基于自研大模型开发了一款生产力产品“海螺AI",且目前已经接入了 abab 6.5。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

“海螺AI”的网页界面,设计很简洁,听说读写,功能覆盖比较全面。

从产品界面上看,“海螺AI”支持速读长文、智能搜索、免费查数据、识图、创作文案,还支持语音通话,是少数全面覆盖 C 端用户对大模型主要需求的 AI 助手。从目标用户群来看,似乎包括学生、职场人士、内容创作者。

一、听说俱佳:有问题?直接聊!

与 Claude -3 Opus、Mistral-Large、Gemini-1.5-Pro 等领先大语言模型相比,“海螺AI"的一大亮点是支持语音交互,也是我们最先体验的功能。使用语音首先要有一个听整天都不嫌腻的声音,“海螺AI"为此提供了丰富选项,听起来还比较自然,不会太机械和生硬。

第一次使用“海螺AI”是在花鸟市场买绿植,因为不懂行情就问了下它,小海螺展现出不错的理解能力和反应速度,老板开价 75 块的天堂鸟最后被我们以 65 元的价格拿下。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

当聊天对象换成思维跳跃、表达不完整甚至模糊的小孩子,“海螺AI”也能跟上节奏,给予陪伴。这位一年级小朋友第一次和它聊天就聊得不错,还互报了名字。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

和小朋友第一次聊天的部分内容

第二次聊天时“海螺AI"甚至主动叫出波妞的名字,迅速拉近两人距离。面对孩子抛出的冷笑话和谐音梗,“海螺AI"也能利落接茬。不过为了不让话“掉在”地上,“海螺AI”有时会过于话痨。MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

与一年级小朋友轻松聊天,对话还有些搞笑。

MiniMax 创始人闫俊杰曾提到自己 80 岁的阿公第一次用“海螺AI”就和它讨论了四五十分钟的历史人物,“之前想不到有人会这么来用它。”事实上,愿意打字和大语言模型聊上多个回合的人并不多,更多人还是习惯语音,尤其是老人、小孩和视障人士。实时语音加上手机移动,大大降低了上手门槛,也扩展了产品的应用场景,会慢慢引发很多人的需求。

找“海螺AI”练口语就是一个例子。YouTube 上很多两年前的英语学习视频仍有动辄千万的播放量,足见英语学习的市场潜力。ChatGPT 刚出来时,最先涌现的一批场景应用也是口语陪练。点击主页上的“和我语音通话”就能开始聊天模式,英文说明练习口语的意图后,“海螺AI” 切换到英语模式,发音还挺标准。MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

随机找了个地方和海螺AI聊了几句。

参照雅思口语主题,我们先模拟咖啡馆场景互动又切换到大厂面试环节,这位免费教练都能引导你将话题展开来说。 和一些国外 AI 软件不同,你不用太担心嘴慢而被它抢话、打断,交流起来比较从容。另外,听不懂时还可以用中文发问,它也会用中文回答。

据报道, MiniMax 也是极少数下注语音大模型的团队之一。利用长达数百万小时高质量音频数据进行训练后,MiniMax 语音大模型性能在去年基础能力上更进一步,效果已经不输 ElevenLabs 和 OpenAI

二、万字长文、作业难题,轻松秒懂

如果说语音交互是“海螺AI”的一个亮点,那么长文本处理能力就是它的基础标配。几百上千字的文章,人类扫一眼就知道大概,一篇 10 万字论文不睡觉也要读上至少一天,但好的大模型只要一两分钟。处理长文本的能力越强,AI 助手能做的事情就越多,一直以来,长文本也是兵家必争之地。

从介绍上看,"海螺AI"的长文速读能力包括快速提炼论文、财报、纪要、书籍要件的关键信息和归纳总结,还能迅速总结微信公众号文章的要点信息和作者观点。不会(或者懒得)写任何提示也没问题,找到引导案例,上传文档就行。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

对于媒体编辑来说,用最短时间获取文章关键信息的能力很重要。我们粗暴地将冗长的斯坦福2024 AI指数报告塞进对话框,没有任何提示,虽然响应时间有点长,但"海螺AI"还是给出了阅读笔记,基本覆盖报告要点。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

还是没有任何提示,“海螺AI”比较好地总结了一篇 55 页英文学术论文的内容:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

这是哈佛大学沃顿商学院教授 Ethan Mollick 在社交媒体上转发的一篇论文,关于学生学习方法效率的实证研究,题目是 Improving Students’ Learning With Effective Learning Techniques: Promising Directions From Cognitive and Educational Psychology

谷歌 DeepMind 在仿人足球领域取得的新进展发表在 Sience Robotics 。这一次,我们故意写了一个比较复杂的提示,看看“海螺AI”能否遵从指令提取信息:

“我是一个对机器人技术有极大兴趣的媒体从业者,但是没有相关的技术背景。请帮我深入理解这篇最新发表研究论文,并从以下几个方面对论文进行详细解读:

1.论文的研究目标是什么?要解决的重要问题是什么?这个问题对于学界或者产业发展,有什么重要意义?

2.论文提出了什么新的思路、方法或模型?跟之前的方法相比有什么特点和优势?请尽可能参考论文中的细节进行分析。

3.论文通过什么实验来验证所提出方法的有效性?实验是如何设计的?实验数据和结果如何?请引用关键数据加以说明。”

这是“海螺AI”返回的结果,还不错。我们看到“海螺AI”也支持自定义智能体,将常用的复杂提示创建成一个智能体就能省去频繁复制粘贴提示模板的麻烦。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

相关论文Learning agile soccer skills for a bipedal robot with deep reinforcement learning

相比论文,更多人每天阅读最多的文章可能来自微信公众号。很多人会有“收集癖”,看到好的公众号文章都会马上点击收藏,想着日后再看,但大部分人都再也没有打开过。“海螺AI”还可以帮“收藏夹”减负。 比如,直接将《对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品》公众号文章链接贴到对话框,就能领会要点:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

如何好好睡一觉?不用读完几千字的文章吧,直接抓重点不好么?

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

在父母帮助孩子完成家庭作业方面,AI 也是一个非常有用的工具,降低家长辅导过程中的心梗几率。“海螺AI”还支持图像识别(不过,一次只能输入一张图片),我们随机拍下一道普通公立小学的低年级数学作业题,上传,要求“海螺AI”用孩子听得懂的话讲解思路。

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

这是“海螺AI”的回复:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

我们又试了试带有奥数性质的题目,好像也可以搞定。这是我们上传的截图:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

因为没有事先给出任何提示,“海螺 AI ”直接用设未知数的方式解答:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

低年级学生肯定看不懂,我们要求它用卡通人物的口吻、提供更适合低年级学生的解题思路,效果还不错:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

孩子说自己懂了,我们又让“海螺AI”出题考考是不是真掌握。不过新题目只是换了个数字,没有什么挑战性:

MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

三、押注 MoE ,成效渐显

“海螺AI”接入的是 MiniMax 最新发布的万亿 MoE 模型 abab6.5。abab6.5 包含两个模型 abab 6.5 和 abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(和 Claude 3 Opus 支持的上下文窗口相同,相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。abab 6.5 研发过程中,MiniMax 找到了更多加速实现 Scaling Laws 的办法,包括改进模型架构、重构数据 pipeline、训练算法及并行训练策略优化等等。

今年 MoE( Mixture of Expert-混合专家模型)架构已经成为了大模型厂商的主流选择,而 MiniMax 因为去年 6 月在国内率先投入 MoE 研发,赌上 80% 的算力和研发资源,从产品上看,目前已经尝到了甜头。

对于业务场景涉及大规模、实时 AI 应用的公司来说,MoE 能在大参数带来处理复杂任务能力的同时,又因为 MoE 的稀疏激活特性不会拖累计算效率,搞砸用户体验。据媒体报道,去年 MiniMax 同时为近千家客户提供服务,模型平均每天处理数百亿 tokens。如果未来要服务千万级乃至亿级用户,继续做稠密(dense)模型,生成 token 的成本和延时将变得无法接受。

四、双轮驱动,跑通闭环

值得关注的是,MiniMax 是国内大模型独角兽中业务布局相对全面的一家:既有自研大模型技术,又有多款 toC 原生应用,也有面向企业和开发者的 toB 开放平台。

面向企业和开发者,MiniMax 开放平台通过开放 API 接口为零售、制造业、互联网、内容、医疗等各个行业提供大模型技术,降低打造 AI 应用的门槛。API 调用已经形成商业模式。

在消费者市场,据不完全统计,包括 2022 年推出的 Glow、“海螺AI”以及一款定位沉浸式 AI 内容平台的应用星野在内,MiniMax 至少已经推出了 4 款 AI 原生应用。据称,星野月活已经达到千万级别,星野的用户可以通过购买不同的“会员权限卡”来解锁相应次数的对话额度。单看星野,已经跑通“有模型、有产品、有用户、有商业化”的闭环。

大模型初创公司到底该怎么做?业内众说纷纭,有的认为应该专注基础大模型,有的只做纯应用。目前看来,MiniMax 的答案是要把木桶的各块板子搭长,既要掌握底层技术也要做产品。闫俊杰不久前接受采访时给出了判断,资源排在前列的中国大模型创业公司很难在资源占有量上领先对手一个量级,“拐点只可能来自技术、产品或者是商业化效率的领先。”除了技术上如何达到 GPT-4, MiniMax 今年另一个目标就是产品上如何将用户规模翻十倍,单个产品能突破千万 DAU。

(来源:机器之心)



用户登录