商汤科技刚发了个新模型,叫 SenseNova 6.7 Flash-Lite。跟以前那些笨重的多模态模型不一样,它专门为了“现实世界”里的数据流设计的——不管是你桌上的复杂布局、一份乱糟糟的文档,还是金融图表,它都能看懂。
这玩意儿把“看(See)、想(Think)、做(Act)”全串到一块儿了,不用你在中间手动切换模式。我就想,以前搞数据分析或者写 PPT,得调来调去半天,现在可能真能一步到位。
省得厉害,但也省得聪明
最让我惊讶的是它怎么省参数的。传统模型习惯搞个“中间视觉层”来过渡,这玩意儿直接砍掉了。结果呢?参数少了,脑子(智能体能力)反而更灵光了。在几个权威测试里,它的成绩居然是目前最好的(SOTA)。
算力成本这块也被打下来了。推理时用的 Token 比那些纯文本智能体少了 60%。算笔账:同样的钱,以前可能跑几个任务,现在能跑更多。这对打算落地应用的公司来说,边际成本确实降了不少。
响应速度也是实打实的,毫秒级。高频聊天或者实时控制场景下,那种让人抓狂的延迟感基本没了。
五大本事,专治各种“不听话”
这模型号称有五大核心能力,听着挺唬人,但拆开看其实都是为了解决实际干活时的痛点:
- 能拍板做决定:它不是光在那儿分析,遇到事能自己拿主意并动手干。
- 工具用得顺手:不用你一步步教它调哪个 API,需要啥工具它自己就去组合调用。
- 耐造:哪怕环境很乱,数据乱七八糟,它也能稳住,不瞎猜。
- 会改错:要是它干错了,能自己发现,自己修正或者重跑,不用人工去救场。
- 记性好:聊好几轮天,它能记住前面的上下文,不会聊着聊着就忘了咱刚才说啥。
这五项凑一块儿,感觉在金融、制造、医疗这些行业真能派上大用场。
给开发者的“诱饵”
商汤这次还发了个开发者激励计划,挺实在:
- 首月白嫖:有个“限时 Token Plan",第一个月白送额度。每 5 小时能刷新 1500 次调用。
- 技能全开源:SenseNova-Skills 系列的办公技能全公开了。想搞办公自动化的开发者可以拿去看看,省得自己去从头造轮子。
最后说两句
SenseNova 6.7 Flash-Lite 这个去视觉化的架构确实有点东西,省了参数和 Token,活儿还干得挺细。配合这个免费的试用策略,感觉以后企业想上多模态智能体,大概率会先拿它试试水。不过,实际跑起来到底稳不稳,还得看具体的应用场景吧。
