字节跳动发新模型了
字节跳动刚把下一代 3D 生成模型 Seed3D 2.0 推了出来。技术报告已经公开,API 接口也接入了火山引擎,开发者现在就能用。
这模型到底强在哪?
跟上一代和其他竞品比,Seed3D 2.0 在两个地方明显更厉害:
- 形状准了:以前那些模型搞不定细碎的边缘或者很薄的墙,这个能还原得挺清楚。复杂物体结构确实好处理。
- 材质看着真:它用的是基于物理的渲染(PBR)材质。说直白点,就是光照下的反光、质感跟真东西似的,不像以前那些模型有时候亮得假或者暗得死气沉沉。
真人觉得怎么样?
光看数据可能有点虚,字节跳动找了 60 个搞 3D 建模的专业人士 做了盲测(就是不让知道是谁做的):
- 如果只比形状,Seed3D 2.0 优势很大,基本没对手。
- 要是把纹理贴图也算上,跟行业里那些主流模型比,用户选它的概率超过了 69%。
说实话,看到这个比例,我觉得它确实跨了一大步。以前那种“看起来还行但细看全是毛病”的情况少多了。
它是咋做到的?
这模型没走老路子,用了点新招数:
- 分两步走:先抓大体轮廓,再填细枝末节。这么拆解之后,那种特别复杂的拓扑结构就不容易出错了。
- 用了“专家混合”(MoE):简单理解就是针对不同细节调用不同的“专家”来处理,这样在高分辨率下,材质细节才扛得住。
- 借了视觉语言模型(VLM)的力:以前光照一乱,材质就崩。现在借助 VLM 的常识,哪怕光线条件很怪,它也能把材质分解得比较靠谱。
拿来就能用吗?
除了生成模型本身,它还能干点活儿:
- 能把一个大物体拆成零件再补全(组件级分割补全)。
- 能根据一个东西自动把相关的配件也画出来(关联资产生成)。
- 甚至能听懂你的描述,直接搭个场景(多模态输入的场景构图)。
这意味着这东西真能走出实验室。以后做游戏开发、搞虚拟仿真,不用从零捏模型了,喊一声或者给张图,它就能给你搭个架子。虽然离完全替代人类设计师还有距离,但省事儿是省事儿了。
