一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解
从文字生成三维世界的场景有多难?
试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?
斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)。

-
项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-language/
-
文章地址:https://arxiv.org/abs/2410.16770
(来源:机器之心)

-
64 个黑白相间的格子 -
按规则排列的 32 个棋子 -
每个棋子的独特造型






-
用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍; -
在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。

