开云体育2026世界杯中国官网
KaiYun Sports2026世界杯(中国)官方网站 一次三篇! 李飞飞的空间智能公司, 发论文了
发布日期:2026-06-15 00:12    点击次数:131

KaiYun Sports2026世界杯(中国)官方网站 一次三篇! 李飞飞的空间智能公司, 发论文了

裁剪|Panda

今天,由李飞飞连络创立的空间智能公司 World Labs 在统一天发布了三篇技巧论文!

三篇论文分别由公司里面实习生主导完成,筹议方针互异,但分享统一个中枢命题:借助已在海量图片数据上检会锻练的 2D 生成模子,裁减 3D 内容生成的难度门槛。

值得注视的是,正如 World Labs 连络独创东谈主 Justin Johnson 所言,尽管该公司此前已有后果展示,但这三篇论文确是该公司的首批论文(first-ever papers)。

回到这三篇论文的主题:3D 内容生成。这是一个经久以来「提及来简略、作念起来极难」的领域。

践诺天下是三维的,但检会数据绝大无数是二维的(包括相片、视频、图像),而不是带有体积、深度和荫庇干系的好意思满空间结构。一朝转入三维,检会数据骤减,几何一致性的保重变得指数级复杂。

往时数年,筹议者们照旧找到了一条可行旅途:不从新检会 3D 生成模子,而是将 2D 扩散模子的广宽先验本事迁徙到 3D 生成任务中。

World Labs 此次发布的三篇论文,分别从不同角度延长了这条念念路。

三项筹议的具体切入点各有侧重:

World Tracing 贬责的是「从单张图像还原可见名义之外的好意思满三维几何」问题;

Modality Forcing 探索的是「奈何让一个文生图模子同期具备深度感知和 3D 推理本事」;

Flex4DHuman 则将问题延长到时期维度,尝试从平地契目视频中耕作出可合成的动态 4D 东谈主体。

值得注视的是,就在论文发布的统一天,World Labs 连络独创东谈主 Christoph Lassner 在酬酢媒体上晓谕因病将离开公司,为这场学术亮相增添了一点东谈主事变局的注脚。

底下我就来具体望望 World Labs 的首批论文。

World Tracing

让每一个像素,都指向一个好意思满的 3D 天下

如若你手中只好一张相片,你能从中还原若干三维信息?

学问告诉咱们:很有限。相片仅仅践诺天下在某一时刻、某一视角下的投影,深度信息丢失,荫庇面后方的空间皆备缺席。刻下主流的单图转 3D 才能,时常靠近一个两难窘境:要么作念深度算计(精准但只可还原可见名义);要么作念生成补全(想象力丰富但适度时常偏离原始图像的视觉细节)。

World Tracing 决议试图同期消解这两种过失。

论文标题:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

论文地址:https://arxiv.org/abs/2606.13652

神气地址:https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主导,团队成员包括 World Labs 连络独创东谈主 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等东谈主。

中枢念念路是:将每一个输入像素视为一条射线,沿着这条射线展望一组有序的三维坐标点——第 0 层是可见名义,之后各层次序是沿该射线方针的被荫庇几何体。论文将这种默示称为「pixel-aligned multilayer geometry representation」(像素对皆的多层几何默示),具体扫尾为一个多层 XYZ 坐标张量(multilayer XYZ stack)。

换句话说,World Tracing 给每个像素对应的不仅仅一个三维点,而是一叠有序的三维点,记载了这条视野穿越场景所经过的所有这个词几何层:第 0 层是平直可见的名义,更深的层则冉冉揭示被出路物体荫庇的荫藏几何体。

这就像是把相机比作一支铅笔:平方深度算计只可画出物体的玄虚线,而 World Tracing 试丹青出这支铅笔穿透纸张时,另一面的格局。

展望这种「深度堆叠」自身是极高难度的任务,因为荫庇面的几何信息根底莫得出面前图像中,模子必须依赖对践诺天下空间结构的「学问」来进行推断。

为此,筹议团队给与了扩散模子来对这组有序深度值建模。扩散模子自然相宜处理带有不细目性的分散式展望,而非给出单一细目谜底。

更要津的是,通盘展望过程长久对皆于原始输入图像的像素坐标。可见名义的深度被精准地「锚定」在图像信息中,而弗成见部分的补全则在这个拘谨框架下进行生成。这使得最终的三维重建既诚挚于输入图像,又具备好意思满的空间结构。

论文中展示的案例掩饰了静态物体、室表里场景,乃至动态天下建模。团队还发布了论文代码、神气主页和 Hugging Face 在线演示,让外界能够平直测试这套才能对任性图像的处理效果。

关于 World Labs 这么以「空间智能」为中枢居品方针的公司来说,World Tracing 的意思意思在于:它提供了一种从单张图像登程、平直还原丰富三维结构的技巧旅途,而不需要多视角输入或不菲的三维数据标注。这与 Marble 居品「从图像生成可探索三维天下」的中枢承诺高度一致。

Modality Forcing

一个模子,同期统一神采、翰墨和深度

深度算计和图像生成,在传统上是两个皆备独处的任务,分别需要挑升的数据集和独处检会的模子。前者需要精准的深度标注(LiDAR 扫描或双目视觉),后者依赖海量图文对。两套任务的数据限制进出悬殊——图像生成模子见过数十亿张图片,而深度模子的检会数据量时常仅仅零头。

这种不合称,催生了一个当然的问题:能否让照旧在海量图文数据上检会锻练的文生图模子,平直学会对深度的感知?

Modality Forcing 给出了一个肯定的回话,并走得更远。

论文标题:Modality Forcing for Scalable Spatial Generation

论文地址:https://arxiv.org/abs/2606.13676

神气地址:https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主导的 World Labs 实习筹议,中枢看法是:文生图是一种可膨胀的 3D 推理预检会指标,只消用对检会计谋,统一个模子不错在 RGBD 生成、深度算计和深度条目图像生成三项任务之间解放切换。

论文提倡的才能名为「Modality Forcing」,其中枢境制是:给 RGB 和深度两种模态分别分派独处的扩散噪声时期步(per-modality noise levels)。

检会时,RGB 和深度各自被加入不同进度的噪声,同期接纳各自独处的蚀本监督;推理时,只需固定某一模态的噪声步为 0(即视为已知条目),对另一模态好意思满去噪,便可扫尾图像→深度(I2D)或深度→图像(D2I)的条目生成;两者均加噪则为连络生成。

由于深度在像素空间(而非 VAE 隐空间)中平直扩散,模子不错从仅含稀少深度标注的真正天下数据中学习,不再局限于依赖密集标注的合成数据集。

这种念念路的上风在于:不需要稀少引入独处的深度收集,也不需要为每个任务单独瞎想架构分支。一个预检会的文生图模子,通过 Modality Forcing 微调之后,就具备了对场景几何的平直感知本事。

从技巧旅途来看,Modality Forcing 与频年来流行的多任务扩散模子筹议(如 Marigold、Depth Pro、Lotus 等)方针一致,但其独有之处在于对「生成」与「感知」两类任务的统一处理。深度算计时常被视为一个判别任务(给定图像,输出深度值),而文生图是一个生成任务。

Modality Forcing 的孝顺在于评释注解:这两种任务之间的范围比想象中朦拢得多;生成本事的蓄积,不错平直回荡为感知本事的耕作,反之也是。

对 World Labs 来说,这项筹议的意思意思延长到居品层面:Marble 的 3D 天下生成需要对场景深度的精准统一。一个同期具备生成和感知本事的统一模子,开云体育官网将使 3D 天下的构建愈加自洽,幸免深度算计模块和生成模块之间的累积弱点。

Flex4DHuman

从一段手机视频,「升维」出可合成的动态东谈主体

如若说前两篇论文处理的是静态或通用场景,Flex4DHuman 则将挑战聚焦于一个更具体但雷同进犯的子问题:奈何从一段平方的单目视频(比如手机拍摄的日常视频),重建搬动态东谈主体的好意思满四维结构,即三维空间+时期维度。

这个问题的难点在于「单目」两个字。多目次像系统不错通过视差平直测量三维坐标,但单目视频丢失了这种几何拘谨。从单目视频重建开通中的三维东谈主体,本色上是一个欠拘谨问题:统一段视频序列,表面上对应无数种可能的三维开通轨迹。此前的才能大多依赖优化过程,瞎想耗时,且难以泛化到检会集之外的姿态和外不雅。

Flex4DHuman 由 Yipeng Wang 担任神气负责东谈主,第一作家为 Jen-Hao Cheng,职责在 World Labs 实习时期完成。

论文标题:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

论文地址:https://arxiv.org/abs/2606.13655

尊龙凯时中国官网入口

神气地址:https://andy-cheng.github.io/Flex4DHuman/

才能以阿里巴巴的 Wan 2.1(一个 1.3B 参数的文本生成视频 DiT)为基础进行微调,中枢蜕变只好一处:将原有的时空位置编码替换为一套五轴位置编码(five-axis positional encoding),在原有的空间坐标和帧序索引之外,稀少引入视角槽索引和连气儿 SE(3) 相对相机几何,使模子在注眼光机制里面平直感知相机之间的相对位姿干系。

这个瞎想带来了一个要津上风:不需要骨架算计(skeleton)、深度图或法线图等显式几何先验,仅凭相对相机姿态就能启动多视角视频的同步生成。这与此前主流才能(如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染)形成显然对比。

给定一段单目参考视频和指标相机姿态,模子平直输出在时期上同步、视角上一致的多视角视频序列;再将这些多视角视频送入 FreeTimeGS 重建管线,即可得到动态 4D 高斯默示(4D Gaussian Splats)。

这套历程将视频扩散模子的广宽外不雅先验与 4D 高斯的高效渲染本事市欢起来,使得从一段舞蹈视频或行走视频登程,不错将其中的东谈主物「升维」为好意思满的动态 4D 金钱,再合成进任性 3D 场景。这关于数字内容创作、凭空制片和 AR/VR 应器用有平直价值。

论文还考据了才能超出东谈主体的泛化性:统一个模子经过少许微调后,不错履行到多物种动物的多视角生成,在跨物种零样本测试中仍保抓较强性能,标明才能的中枢瞎想不依赖东谈主体特有的几何假定。

论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与雷同基于单目参考视频的 Diffuman4D-mono-skeleton 比拟,Flex4DHuman 在 DNA-Rendering 上 PSNR 耕作约 9.3 dB;在零样本的 ActorsHQ 测试集上,PSNR 也逾越敌手约 3.4 dB。

从更宏不雅的视角来看,Flex4DHuman 代表了「2D 视频数据赋能 3D 天下建模」这一技巧阶梯的一个典型样本。手机视频是东谈主类日常出产最多的数据格局,如若能够高效地从中索求四维信息,将极大膨胀 3D 天下模子的检会数据起原。

联创 Christoph Lassner 晓谕下野

就在三篇论文发布的统一天,World Labs 连络独创东谈主 Christoph Lassner 在 X 平台发帖,晓谕我方将离开公司,开启下一段旅程。

Lassner 是 World Labs 四位连络独创东谈主之一,另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他经久从事瞎想机视觉与瞎想机图形学交叉领域的筹议,专注于从 2D 图像和视频中还原可用的三维内容。

在加入 World Labs 之前,Lassner 的职业轨迹掩饰了多个行业前沿。他曾在初创公司 Bodylabs 职责,该公司后被亚马逊收购,专注于基于图像的三维东谈主体建模;在亚马逊时期,他主导援助了 Amazon Halo 智妙手环的三维体型估算系统,用户仅需手机自拍,即可赢得精准的三维体格模子。尔后,他先后在 Meta Reality Labs Research 和 Epic Games 主抓筹议团队,深耕神经渲染和 NeRF(神经放射场)连络技巧,2022 年 Meta Connect 大会上展示的及时放射场渲染演示,恰是他场地团队的后果之一。他还援助了 Pulsar 渲染器,一种基于球体基元的可微分渲染器,其后成为 PyTorch3D 的后端组件之一,在学术界得到等闲期骗。

Lassner 于 2024 年头与李飞飞等东谈主共同创立 World Labs。公司于同庚 9 月从隐身气象中走出,以约 10 亿好意思元估值完成 2.3 亿好意思元融资,投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月,World Labs 完成了由 Autodesk 领投的 10 亿好意思元新一轮融资,估值跃升至约 50 亿好意思元。

三篇论文的致谢列表中均出现了 Lassner 的名字,这意味着他在任时期积极参与了这些实习筹议神气。

关于下野的原因,Lassner 在公开声明中作念了坦诚的评释:往时几个月里,他阅历了数起个东谈主事故,其中包括一次形成多处骨折和脑颠簸的偶然,面前仍在还原中。这段强制休息的时期让他有契机从新扫视我方的处境,并作念出了退出日常运营职务的决定。他同期默示,将继续以参谋人身份援救公司,并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中赐与的统一和援救抒发了感谢。

在向公司里面团队发送的信件中,Lassner 写谈,他「顺服 World Labs 以及咱们正在构建的职业的进犯性」,公司面前所处的强盛位置让他确信此刻是交棒的合应时机。他默示,我方下一步的磋磨尚不解确,但「对行将到来的事感到答应」。

结语

三篇论文同日亮相,对 World Labs 而言是一个值得记载的时期节点。这家公司自 2024 年创立以来,主要以技巧博客和居品的格局与公众碰面:Marble 天下模子的内测与公测、World API 的通达、Spark 2.0……而此次是公司初次以 arXiv 预印本格局认真发表学术论文。

此次的集体亮相,连络独创东谈主 Justin Johnson 在 X 上的接头八成最能评释其布景意涵:「3D 是一个令东谈主答应的领域,咱们仍在摸索正确的任务界说、问题格局、模子架构,以及最好的膨胀方式。咱们在这里分享一些想法,由一批出色的实习生主导完成。」

口吻温和,但方针很清澈:World Labs 正在将「空间智能」的筹议阶梯推向更深处,并忻悦在这一过程中与学术社离别享我方的念念考。

文中视频贯穿:https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQKaiYun Sports2026世界杯(中国)官方网站



Copyright © 1998-2026 开云体育2026世界杯中国官网™版权所有

gongmingkeji.com备案号 备案号: 

技术支持:®开云体育2026世界杯 RSS地图 HTML地图