KaiYun Sports2026世界杯(中国)官方网站一次三篇! 李飞飞的空间智能公司, 发论文了

开云体育2026世界杯中国官网

开云体育2026世界杯中国官网: 开云首页; 关于开云; 开云体育; 开云电竞; 开云棋牌; 开云世界杯; 开云app下载

热点资讯

开云体育2026世界杯中国官网芯片自主研发冲破, 三部门鼓

开云体育2026世界杯中国官网日本东京羽田机场发生系统故障

开云体育2026世界杯中国官网青海开动“高原雪山向导”劳务

KaiYun Sports2026世界杯(中国)官方网站 “

KaiYun Sports2026世界杯(中国)官方网站一

开云体育2026世界杯中国官网 “像棉花根相通深扎地皮”——

KaiYun Sports2026世界杯(中国)官方网站 5

KaiYun Sports2026世界杯(中国)官方网站指

KaiYun Sports2026世界杯(中国)官方网站成

KaiYun Sports2026世界杯(中国)官方网站韩

你的位置：开云体育2026世界杯中国官网 > 开云棋牌 >

KaiYun Sports2026世界杯(中国)官方网站一次三篇! 李飞飞的空间智能公司, 发论文了

发布日期：2026-06-15 00:12 点击次数：131

KaiYun Sports2026世界杯(中国)官方网站一次三篇! 李飞飞的空间智能公司，发论文了

裁剪｜Panda

今天，由李飞飞连络创立的空间智能公司 World Labs 在统一天发布了三篇技巧论文！

三篇论文分别由公司里面实习生主导完成，筹议方针互异，但分享统一个中枢命题：借助已在海量图片数据上检会锻练的 2D 生成模子，裁减 3D 内容生成的难度门槛。

值得注视的是，正如 World Labs 连络独创东谈主 Justin Johnson 所言，尽管该公司此前已有后果展示，但这三篇论文确是该公司的首批论文（first-ever papers）。

回到这三篇论文的主题：3D 内容生成。这是一个经久以来「提及来简略、作念起来极难」的领域。

践诺天下是三维的，但检会数据绝大无数是二维的（包括相片、视频、图像），而不是带有体积、深度和荫庇干系的好意思满空间结构。一朝转入三维，检会数据骤减，几何一致性的保重变得指数级复杂。

往时数年，筹议者们照旧找到了一条可行旅途：不从新检会 3D 生成模子，而是将 2D 扩散模子的广宽先验本事迁徙到 3D 生成任务中。

World Labs 此次发布的三篇论文，分别从不同角度延长了这条念念路。

三项筹议的具体切入点各有侧重：

World Tracing 贬责的是「从单张图像还原可见名义之外的好意思满三维几何」问题；

Modality Forcing 探索的是「奈何让一个文生图模子同期具备深度感知和 3D 推理本事」；

Flex4DHuman 则将问题延长到时期维度，尝试从平地契目视频中耕作出可合成的动态 4D 东谈主体。

值得注视的是，就在论文发布的统一天，World Labs 连络独创东谈主 Christoph Lassner 在酬酢媒体上晓谕因病将离开公司，为这场学术亮相增添了一点东谈主事变局的注脚。

底下我就来具体望望 World Labs 的首批论文。

World Tracing

让每一个像素，都指向一个好意思满的 3D 天下

如若你手中只好一张相片，你能从中还原若干三维信息？

学问告诉咱们：很有限。相片仅仅践诺天下在某一时刻、某一视角下的投影，深度信息丢失，荫庇面后方的空间皆备缺席。刻下主流的单图转 3D 才能，时常靠近一个两难窘境：要么作念深度算计（精准但只可还原可见名义）；要么作念生成补全（想象力丰富但适度时常偏离原始图像的视觉细节）。

World Tracing 决议试图同期消解这两种过失。

论文标题：World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

论文地址：https://arxiv.org/abs/2606.13652

神气地址：https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主导，团队成员包括 World Labs 连络独创东谈主 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等东谈主。

中枢念念路是：将每一个输入像素视为一条射线，沿着这条射线展望一组有序的三维坐标点——第 0 层是可见名义，之后各层次序是沿该射线方针的被荫庇几何体。论文将这种默示称为「pixel-aligned multilayer geometry representation」（像素对皆的多层几何默示），具体扫尾为一个多层 XYZ 坐标张量（multilayer XYZ stack）。

换句话说，World Tracing 给每个像素对应的不仅仅一个三维点，而是一叠有序的三维点，记载了这条视野穿越场景所经过的所有这个词几何层：第 0 层是平直可见的名义，更深的层则冉冉揭示被出路物体荫庇的荫藏几何体。

这就像是把相机比作一支铅笔：平方深度算计只可画出物体的玄虚线，而 World Tracing 试丹青出这支铅笔穿透纸张时，另一面的格局。

展望这种「深度堆叠」自身是极高难度的任务，因为荫庇面的几何信息根底莫得出面前图像中，模子必须依赖对践诺天下空间结构的「学问」来进行推断。

为此，筹议团队给与了扩散模子来对这组有序深度值建模。扩散模子自然相宜处理带有不细目性的分散式展望，而非给出单一细目谜底。

更要津的是，通盘展望过程长久对皆于原始输入图像的像素坐标。可见名义的深度被精准地「锚定」在图像信息中，而弗成见部分的补全则在这个拘谨框架下进行生成。这使得最终的三维重建既诚挚于输入图像，又具备好意思满的空间结构。

论文中展示的案例掩饰了静态物体、室表里场景，乃至动态天下建模。团队还发布了论文代码、神气主页和 Hugging Face 在线演示，让外界能够平直测试这套才能对任性图像的处理效果。

关于 World Labs 这么以「空间智能」为中枢居品方针的公司来说，World Tracing 的意思意思在于：它提供了一种从单张图像登程、平直还原丰富三维结构的技巧旅途，而不需要多视角输入或不菲的三维数据标注。这与 Marble 居品「从图像生成可探索三维天下」的中枢承诺高度一致。

Modality Forcing

一个模子，同期统一神采、翰墨和深度

深度算计和图像生成，在传统上是两个皆备独处的任务，分别需要挑升的数据集和独处检会的模子。前者需要精准的深度标注（LiDAR 扫描或双目视觉），后者依赖海量图文对。两套任务的数据限制进出悬殊——图像生成模子见过数十亿张图片，而深度模子的检会数据量时常仅仅零头。

这种不合称，催生了一个当然的问题：能否让照旧在海量图文数据上检会锻练的文生图模子，平直学会对深度的感知？

Modality Forcing 给出了一个肯定的回话，并走得更远。

论文标题：Modality Forcing for Scalable Spatial Generation

论文地址：https://arxiv.org/abs/2606.13676

神气地址：https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主导的 World Labs 实习筹议，中枢看法是：文生图是一种可膨胀的 3D 推理预检会指标，只消用对检会计谋，统一个模子不错在 RGBD 生成、深度算计和深度条目图像生成三项任务之间解放切换。

论文提倡的才能名为「Modality Forcing」，其中枢境制是：给 RGB 和深度两种模态分别分派独处的扩散噪声时期步（per-modality noise levels）。

检会时，RGB 和深度各自被加入不同进度的噪声，同期接纳各自独处的蚀本监督；推理时，只需固定某一模态的噪声步为 0（即视为已知条目），对另一模态好意思满去噪，便可扫尾图像→深度（I2D）或深度→图像（D2I）的条目生成；两者均加噪则为连络生成。

由于深度在像素空间（而非 VAE 隐空间）中平直扩散，模子不错从仅含稀少深度标注的真正天下数据中学习，不再局限于依赖密集标注的合成数据集。

这种念念路的上风在于：不需要稀少引入独处的深度收集，也不需要为每个任务单独瞎想架构分支。一个预检会的文生图模子，通过 Modality Forcing 微调之后，就具备了对场景几何的平直感知本事。

从技巧旅途来看，Modality Forcing 与频年来流行的多任务扩散模子筹议（如 Marigold、Depth Pro、Lotus 等）方针一致，但其独有之处在于对「生成」与「感知」两类任务的统一处理。深度算计时常被视为一个判别任务（给定图像，输出深度值），而文生图是一个生成任务。

Modality Forcing 的孝顺在于评释注解：这两种任务之间的范围比想象中朦拢得多；生成本事的蓄积，不错平直回荡为感知本事的耕作，反之也是。

对 World Labs 来说，这项筹议的意思意思延长到居品层面：Marble 的 3D 天下生成需要对场景深度的精准统一。一个同期具备生成和感知本事的统一模子，开云体育官网将使 3D 天下的构建愈加自洽，幸免深度算计模块和生成模块之间的累积弱点。

Flex4DHuman

从一段手机视频，「升维」出可合成的动态东谈主体

如若说前两篇论文处理的是静态或通用场景，Flex4DHuman 则将挑战聚焦于一个更具体但雷同进犯的子问题：奈何从一段平方的单目视频（比如手机拍摄的日常视频），重建搬动态东谈主体的好意思满四维结构，即三维空间+时期维度。

这个问题的难点在于「单目」两个字。多目次像系统不错通过视差平直测量三维坐标，但单目视频丢失了这种几何拘谨。从单目视频重建开通中的三维东谈主体，本色上是一个欠拘谨问题：统一段视频序列，表面上对应无数种可能的三维开通轨迹。此前的才能大多依赖优化过程，瞎想耗时，且难以泛化到检会集之外的姿态和外不雅。

Flex4DHuman 由 Yipeng Wang 担任神气负责东谈主，第一作家为 Jen-Hao Cheng，职责在 World Labs 实习时期完成。

论文标题：Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

论文地址：https://arxiv.org/abs/2606.13655

尊龙凯时中国官网入口

神气地址：https://andy-cheng.github.io/Flex4DHuman/

才能以阿里巴巴的 Wan 2.1（一个 1.3B 参数的文本生成视频 DiT）为基础进行微调，中枢蜕变只好一处：将原有的时空位置编码替换为一套五轴位置编码（five-axis positional encoding），在原有的空间坐标和帧序索引之外，稀少引入视角槽索引和连气儿 SE(3) 相对相机几何，使模子在注眼光机制里面平直感知相机之间的相对位姿干系。

这个瞎想带来了一个要津上风：不需要骨架算计（skeleton）、深度图或法线图等显式几何先验，仅凭相对相机姿态就能启动多视角视频的同步生成。这与此前主流才能（如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖深度和法线渲染）形成显然对比。

给定一段单目参考视频和指标相机姿态，模子平直输出在时期上同步、视角上一致的多视角视频序列；再将这些多视角视频送入 FreeTimeGS 重建管线，即可得到动态 4D 高斯默示（4D Gaussian Splats）。

这套历程将视频扩散模子的广宽外不雅先验与 4D 高斯的高效渲染本事市欢起来，使得从一段舞蹈视频或行走视频登程，不错将其中的东谈主物「升维」为好意思满的动态 4D 金钱，再合成进任性 3D 场景。这关于数字内容创作、凭空制片和 AR/VR 应器用有平直价值。

论文还考据了才能超出东谈主体的泛化性：统一个模子经过少许微调后，不错履行到多物种动物的多视角生成，在跨物种零样本测试中仍保抓较强性能，标明才能的中枢瞎想不依赖东谈主体特有的几何假定。

论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与雷同基于单目参考视频的 Diffuman4D-mono-skeleton 比拟，Flex4DHuman 在 DNA-Rendering 上 PSNR 耕作约 9.3 dB；在零样本的 ActorsHQ 测试集上，PSNR 也逾越敌手约 3.4 dB。

从更宏不雅的视角来看，Flex4DHuman 代表了「2D 视频数据赋能 3D 天下建模」这一技巧阶梯的一个典型样本。手机视频是东谈主类日常出产最多的数据格局，如若能够高效地从中索求四维信息，将极大膨胀 3D 天下模子的检会数据起原。

联创 Christoph Lassner 晓谕下野

就在三篇论文发布的统一天，World Labs 连络独创东谈主 Christoph Lassner 在 X 平台发帖，晓谕我方将离开公司，开启下一段旅程。

Lassner 是 World Labs 四位连络独创东谈主之一，另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他经久从事瞎想机视觉与瞎想机图形学交叉领域的筹议，专注于从 2D 图像和视频中还原可用的三维内容。

在加入 World Labs 之前，Lassner 的职业轨迹掩饰了多个行业前沿。他曾在初创公司 Bodylabs 职责，该公司后被亚马逊收购，专注于基于图像的三维东谈主体建模；在亚马逊时期，他主导援助了 Amazon Halo 智妙手环的三维体型估算系统，用户仅需手机自拍，即可赢得精准的三维体格模子。尔后，他先后在 Meta Reality Labs Research 和 Epic Games 主抓筹议团队，深耕神经渲染和 NeRF（神经放射场）连络技巧，2022 年 Meta Connect 大会上展示的及时放射场渲染演示，恰是他场地团队的后果之一。他还援助了 Pulsar 渲染器，一种基于球体基元的可微分渲染器，其后成为 PyTorch3D 的后端组件之一，在学术界得到等闲期骗。

Lassner 于 2024 年头与李飞飞等东谈主共同创立 World Labs。公司于同庚 9 月从隐身气象中走出，以约 10 亿好意思元估值完成 2.3 亿好意思元融资，投资方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月，World Labs 完成了由 Autodesk 领投的 10 亿好意思元新一轮融资，估值跃升至约 50 亿好意思元。

三篇论文的致谢列表中均出现了 Lassner 的名字，这意味着他在任时期积极参与了这些实习筹议神气。

关于下野的原因，Lassner 在公开声明中作念了坦诚的评释：往时几个月里，他阅历了数起个东谈主事故，其中包括一次形成多处骨折和脑颠簸的偶然，面前仍在还原中。这段强制休息的时期让他有契机从新扫视我方的处境，并作念出了退出日常运营职务的决定。他同期默示，将继续以参谋人身份援救公司，并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这一决定过程中赐与的统一和援救抒发了感谢。

在向公司里面团队发送的信件中，Lassner 写谈，他「顺服 World Labs 以及咱们正在构建的职业的进犯性」，公司面前所处的强盛位置让他确信此刻是交棒的合应时机。他默示，我方下一步的磋磨尚不解确，但「对行将到来的事感到答应」。

结语

三篇论文同日亮相，对 World Labs 而言是一个值得记载的时期节点。这家公司自 2024 年创立以来，主要以技巧博客和居品的格局与公众碰面：Marble 天下模子的内测与公测、World API 的通达、Spark 2.0……而此次是公司初次以 arXiv 预印本格局认真发表学术论文。

此次的集体亮相，连络独创东谈主 Justin Johnson 在 X 上的接头八成最能评释其布景意涵：「3D 是一个令东谈主答应的领域，咱们仍在摸索正确的任务界说、问题格局、模子架构，以及最好的膨胀方式。咱们在这里分享一些想法，由一批出色的实习生主导完成。」

口吻温和，但方针很清澈：World Labs 正在将「空间智能」的筹议阶梯推向更深处，并忻悦在这一过程中与学术社离别享我方的念念考。

文中视频贯穿：https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQKaiYun Sports2026世界杯(中国)官方网站

上一篇：开云体育2026世界杯中国官网 “像棉花根相通深扎地皮”——记“新疆最好意思科技职责者”田立文

下一篇：开云体育2026世界杯中国官网青海开动“高原雪山向导”劳务品牌培优赋能行径