“艾教母”李菲菲新世界模型出炉！ NVIDIA AI 芯片_每日大赛吃瓜爆料-黑瓜网每日大赛-黑暗传送门永不迷路入口

科学研究

科研动态

科研动态

“艾教母”李菲菲新世界模型出炉！ NVIDIA AI 芯片

作者：bet356亚洲版本体育日期：2025/10/18 浏览：

World Labs联合创始人兼首席执行官李飞飞（图片来源：彭博社）“人工智能教母”、美籍华裔科学家、斯坦福大学计算机科学教授、World Labs联合创始人兼首席执行官李飞飞的全新“世界模型”发布。据10月17日消息，李飞飞的世界实验室今天上午发布了一个新的实时生成世界模型——RTFM（实时帧模型）。据报道，RTFM是一种基于大规模视频数据进行端到端训练的非常高效的自回归扩散变换器模型。它的主要成功在于它不依赖于显式的 3D 表示。只需输入一幅或多幅二维图像，即可直接生成不同视角的新二维图像。这在业内被称为“学会渲染的AI”。通过实践，该模型可以准确地模拟复杂的物理现象，例如 3D 几何、反射和阴影，还可以使用稀疏图像来重建真实位置。李飞飞说RTFM模型仅需一颗NVIDIA H100 GPU芯片，即可实时提供重复且一致的3D场景，无论是在真实空间还是虚拟想象场景中，都能实现交互式体验。 “能够随着计算能力的增长而有利地扩展的简单方法最终将在人工智能领域占据主导地位，因为它们将享受计算能力成本下降的扩大，而计算能力成本几十年来一直推动着技术进步。生成世界模型处于有利位置，并且肯定会受益于计算成本的持续下降。”李飞飞团队在文章中表示。对此，Google高级工程师Rui Diao在一篇文章中评论道，最新的RTFM结果真正解决了长期困扰世界模型可扩展性的问题。事实上，所谓空间智能是指人或机器看到、理解三维空间并与之交互的能力。这个概念最早是由美国心理学家霍华德·加德纳提出了多元知识分子理论，该理论允许大脑建立外部空间世界的模型并使用和操作它。空间智能使人们能够以三维的方式进行思考，使人们能够看到外部和内部的图像，并再现、改变或变换图像，从而能够在空间中平静地移动并操纵他们想要生成或解释图形上信息的物体的位置。广义上讲，空间智能不仅包括感知空间方位的能力，还包括视觉辨别能力和形象思维能力。对于机器来说，空间智能是指它们在三维空间中处理视觉数据、准确做出预测并根据这些预测采取行动的能力。这种能力使得机器能够像人类一样在复杂的三维世界中导航、操作和做出决策，从而超越了人类的局限性。传统的二维感知。李飞飞曾说过，视觉能力引发了寒武纪大爆发，神经系统的进化带来了智慧。 “我们想要的不仅仅是能够看到和说话的人工智能，我们想要能够做事的人工智能。”随着新一轮生成式AI技术的到来，“空间智能+世界模型”成为AGI发展的重要路径之一。强大的世界模型可以实时重建、生成和模拟可重复、交互式和物理精确的世界。这类模型技术将彻底改变软件、机器人等许多领域和行业。在李飞飞看来，空间智能和世界模型是解决人工智能问题的关键，是解决技术问题的关键。在世界模型性能不变的情况下，需要减少单卡计算资源的投入，解决世界模型之间的实时通信问题以更有效的方式发展建筑和空间智能。为了在超过一个时间内保持持续联系，需要处理的上下文令牌数量将超过 1 亿个大关。效率、可扩展性和耐用性。接触时间长了。参与投资。三维、物理、时间概念实验室，李飞飞也在打造视觉挑战行为大赛，希望复制当年ImageNet的成功，ImageNet的成功成为深度学习革命的一大催化剂，正式开启了以深度学习为核心的AI的精彩。因此，李飞飞被认为是“让AI真正理解世界”的倡导者之一。李飞飞认为，创造行为的灵感来自于我们在机器人研究中遇到的三个主要痛点：1.缺乏标准任务，研究往往依赖于随机设置，这使得不同论文之间难以进行比较； 2.缺乏一个任务体系统一，很多研究任务很短、很有限； 3.缺乏训练数据。今年10月，李飞飞正式发布了Behavior 1K，即1000个行为挑战。它是用于体现智能和机器人研究的综合模拟基准和培训环境。它包含 1,000 个任务，主要集中在日常家庭环境中的“长期任务”，即需要多个操作步骤才能完成的真实任务。 Conduct为全球研究人员提供了一个开源的训练和评估平台，允许不同机构在同一pwait下训练、比较和评估算法。 “更令我兴奋的是从文明的角度来看：语言、空间、视觉、实体智能等众多人工智能技术正在汇聚在一起，开始真正改变人类社会。只要我们始终把‘人’放在心里，这些技术就能成为造福人类的力量。”李凤埃菲最近说道。李飞飞团队表示，未来世界实验室将进一步完善模型的动态场景和用户交互功能，更大的模型有望带来更好的性能。。

上一篇：黄金白银走强，新能源汽车能否顶住？
下一篇：没有了