李飞飞院士和李德仁院士的空间智能
李飞飞老师,比我正好年轻一岁,人家可是三院院士呢(美国国家工程院院士、美国国家医学院院士、美国文理科学院院士)。
去年我在读《我看见的世界》的时候,产生了久违的那种迫不及待想读完一本书的感觉了(主要是不累还涨知识)。故事精彩,文字优美,润物有声。更关键的是,还不知不觉地增加了一些曾经以为是已知的未知见识。
人呢,天生喜欢八卦,我也不例外。才看完俩月,现在回想起来那些记忆犹新的小细节反而是一些皮毛琐事。比如李飞飞的爸爸在她出生的当天看鸟入迷了,Ta们全家是89年那个夏天以后决定去美国的,而且她爸爸是说走就走,她和她老公西尔维奥在厨房边做意式章鱼边讨论视觉记忆,老妈突然要闯入。。。
再有就是李飞飞的老公居然是3D场景理解和生成的专家,他的研究方向还包括如何使机器人能够感知其环境,进行有效的导航和操作。
当我看到书中李飞飞和西尔维奥讨论Ta们共同关注的技术话题时,我就理解了为什么李飞飞的创业方向是构建能够理解和生成 3D 世界的大模型。 也许西尔维奥积累的科研经验为实现这一目标提供了关键的技术吸引力。更不要说西尔维奥对 3D 场景理解的研究也能为大世界模型提供了新的视角。
要想粗浅的理解李飞飞的“空间智能”其实不难,表象的说是想让机器能识别三维场景,更深入的说是让机器懂物理。她创业的世界实验室第一步的成果是用一张二维的图片就能生成三维的景观。
但这项任务并不容易!如果让机器真的实现了这种理解的深度,就像我们人类看一个房间,不仅知道哪里有桌子,哪里有椅子,还知道它们的摆放位置、相互关系,以及它们可能被如何使用。有了这样的理解,机器才能真正地与环境互动,而不仅仅是做出简单的反应。一个机器人只有真的做到这一点,才能更普适的参与我们的日常生活,也才有了更“像人”的智能。
而在李飞飞参与合作的最新一篇论文中,通过提出的视频空间智能基准测试发现,多模态大语言模型在视觉空间智能方面展现出竞争力的表现,但仍显著低于人类水平。 尽管模型能够构建局部世界模型,空间推理能力仍然是其达到更高性能的主要瓶颈,尤其是在视角转换和全局空间理解方面。针对 “如果我站在冰箱旁,面对着洗衣机,那么炉子在我的左边、右边还是后面?” 这个问题,多模态大语言模型(论文测试中表现最好的 Gemini-1.5 Pro)的回答效果并不好,无一答对。所以,这才需要李飞飞的团队开展一次颠覆性的研究。
其实我更好奇的是,李飞飞的成果能否与我们的“地理信息空间智能”有所交集?能不能对我们的GIS发展增加些跃迁的动能?
我想起上个月中,在泰伯的年会上,陶闯博士的一张幻灯片,解释李飞飞与陶博士的导师——李德仁院士在空间智能领域的探索。陶博士并没有花太多的时间解释,我倒是在现场听过李德仁院士的两次演讲,说实话,我是没有深刻的体会出他所说的智能有哪些超越目前地理大数据和遥感测绘的范畴。
看了李飞飞的书,在我的感受中,她的空间智能,更聚焦在身边的生活里,在追求对“物理”世界更深刻的理解,她希望机器能够像人一样,感知、理解并与环境互动。她让机器像一个好奇的孩子,通过观察和互动,构建对世界的认知。可以说,李飞飞要实现的是“身边的智能”。
而李德仁院士的“时空智能”则更像是一位跨学科的地理学家,他致力于对地球进行全方位的“测绘”,通过采集和分析海量的地理空间数据,为国家和社会提供决策支持。他的研究,仍然是在绘制一幅精密的地球地图,不仅记录着地形地貌,还记录着时间的变化,以及各种因素之间的相互作用。李德仁院士讲述的是“宏大的智能”。
这种差异也体现在他们的技术路径上。李飞飞的空间智能,更多地依赖于深度学习、计算机视觉(或者我们外人都不太了解的新技术)等技术,让机器能够像人一样“看”懂世界。而李德仁院士的时空智能,则更多地依赖于地理信息系统、遥感技术等,通过海量的数据分析,来把握地球的脉动。
但这也是我们这个行业一个最大尴尬。李德仁院士的时空智能和老百姓个体是什么关系呢?和你我吃喝拉撒有何干?
这两种技术路径的背后,某种程度上也暗示着美国和中国在创新理念上的差异。美国的创新(虽然李飞飞的初中生活还是在成都7中经历的),更倾向于底层基础范式的革新,Ta们更关注如何从根本上改变机器的认知方式,追求对“物理”世界更深刻的理解。而中国的创新,则更强调规模化带来的效率提升和成本降低,我们更关注如何利用大数据和现有技术,解决整体资源(政府)的问题,为国家和社会创造价值。
从个人生活进步的角度,我更期盼李飞飞的身边智能,从我们极海业务的角度,我则希望李德仁院士引领的宏大智能带给我们行业生机和升级。这两种“智能”,虽然侧重点不同,但都是在为人类创造更美好的未来。
未来的世界,或许正是这两种“智能”交织的产物。一个更懂“我”的机器,和一个更懂“我们”的地球,它们将以各自独特的方式,丰富我们的生活,拓展我们的视野。而我们,如果不能深入参与其中,那就静待花开,拥抱科技带来的无限可能吧。