简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 马斯克加入 “视觉模型”是下个“大语言模型”?

马斯克加入 “视觉模型”是下个“大语言模型”?

文章来源: 硬AI 于 2025-10-12 13:20:27 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

AI竞赛的下一个战场已然清晰:从文本世界走向物理世界。在这场名为“世界模型”的竞赛中,马斯克旗下xAI已携英伟达专家悄然入局,与谷歌、Meta等巨头同台竞技。xAI计划率先将该技术应用于AI游戏生成,并探索其在机器人系统的应用。谷歌推断,未来的视频模型将变得和语言模型一样智能。

本文作者:龙玥

来源:硬AI

人工智能领域的战火正在从大语言模型蔓延至一个更前沿的领域——能够理解并模拟真实物理世界的“世界模型”(World Models)。而xAI已悄然加入这场竞赛,与谷歌和Meta等科技巨头同台竞技。

据英国《金融时报》10月12日报道,马斯克的初创公司xAI在今年夏天从芯片巨头英伟达聘请了人工智能专家,专门从事世界模型的研发。与依赖文本的大语言模型不同,世界模型通过对海量的视频和机器人数据进行训练,旨在掌握真实世界的物理规律。

“未来的视频模型将变得和语言模型一样智能”,谷歌研究人员在论文中说道。英伟达上月也曾表示,世界模型的潜在市场规模可能接近当前全球经济的总量。

  兵马先行:xAI的游戏“奇袭”与机器人野望

为了在这场竞赛中占据一席之地,xAI正在积极招兵买马。

公司已聘请了来自英伟达的两位AI研究员Zeeshan Patel和Ethan He,他们在世界模型领域拥有丰富经验。英伟达凭借其用于创建和运行模拟的Omniverse平台,一直是该技术的领导者。

知情人士透露,xAI为世界模型规划的第一个商业化落点是游戏领域,用于生成可交互的3D环境。这一动态迅速引发市场关注,因为它不仅是xAI商业化路径的明确信号,也凸显了世界模型作为下一代AI技术的巨大潜力。

马斯克本人也在社交平台X上确认,xAI将在“明年年底前发布一款出色的AI生成游戏”。长远来看,这些技术最终可能应用于机器人的人工智能系统。

xAI的招聘信息也印证了其发展方向。公司正在为其“omni团队”招聘图像和视频生成领域的技术人员,薪资范围高达18万至44万美元,该团队致力于“创造超越文本的神奇AI体验”。

此外,公司还在以时薪45至100美元招聘“视频游戏导师”,以训练其AI模型Grok制作视频游戏。

  范式转移:视觉模型的“GPT时刻”

xAI的高调入局,恰逢一个关键的行业预判浮出水面:未来的视频模型将变得和语言模型一样智能。谷歌最近的一篇论文指出,其视频模型Veo 3正展现出与大语言模型(LLM)相似的“涌现能力”。

正如LLM通过“下一词元预测”的简单任务,最终学会了数学和创意写作等额外技能,视频模型通过“下一帧预测”,也开始零样本(zero-shot)地解锁一系列令人惊讶的能力,例如物体分割、边缘检测和模拟工具使用等,而这些都未经专门训练。

谷歌的研究人员Jack Clark在论文中写道:“我们认为,正如自然语言处理(NLP)从特定任务模型转向通用模型一样,机器视觉领域也可能通过视频模型发生同样的转变——一个‘视觉领域的GPT-3时刻’。”

他们将视频逐帧生成的过程类比为语言模型中的“思维链”(chain-of-thought),并称之为“帧链”(chain-of-frames),认为这使得视频模型能够跨越时空进行推理。

这一发现意义深远,它暗示着通过发展更智能的视频模型,人们或许能够获得能力极强的机器人“代理”(agent)。

  前景与现实:高昂的成本与“愿景”的缺失

尽管前景诱人,但通往世界模型的道路并非坦途。目前,该技术仍面临巨大的技术挑战,其中最主要的是为模拟真实世界寻找和处理足够训练数据的成本极其高昂。

与此同时,业界也存在对AI作用的冷静审视。热门游戏《博德之门3》的开发商Larian Studios的发行主管Michael Douse本周在X上表示,AI无法解决游戏行业的“大问题”,即“领导力和愿景”。

他补充说,行业需要的不是“更多由数学方式生产、经过心理学训练的游戏循环”,而是对世界更多样化的表达。这代表了一种普遍的观点:纯粹的技术突破本身,并不能保证创造出能够真正打动人心的商业产品。

尽管挑战重重,但xAI的入局无疑为世界模型的竞赛再添一把火。

AI的焦点正不可逆转地从纯粹的数字信息处理,转向对复杂物理现实的模拟与交互。视觉模型是否能复刻大语言模型的辉煌,迎来属于自己的“GPT时刻”,不仅将决定下一代AI霸主的归属,更可能重塑我们与数字及物理世界的根本关系。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(0)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

苹果新手机开售即破发,砍单到几乎停产
美中谈判"几乎完成协议",美贸易代表:可交川习签署
BBC:中共四中全会释出的三个讯息
国产电动车撞向十堰重庆路小学,多名学生和家长死伤
川普神秘金主曝光!梅隆"慨捐3000万"替五角大厦发薪




24小时讨论排行

痛批川普是「暴君」贺锦丽:我可能再战白宫!
普丁大赞无敌!俄成功试射"海燕"新型核动力巡弋飞弹
稀土真的是中国卡美国西方脖子的“核选项”吗?
杨振宁遗体告别式未见中共高层出席 更像民间性质
北京三里屯“勇士”再现 挂布条痛斥共产党“邪教”
28秒穿越死亡线 解放军首曝机器狼抢滩杀敌画面
拆白宫东翼化为瓦砾! 川普“豪宴厅”募资名单曝光
班农指川普将“做多一届总统”:内部圈子已有计划
剑指中国!川普组建“黄金舰队” 考虑重拾“战舰概念”
贝森特预计:中国稀土管制会延后1年实施
特朗普再度指责加拿大播放反关税广告,宣布将加征10%关税
川普骂“史上最烂照片” 《时代》封面换了张帅照
中美航班即将剧变!但还有一个更大的隐患
西方舆论:中国正赢得贸易战 “中美大和解”不会发生
被红毯高规格迎接 川普嗨到当众手舞足蹈 相当开心
经济学人:一旦美国撒手不管 台湾能有什么B计划?
文学城新闻
切换到网页版

马斯克加入 “视觉模型”是下个“大语言模型”?

硬AI 2025-10-12 13:20:27

AI竞赛的下一个战场已然清晰:从文本世界走向物理世界。在这场名为“世界模型”的竞赛中,马斯克旗下xAI已携英伟达专家悄然入局,与谷歌、Meta等巨头同台竞技。xAI计划率先将该技术应用于AI游戏生成,并探索其在机器人系统的应用。谷歌推断,未来的视频模型将变得和语言模型一样智能。

本文作者:龙玥

来源:硬AI

人工智能领域的战火正在从大语言模型蔓延至一个更前沿的领域——能够理解并模拟真实物理世界的“世界模型”(World Models)。而xAI已悄然加入这场竞赛,与谷歌和Meta等科技巨头同台竞技。

据英国《金融时报》10月12日报道,马斯克的初创公司xAI在今年夏天从芯片巨头英伟达聘请了人工智能专家,专门从事世界模型的研发。与依赖文本的大语言模型不同,世界模型通过对海量的视频和机器人数据进行训练,旨在掌握真实世界的物理规律。

“未来的视频模型将变得和语言模型一样智能”,谷歌研究人员在论文中说道。英伟达上月也曾表示,世界模型的潜在市场规模可能接近当前全球经济的总量。

  兵马先行:xAI的游戏“奇袭”与机器人野望

为了在这场竞赛中占据一席之地,xAI正在积极招兵买马。

公司已聘请了来自英伟达的两位AI研究员Zeeshan Patel和Ethan He,他们在世界模型领域拥有丰富经验。英伟达凭借其用于创建和运行模拟的Omniverse平台,一直是该技术的领导者。

知情人士透露,xAI为世界模型规划的第一个商业化落点是游戏领域,用于生成可交互的3D环境。这一动态迅速引发市场关注,因为它不仅是xAI商业化路径的明确信号,也凸显了世界模型作为下一代AI技术的巨大潜力。

马斯克本人也在社交平台X上确认,xAI将在“明年年底前发布一款出色的AI生成游戏”。长远来看,这些技术最终可能应用于机器人的人工智能系统。

xAI的招聘信息也印证了其发展方向。公司正在为其“omni团队”招聘图像和视频生成领域的技术人员,薪资范围高达18万至44万美元,该团队致力于“创造超越文本的神奇AI体验”。

此外,公司还在以时薪45至100美元招聘“视频游戏导师”,以训练其AI模型Grok制作视频游戏。

  范式转移:视觉模型的“GPT时刻”

xAI的高调入局,恰逢一个关键的行业预判浮出水面:未来的视频模型将变得和语言模型一样智能。谷歌最近的一篇论文指出,其视频模型Veo 3正展现出与大语言模型(LLM)相似的“涌现能力”。

正如LLM通过“下一词元预测”的简单任务,最终学会了数学和创意写作等额外技能,视频模型通过“下一帧预测”,也开始零样本(zero-shot)地解锁一系列令人惊讶的能力,例如物体分割、边缘检测和模拟工具使用等,而这些都未经专门训练。

谷歌的研究人员Jack Clark在论文中写道:“我们认为,正如自然语言处理(NLP)从特定任务模型转向通用模型一样,机器视觉领域也可能通过视频模型发生同样的转变——一个‘视觉领域的GPT-3时刻’。”

他们将视频逐帧生成的过程类比为语言模型中的“思维链”(chain-of-thought),并称之为“帧链”(chain-of-frames),认为这使得视频模型能够跨越时空进行推理。

这一发现意义深远,它暗示着通过发展更智能的视频模型,人们或许能够获得能力极强的机器人“代理”(agent)。

  前景与现实:高昂的成本与“愿景”的缺失

尽管前景诱人,但通往世界模型的道路并非坦途。目前,该技术仍面临巨大的技术挑战,其中最主要的是为模拟真实世界寻找和处理足够训练数据的成本极其高昂。

与此同时,业界也存在对AI作用的冷静审视。热门游戏《博德之门3》的开发商Larian Studios的发行主管Michael Douse本周在X上表示,AI无法解决游戏行业的“大问题”,即“领导力和愿景”。

他补充说,行业需要的不是“更多由数学方式生产、经过心理学训练的游戏循环”,而是对世界更多样化的表达。这代表了一种普遍的观点:纯粹的技术突破本身,并不能保证创造出能够真正打动人心的商业产品。

尽管挑战重重,但xAI的入局无疑为世界模型的竞赛再添一把火。

AI的焦点正不可逆转地从纯粹的数字信息处理,转向对复杂物理现实的模拟与交互。视觉模型是否能复刻大语言模型的辉煌,迎来属于自己的“GPT时刻”,不仅将决定下一代AI霸主的归属,更可能重塑我们与数字及物理世界的根本关系。