二维码
×
希鸥网logo

独家 | Sand.ai 曹越:押注非共识,视频模型为何是通往世界模型的唯一路径

作者 / 希鸥网 发布时间 / 2026年06月29日 来源 / 希鸥网 分类 / 产业观察

在视频生成模型赛道上,Sand.ai 创始人曹越始终坚持“押注非共识”。从最初在 Diffusion 路线大行其道时选择自回归(Autoregressive)架构,到率先探索音画同出,再到2025年果断将架构从 Dense 转向 MoE,曹越的每一步决策都基于对技术第一性原理的独立思考。他认为,一旦过于关注市场共识,往往会偏离对事物本质的判断。如今,Sand.ai 已完成超亿美元融资,其新一代 MoE 架构视频模型即将发布,旨在打破成本、速度与效果的“不可能三角”。

曹越坚信,视频数据是通往“世界模型”最重要的路径。在他看来,视频是对物理世界观测数据中体量最大、信息密度最高的模态,它编码了时间、空间、视觉与听觉,是理解世界运转规律的关键。尽管“世界模型”目前被视为一个被滥用的 Buzzword,行业仍处于“前 GPT 时代”,但曹越认为,真正的世界模型不应依赖人为定义的隐藏状态,而应像孩子认识世界一样,通过预测原始观测数据(Raw Data)来从视频中自我生长出对物理世界的理解。

在商业策略上,Sand.ai 采取“模型+产品”双轮驱动的模式。曹越指出,在视频领域很难仅靠售卖 API 生存,必须通过产品闭环来反哺模型迭代。其推出的音乐 Agent 产品 VidMuse 上线三个月即实现千万美元 ARR,验证了商业化路径的可行性。这种策略不仅能利用自有模型降低成本、提升体验,还能通过端到端收集用户反馈,持续优化模型效果,从而在激烈的竞争中构建护城河。

面对 OpenAI 关停 Sora 等业务调整,曹越认为这是合理的战略收缩。在上市压力下,OpenAI 需要将算力从短期难以变现的视频业务转移至能直接产生现金流的 Coding 模型上。而对于中国团队为何能在视频模型领域迅速跻身全球 Tier 1,曹越分析称,这得益于国内外起步时间差较小,且国内活跃的短视频生态加速了模型的应用落地。未来,视频模型市场将不会像语言模型那样高度垄断,而是会留下三五家核心玩家在牌桌上共分巨大的市场蛋糕。

本篇内容整理自网络,同步发布在 AEX新讯社中文网、希鸥网、斯贝瑞品牌资讯、RCEO创新网、AI联播网、创新日报 等媒体平台。如需删改或发布内容,请联系微信:meisceo29

阅读量:1578
10秒生文 寻求报道 创业大集 报名活动 创业10年荣耀奖 城市合伙人 一站发稿1万家