CQ9新闻

cq9电子平台网站：【突发】OpenAI推出视频生成模型：sora「理解和模拟现实世界实现AGI的里程碑」

发布时间：2024-02-19 19:54人气：

　　OpenAI正在教人工智能理解和模拟运动中的物理世界，旨在训练能够帮助人们解决需要真实世界交互的问题的模型：

　　Sora是一种文本生成视频模型。Sora 能够生成长达一分钟的视频，同时保持视觉质量并遵循用户的提示

　　提示词：无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花，夕阳的金光照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，绿色的灌木丛覆盖着悬崖边缘。从公路到海滩的陡峭落差非常壮观，悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。‍‍‍

　　今天，Sora 开始向安全的红队人员提供服务，以评估可能存在危害或风险的关键领域。OpenAI还授权一些视觉艺术家、设计师和电影制作人访问，以获得关于如何推进模型对创意专业人士最有帮助的反馈意见。

　　提示：三维动画中，一只圆滚滚、毛茸茸的小动物，睁着一双富有神采的大眼睛，在生机勃勃的魔法森林中探险。这只生物是兔子和松鼠的奇异混合体，有着柔软的蓝色皮毛和长满条纹的尾巴。它沿着波光粼粼的小溪蹦蹦跳跳，眼睛睁得大大的，充满了好奇。森林里充满了神奇的元素：会发光和变色的花朵、长着紫色和银色树叶的树木，还有像萤火虫一样的小浮光。这只生物停下来，与一群围着蘑菇环跳舞的小精灵嬉戏。它抬头仰望着一棵发光的大树，这棵树似乎是森林的中心

　　Sora 能够生成具有多个角色、特定类型运动以及主题和背景的准确细节的复杂场景。该模型不仅理解用户在提示中要求的内容，还理解这些事物在物理世界中的存在方式‍

　　提示：一只猫吵醒了熟睡的主人，要求吃早餐。主人试图不理这只猫，但这只猫又想出新招，最后主人从枕头下拿出了偷偷藏起来的点心，让这只猫多睡一会儿。

　　该模型对语言有着深刻的理解，能够准确解释提示并生成具有生动情感表达的引人入胜的角色。Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格

　　提示：纽约市像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街头游来游去

　　它可能在准确模拟复杂场景的物理过程方面遇到困难，并且可能无法理解特定的因果关系实例。例如，一个人可能会咬下一块饼干，但之后，饼干上可能没有咬痕。该模型也可能混淆提示的空间细节，例如混淆左右，并且可能在描述随时间推移发生的事件时遇到困难，比如跟踪特定的摄像机轨迹。

　　Sora 是一个扩散模型，它通过从一个看起来像静态噪音的视频开始，并逐步通过多个步骤去除噪音来生成视频。

　　Sora 能够一次性生成整个视频，也可以延长生成的视频以使其更长。通过让模型在每个时刻具有多帧的前瞻性，我们解决了一个具有挑战性的问题，即确保主体即使暂时离开视野，也保持不变。

　　OpenAI将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁类似于 GPT 中的一个令牌。通过统一的数据表示方式，可以训练扩散 Transformer 处理比以前更广泛的视觉数据，跨越不同的持续时间、分辨率和纵横比。

　　Sora 建立在过去的 DALL·E 和 GPT 模型研究基础之上。它使用了 DALL·E 3 中的重述技术，这涉及为视觉训练数据生成高度描述性的标题。因此地型模型，该模型能够更忠实地遵循用户在生成的视频中的文本指令。

　　除了能够仅根据文本指令生成视频外，该模型还能够使用现有静态图像生成视频，以准确并注意细节地为图像内容添加动画。该模型还可以使用现有视频进行扩展或填充缺失的帧。

　　Sora 为能够理解和模拟现实世界的模型奠定了基础，我们相信这将是实现通用人工智能的重要里程碑。

　　如果你认为 OpenAI 的 Sora 就像 DALLE 一样是一个创意玩具，那你就错了。Sora 是一个数据驱动的物理引擎。它是许多世界的模拟，无论是真实的还是幻想的。这个模拟器通过一些去噪和梯度数学来学习复杂的渲染、直觉物理、长期推理和语义基础。

　　如果 Sora 是在 Unreal Engine 5 上使用大量合成数据进行训练，我一点也不会感到惊讶。

　　接下来：添加更多的模态和条件，然后我们将拥有一个完整的数据驱动 UE，将替代所有手工设计的图形流水线。

分享到：

上一篇：cq9电子游戏在线官网：国家林草局保护地司相关负责人解读《世界地质公园管理办法

下一篇：cq9电子游戏在线官网：今年春节成都出现新消费场景你点的外卖无人机正在配送中

咨询热线：

cq9电子平台网站：【突发】OpenAI推出视频生成模型：sora「理解和模拟现实世界实现AGI的里程碑」

微信号：WX8888888微信二维码