CQ9电子有限公司属于中国正规、信誉平台,以客户为中心

咨询热线:

020-88888888

cq9电子平台网站:【突发】OpenAI推出视频生成模型:sora「理解和模拟现实世界实现AGI的里程碑」

发布时间:2024-02-19 19:54人气:

  OpenAI正在教人工智能理解和模拟运动中的物理世界,旨在训练能够帮助人们解决需要真实世界交互的问题的模型:

  Sora是一种文本生成视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示

cq9电子平台网站:【突发】OpenAI推出视频生成模型:sora「理解和模拟现实世界实现AGI的里程碑」

  提示词:无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花,夕阳的金光照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,绿色的灌木丛覆盖着悬崖边缘。从公路到海滩的陡峭落差非常壮观,悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。‍‍‍

  今天,Sora 开始向安全的红队人员提供服务,以评估可能存在危害或风险的关键领域。OpenAI还授权一些视觉艺术家、设计师和电影制作人访问,以获得关于如何推进模型对创意专业人士最有帮助的反馈意见。

  提示:三维动画中,一只圆滚滚、毛茸茸的小动物,睁着一双富有神采的大眼睛,在生机勃勃的魔法森林中探险。这只生物是兔子和松鼠的奇异混合体,有着柔软的蓝色皮毛和长满条纹的尾巴。它沿着波光粼粼的小溪蹦蹦跳跳,眼睛睁得大大的,充满了好奇。森林里充满了神奇的元素:会发光和变色的花朵、长着紫色和银色树叶的树木,还有像萤火虫一样的小浮光。这只生物停下来,与一群围着蘑菇环跳舞的小精灵嬉戏。它抬头仰望着一棵发光的大树,这棵树似乎是森林的中心

  Sora 能够生成具有多个角色、特定类型运动以及主题和背景的准确细节的复杂场景。该模型不仅理解用户在提示中要求的内容,还理解这些事物在物理世界中的存在方式‍

  提示:一只猫吵醒了熟睡的主人,要求吃早餐。主人试图不理这只猫,但这只猫又想出新招,最后主人从枕头下拿出了偷偷藏起来的点心,让这只猫多睡一会儿。

  该模型对语言有着深刻的理解,能够准确解释提示并生成具有生动情感表达的引人入胜的角色。Sora 还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格

  提示:纽约市像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街头游来游去

  它可能在准确模拟复杂场景的物理过程方面遇到困难,并且可能无法理解特定的因果关系实例。例如,一个人可能会咬下一块饼干,但之后,饼干上可能没有咬痕。 该模型也可能混淆提示的空间细节,例如混淆左右,并且可能在描述随时间推移发生的事件时遇到困难,比如跟踪特定的摄像机轨迹。

  Sora 是一个扩散模型,它通过从一个看起来像静态噪音的视频开始,并逐步通过多个步骤去除噪音来生成视频。

  Sora 能够一次性生成整个视频,也可以延长生成的视频以使其更长。通过让模型在每个时刻具有多帧的前瞻性,我们解决了一个具有挑战性的问题,即确保主体即使暂时离开视野,也保持不变。

  OpenAI将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的一个令牌。通过统一的数据表示方式,可以训练扩散 Transformer 处理比以前更广泛的视觉数据,跨越不同的持续时间、分辨率和纵横比。

  Sora 建立在过去的 DALL·E 和 GPT 模型研究基础之上。它使用了 DALL·E 3 中的重述技术,这涉及为视觉训练数据生成高度描述性的标题。因此地型模型,该模型能够更忠实地遵循用户在生成的视频中的文本指令。

  除了能够仅根据文本指令生成视频外,该模型还能够使用现有静态图像生成视频,以准确并注意细节地为图像内容添加动画。该模型还可以使用现有视频进行扩展或填充缺失的帧。

  Sora 为能够理解和模拟现实世界的模型奠定了基础,我们相信这将是实现通用人工智能的重要里程碑。

  如果你认为 OpenAI 的 Sora 就像 DALLE 一样是一个创意玩具,那你就错了。Sora 是一个数据驱动的物理引擎。它是许多世界的模拟,无论是真实的还是幻想的。这个模拟器通过一些去噪和梯度数学来学习复杂的渲染、直觉 物理、长期推理和语义基础。

  如果 Sora 是在 Unreal Engine 5 上使用大量合成数据进行训练,我一点也不会感到惊讶。

  接下来:添加更多的模态和条件,然后我们将拥有一个完整的数据驱动 UE,将替代所有手工设计的图形流水线。


020-88888888