AI 生成影片系统再加一!Google 的 Imagen Video 可将文字叙述转换为影片

AI 生成影片系统再加一!Google 的 Imagen Video 可将文字叙述转换为影片

继 Meta 推出文字生成影片工具 Make-A-Video 後,Google 也跟进,近日分享了公司研发的 AI 系统 Imagen Video,同样藉由 AI 将文字转换成影片。

Imagen Video 基於 Google 的图片生成系统 Imagen 之上。Imagen 与 DALL-E 2 类似,以扩散模型 diffusion model 来产生新数据,系统藉由学习如何「破坏」和「修复」已存在的资料样本,来创作出新作品。

Imagen Video 由 1400 万套影片和文字组合、6000 万套图片和文字组合,以及 LAION-400M 数据库来训练。系统可创造出带梵谷风格或水彩样式的影片。

较令人意外的是,Google 称系统具备 3 维空间概念,能创作出像无人机空中旋转的影片,或在不扭曲物体的状况下捕捉各种角度的画面。

Imagen Video 的另一项特点是可以在影片中呈现文字。Stable Diffusion 或 DALL-E2 在接收到「生成 logo」的指令时,都难以在生成的照片中呈现可阅读文字,但 Google 则表示他们的系统已可达成这项功能。

不过 Imagen Video 如同 Meta 的 Make-A-Video 一样存有许多限制,像画面模糊、动作不流畅、出现假影和噪音等问题。但 Google 表示这项 AI 系统,让他们离一个有高度可控制性,且具丰富知识的系统又再更进一步。

阿尔伯塔大学(University of Alberta AI)和机器学习助理教授 Matthew Guzdial 表示,Imagen Video 生成的作品画质仍模糊,因此不可能用作为动画,但他相信这套系统有加快动画作品产出的潜力。

而为了精进系统,Imagen Video 的团队计画与另一 Google 文字生成影片工具 Phenaki 的研发团队合作,希望能让系统生成 2 分多钟的影片。

Imagen Video 团队目前着重於改善影片的画质,而 Phenaki 团队则是专注於拉长影片长度,目前已可将一个段落的文字,转成具微电影般长度的影片。

Google 也与 Meta 一样,担心系统学习到有问题的内容,而生成具争议性的影片,因此在确保系统可安全使用之前,Google 并不会公开系统模型或开源程式码。

从 Meta 到 Google 可以看出文字生成影片工具的开发进度快速,或许不久後,大众也可如同 DALL·E 般,亲自体验这些系统的操作。

科技生活家

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x