发布时间:2025-02-23 06:42:22 来源:白骨静兰网 作者:探索
在天生式 AI 盛行的视频明天 ,英伟达在文本天生视频规模更进了一步,英伟实现为了更高分说率、达做到最更持久。高×
要说现阶段谁是最长 AI 规模的「当红辣子鸡」?天生式 AI 舍我其谁。搜罗 ChatGPT 等对于话式 AI 谈天运用 、视频Stable Diffusion 等 AI 绘画神器在内,英伟天生式 AI 揭示的达做到最下场深深地捉住了人们的眼球。
咱们以图像天生模子为例,高×患上益于底层建模技术最近的最长突破 ,它们收获了亘古未有的视频关注。如今 ,英伟最强盛的达做到最模子构建在天生坚持收集、自回归 transformer 以及散漫模子(diffusion model,高× DM)之上。其中散漫模子的最长优势在于可能提供安妥以及可扩展的磨炼目的,而且参数密集度个别低于基于 transformer 的竞品模子。
尽管图像规模取患了长足后退,但视频建模却落伍了 ,这主要归罪于视频数据磨炼的高昂合计老本以及缺少大规模果真可用的通用数据集。当初视频分解虽有丰硕的钻研文献 ,但搜罗先前视频 DM 在内的大少数使命仅能生因素辩率较低且每一每一较短的视频。
因此 ,若何生因素辩率更高、更长的视频成为一个热门钻研课题 。克日慕尼黑大学、英伟达等机构的钻研者运用潜在散漫模子(latent diffusion model, LDM)实现为了高分说率的长视频分解