清华团队国产“Sora”火了，我们能弯道超车吗？|《AIGC未来已来》

2024-04-28 23:59:1309:42 2.9万

声音简介

原文

前阵子，美国的AI视频模型Sora大火了一把，国内始终没有什么动静，但今天好消息出来了。4月28日，据环球网科技综合报道，生数科技联合清华大学发布了视频大模型Vidu，引发关注。这个模型的亮点很多：比如支持一键生成长达16秒、分辨率达1080p的高清视频内容，画面效果接近Sora，并且镜头语言、时空一致性、物理模拟等方面都接近真实3D效果，让人惊叹。

今天，我就借由工业和信息化部通信经济专家委员会办公室原副主任、北京第二外国语大学人工智能应用实验室顾问翟尤老师等人共同编著的《AIGC未来已来》这本书，带你深入了解Sora等人工智能生成内容背后隐藏的价值，以及AI技术给人类生活带来的可能与挑战性。

今天的主角是Sora模型，它与之前研发的ChatGPT相比又有什么不同呢？说到ChatGPT和Sora模型，那就不得不提到美国第一个吃螃蟹的公司OpenAI。2024年2月16日，人工智能文字生成视频大模型Sora发布，这个模型可以通过提供的文本指令，创造传达一分钟的视频，内容逼真、复杂且生动形象，惊掉民众的下巴。

那么Sora模型究竟有什么魔力，竟然甩了ChatGPT好几条街？首先你要明白，什么是人工智能生成的含义，《AIGC未来已来》一书中将AIGC定义为人工智能生成内容，也就是利用AI自动生成内容的生产方式。比如ChatGPT专注在文字语言对话，而Sora模型则专注于视频内容的生成，与ChatGPT相比，简直是降维打击。

当然，Sora模型的优势体现在，能够准确、快速地理解文字内容，生成具有丰富情感的角色以及栩栩如生的真实场景。比如，前几年网上到处疯传的，美国明星威尔·史密斯吃面条的视频，GPT生成拼接出来的史密斯，满嘴面条，甚至身体其他部位都在吃面，简直吓坏了所有观众。但经过Sora模型处理后，史密斯可以像正常人一样把面条送到嘴里，面带微笑，四肢也很冷静。而且整个画面看起来动作自然，环境温馨，换句话就是，越来越像个人了。

其次就是它的静态噪声处理能力，模型在GPT技术的基础上，进一步升级。比如，原来GPT生成很多张蝴蝶在草地上飞舞的图片，拼接在一起，不流畅。后来虽然有了初级的声音，但是背景声音很乱，像是周围的说话声、汽车跑过、故障音频这种情况。但是新视频模型能够解决这些问题，它能像将杂乱的噪声去除干净，视频更细腻、流畅。

最后就是模型的对文字图片内容的延展与想象力。这个能力意味着，它能够对已有的视频进行拓展想象，就像是给原本听从简单命令的大脑加上了思维的翅膀，能在未知的可能性中，制定画面。再给你可以举个下雪城市的例子，让大家想象一下：一座白雪皑皑的城市，镜头穿过熙熙攘攘的城市街道，几个人一块散步，在附近的摊位购物，绚丽的樱花花瓣随着雪花随风飘扬。

在Sora模型的影响下，我们只需要短短的一行字描述，整个视频就不是简单的一个画面，而是多个分镜的丝滑切换，将雪花、城市、人类的每一帧活动图像拓展填充。

在了解Sora模型的优势之后，请你再将视线转移到国内最近Sora模型的最新突破，聊一下清华大学Sora模型。

其实这个模型的诞生，要从2018年清华大学人工智能研究院的成立说起。当年也恰恰碰上 GPT诞生，国内人工智能研究在全球的影响力逐渐提升。后来厚积薄发的清华团队，在2022年9月提交了一篇早期视频模型的学术论文，这个模型的名字叫“U-ViT”，比国外Sora模型的DiT模型还早两个月。这么说大家可能没什么概念，这里我来对比一下：国外的模型只在一个名字叫ImageNet的可视化的大型数据库上做了实验，但清华团队的模型在这个大型数据基础上，还在细枝末节的，小型图文类数据集做实验，那么模型的稳定性也就更强一些。

时间来到今年1月份，生数科技旗下的视觉创意设计平台已经上线了短视频生成功能，虽然这个时候只支持4秒的视频生成，但已经突破了图片与三维视频的瓶颈。3月份就将视频时长提高到8秒，紧接着就提升到如今的16秒，质量与时长全面突破。

根据人工智能媒体机器之心2月采访，团队首席科学家朱军表示，与ChatGPT相比，Sora模型研发在国内外的差距并没有那么大了，只是工程技术上可能会稍微落后一些，对于视频生成这个问题，国内十分重视，目前所具备的基础还是很好的，所以我们应该要乐观一些。

当然，你也会对Sora模型等AI技术产生担忧，它会不会在未来改变人类，我们会不会变成无业游民。

关于这个问题，大家的担心是可以理解的，就像终结者里机器人强大能量的威胁一样。可是，这种想象也恰恰反映了我们作为人类的与众不同。就像《AIGC未来已来》这本书里描述的那样，“汽车比人类快，但并不意味着人类停止了行走，我们将人工智能技术视为想象力的引擎，这是一件非常积极和人性化的事情”，而Sora模型正是人类在AI创造这条路上不断前进的证据。

所以，咱们应该冷静地、乐观地看待这种新时代技术的进步，因为科技创新往往就是偶然诞生的智慧。就像美国硅谷赫赫有名的科学家肯尼斯•斯坦利和乔尔•雷曼在《为什么伟大不能被计划》这本书里讲的那样：“我们在进入一个充满不确定性的世界时，不时地顺应偶然性，遵从它的指引，也不见得是坏事。”顺着这个思路来想，其实Sora模型等技术的发展的的确确有很多优势。比如现在各大自媒体平台的短视频行业，很多人可以充分利用AI技术进行创作，提高工作效率。

但相对应的，那些低水平、重复性强的工作，只能被替代。例如短视频平台上的小说讲解内容，如果我们要讲一本唐代历史的故事，GPT就可以翻译改写文字，视频也能自动生成，发布人员只需要手动修改一些细节就大功告成。

那么，计算机真的会取代我们吗？我想不会，因为人工智能也有缺陷，它所拥有的智能并不是人类的智慧和情绪，比如，现在的Sora模型也有弱点，视频时间有限，内容的深度和逻辑性也不强，从这一点来讲，人类仍然需要不断思考进步。对此，《AIGC未来已来》的一句话让人令人醍醐灌顶：“与其说有的工作会被AI取代，不如说会淘汰那些不会使用AIGC的人。正如在计算机诞生之初，能够最先掌握这一工具的人，就会比其他人具有更高的工作效率”。

比如2023年1月，雅诗兰黛公司为了给视障人士提供化妆帮助，推出了一种语音化妆助手系统。下半年左右，还在谷歌商店推出了app，好评不断，社会效益直接拉满。反过来说，真正值得我们小心的，是要警惕人类对它的不法利用。

最后我想说，人工智能技术是把双刃剑，有前景也有担忧，但我们应该更多地关注智能技术的无限可能，人工智能革命带给我们的仍然是希望大于绝望。

好了，今天的热点讲书就到这里了。今天为你推荐的书是《AIGC未来已来》《为什么伟大不能被计划》，我们下期再见。