就在2月16日,Open AI毫无预兆的推出了全新的生成式人工智能模型“Sora”,据公司介绍,这是一款完全可以依靠文字指令生成较为完整的视频的模型,与以往的文生文、文生图、图生视频相比又创造了一个人工智能的极限。
图片来源:Open AI官网(由Sora生成)
在此之前,我们还被聊天智能生成机器人ChatGPT的模型之强大所震撼,2022年末,OpenAI的ChatGPT面世已然给人工生成内容造成了巨大的挑战,宣告了新一轮科技革命的到来,同时也颠覆了生成式AI的全球市场格局。无论是生活家居、聊天娱乐、教育学习、还是工作生产、医疗健康等领域,人工智能正以前所未有的速度渗透到我们生活的方方面面。

那么,此次发布的视频生成智能模型Sora又有何特别之处呢?
Sora使用Transformer架构,建立在DALL·E 3和GPT模型之上,可以生成长达一分钟的包含运动、多机位甚至是多角色的视频。相比业界此前的视频生成时长平均4秒,Sora将视频生成的时长一次性提升了15倍,直接覆盖短视频的时长要求,向中视频领域进击。
除了时长领先,Sora的模型还有世界模型的特质。所谓世界模型,就是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。视频不同于文字,大多需要描绘一个主体,让主体的运动、动作效果符合现实世界的物理规律。可以说,世界模型会让AI视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。同时,世界模型也为生成式AI真正进入自动驾驶行业铺好了路。
根据Open AI发布的测试视频可以看出,Sora的世界模型已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的倾斜感和颠簸感。
图片来源:Open AI官网(由Sora生成)
此外,公司还公开了几个Sora生成的视频,比如Sora生成的一个女人走在大街上的视频,画面中的人戴着墨镜,皮肤纹理如同真人,各种运镜也仿佛真人摄影师在拍摄,很难看出是AI生成的;几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近、一个毛茸茸的小怪物跪在融化的红蜡烛旁边……OpenAI称,这些几乎可以乱真视频均由Sora直接生成,未经修改。其生成速度之快、真都令人感叹。
图片来源:Open AI官网(由Sora生成。提示词为:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去)
不过不可否认,sora还是存在弱点的,OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。当下最违和的问题在于凭空生成:三只小狗在嬉闹,凭空出现了第四只小狗、第五只小狗;一个人捡起一大块塑料片,凭空出现一把塑料椅子。
另外一类主要问题,在于Sora的世界模型仍然不够完善。比如一个男人倒着跑跑步机,且跑步动作并不连贯自然。或者一个篮球撞在篮筐上,发出符合物理规律的弹跳,然而下一秒就撞破了篮网,发生爆炸。一群考古学家,在沙漠里挖出一个塑料椅子,煞有介事的清理灰尘,而椅子本身则在诡异的漂浮和变形。
图片来源:Open AI官网(由Sora生成)
一句话就是,OpenAI的Sora在文生视频、增加视频时长、建立世界模型这几大最主要的难点上,走出了突破性的一步。因此,Sora会开启新一轮的科技浪潮,但绝不可能完全取代人类,只是会让一些岗位更新换代。
但是!
要考研复试的你,就要关注人工智能模型之后的考题变化了~
2022年是被元宇宙支配的一年,2023年被Chatgpt“笼罩”的一年,不知2024年这个Sora会否成为我们考题中常见的朋友?
大胆预测一下,你的考研复试也许会出现以下几道题,包括但不限于
1、为什么国内没有类似Sora、Chatgpt这样的人工智能大模型?
2、Sora如果全面运用,会对哪些行业有影响?有什么样的影响?
3、Sora对传媒行业会造成什么样的冲击?
4、用AI大模型进行内容生产过程中是否会有伦理问题?
5、如何应对AI大模型可能带来的风险?
...
题目看起来是很新鲜,新的话题新的模型,但是考研人不必感到焦急,这些题目和前两年的meta、chatgpt有异曲同工之妙,完全可以将之前所学的基础知识灵活运用在这次的答题论述中。
那么我们一题一题来看吧!
第一道题,我国的大模型技术远不敌国外公司,可以从以下几个方面思考,比如政策限制、市场需求、技术、行业规模等。中国在人工智能领域的发展备受关注,但在大模型领域却存在一定的差距。可能涉及到的原因包括:
1)数据不开放:中国的数据开放程度相对较低,这限制了中国在大模型领域的发展。相比之下,美国等国家的数据更加开放,为大型模型的训练提供了更多的数据支持。
2)语言不同:大部分现有的大型人工智能模型主要针对英文,而中国拥有自己的语言和文字体系,这导致Sora等智能生成模型在中文处理和理解方面存在一定的难度。
3)政策限制:中国在AI领域的政策和监管措施可能对创新和发展产生一定的影响,例如数据隐私保护、数据出境限制等。
4)市场规模:中国短视频市场虽然庞大,但在AI技术应用和商业化方面还存在一些挑战,
5)劳动力结构:我国的相关从业者较多,Sora能生成的大部分视频,劳动者也能制作出,因而对于国内一些中小型公司来说,AI生成的成本也许会高于人工的成本,无法完全推广Sora模型。
针对这些问题,中国可以通过加强数据开放和共享,提高语言处理和理解能力,完善相关政策和监管措施,以及进一步拓展市场规模,在AI大模型领域取得更大的进步。
第二道题,我们可以联想到Sora模型的功能、特征,能自动生成长视频,当然会影响视频制作行业,电影生产行业,传播业甚至于教培行业。
1)视频制作行业:Sora模型的出现将提高视频制作行业的生产效率和创作质量,推动行业向自动化、智能化方向发展,同时也可能导致部分从业者失业或转岗。
2)媒体行业:Sora模型能够快速生成高质量、高效率的视频,对于专业媒体,Sora将会对还原现场、补充画面有巨大的作用,对于自媒体行业,则能推动媒体内容的多样化和个性化。
3)教育和培训行业:Sora模型的出现将为教育和培训行业提供更多的教学资源和创作工具,推动在线教育和远程培训的发展,教学视频的生产将不需要太多从业者。
4)影视制作领域:影视制作公司可以利用Sora模型快速生成预览和草图,节省了大量的制作时间和人力资源。Sora模型具有对语言的深刻理解和创意生成能力,可以根据文本指令生成富有情感和创意的视频内容,将为影视作品提供新的灵感和想法。
5)广告营销行业:Sora模型推动程序化广告的一大进步,程序化创意也会得到助力,Sora模型可以帮助广告公司定制化广告内容,提高广告的吸引力和影响力。此外,广告公司可以利用Sora模型快速生成广告草图和预览,节省了制作成本和人力资源。
至于第三题,其实新传人内心都有一份大概的答案,如果没有,结合上一题的提示进行细化、延伸也是能形成一份完整的论述的。
1)视频发布的革新:
Sora模型的强大视频生成能力将使得传媒机构能够更加高效地生成各种类型的视频内容。传统的视频发布往往需要耗费大量的时间和人力资源来采集、编辑和制作,而有了Sora模型的出现,传媒机构可以利用其自动化的视频生成功能,快速生成高质量的视频内容,从而提高发布的效率和时效性。
2)发布的多样化和创新:
Sora模型的出现将推动发布的多样化和创新,为传媒机构带来更多的创作可能性和选择。传媒机构可以利用其强大的视频生成能力和对语言的深刻理解,快速生成各种类型和风格的发布,满足不同受众的需求和喜好。
3)创作的自动化和智能化:
Sora模型的出现将推动发布的自动化和智能化,为传媒机构提供更加智能化的创作工具和平台。还原现场、3D动画等将能高效产出,此外,天气预报或者自然灾害的发布则可以借助AI生成视频,丰富发布的表现形式,增强了消息的传播能力。
第四题就更眼熟啦!
考研人肯定都见过关于“伦理”的题目吧,类似生产伦理、算法运用的伦理、chatgpt内容生产的伦理等,那么关于这道题,也是有共性可论述的。
内容生产过程中可能会出现一些伦理失范的问题,可能会涉及到的问题包括:
1)信息失真:由于世界模型学习不全面、缺少人工审核或是AI凭空生成视频的原因,Sora在内容生成过程中可能会出现信息失真或误导,影响用户对信息的判断和理解。
2)版权问题:使用人工智能模型生成的内容可能会涉及到版权问题,特别是在涉及到原创作品和知识产权的情况下,可能会引发版权纠纷。
3)道德风险:人工智能模型可能会受到人类开发和学习内容的影响,会出现一些道德风险和偏见、仇视,例如性别歧视、种族歧视等。
4)学术不端:一切的人工智能都有可能会引起学术不端,比如学术创作时利用Sora等模型生产作品,这其实是违背学术创作的规范的。
针对这些问题,需要加强对人工智能技术的监管和规范,制定相应的伦理准则和法律法规,保障内容生产过程中的合法性、公正性和道德性。
一项新技术的出现,都会带来一系列需要解决的风险甚至是社会问题,正如刘兴亮所说的,AI内容制作,让现实与虚拟的界线变得模糊。内容真实性、版权、隐私、数据、安全等问题纷至沓来。社会需要一套完善的政策、法律和伦理规范来应对,确保技术发展不脱轨,保护每个人的利益。
根据Open AI的回应,会对Sora模型的应用采取几个安全措施,包括对模型进行对抗性测试,暴力、歧视、仇恨内容将被禁止,还有技术专门分辨视频是否由Sora生成,以避免AI视频扰乱社会秩序。尽管进行了广泛的研究和测试,但公司无法预测所有人们使用公司技术的有益方式,也无法预测所有人们滥用技术的方式。
以上内容可以作为第五题的提示,新传人从技术、法规、文化角度去分析,完善这份论述~
最后,借用彭兰老师的话结尾,“智媒时代不应该是一个机器统治人的时代,相反,机器的力量应在于更好地连接人与人,更好地汇聚人的智慧,并以机器的智慧拓展人的能力。但能否达到这一目标,取决于人对自我及机器的认知能力”,万物皆为人所用,人类也只有不断提高自己的机器驾驭能力,才能在人机共生的时代始终占主导位置。
参考文献:
1、每经.Sora来了,现实不存在了?每日经济https://mp.weixin.qq.com/s/y82KaPSIjCROi9FLHXdf2A
2、王一鹏.OpenAI再次举起屠刀,以及几个推论. 虎嗅APPhttps://mp.weixin.qq.com/s/c0fL6vO_-vwTH5g4SvbIxQ
3、吴涛,吴家驹.Sora来袭,明星失业?中国网 https://mp.weixin.qq.com/s/6srXm3-9OuFSGMgov3KMoQ
#ai##模型##考研##考研复试##话题##科技##备考##社会#