传媒行业专题研究-AIGC引领内容生产方式变革.docx
- 文档编号:18949209
- 上传时间:2024-09-13
- 格式:DOCX
- 页数:16
- 大小:832.44KB
传媒行业专题研究-AIGC引领内容生产方式变革.docx
《传媒行业专题研究-AIGC引领内容生产方式变革.docx》由会员分享,可在线阅读,更多相关《传媒行业专题研究-AIGC引领内容生产方式变革.docx(16页珍藏版)》请在冰点文库上搜索。
传媒行业专题研究:
AIGC引领内容生产方式变革
技术助力AIGC发展,长期看大模型+多模态成趋势
AI由分析转向创造,22年AIGC产品集中发布
AI技术逐渐实现从分析到创造的迭代。
AI(ArtificialIntelligence)即人工智能,传统的AI技术被称为分析式AI(AnalyticalAI),偏向于分析数据并总结规律,同时将规律运用到其他用途,比如运用AI技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。
但随着技术的迭代,AI已经不仅仅局限于分析已有事物,而是开始创造有意义、具备美感的东西,即完成感知世界到创造世界的变迁,这种新型的技术被称为生成式AI(GenerativeAI)。
从定义上看,AIGC既是一种内容形态,也是一种内容生成的技术合集,即生成式AI。
从狭义上看,AIGC(AIGeneratedContent)是继PGC(ProfessionalGeneratedContent)与UGC(UserGeneratedContent)之后的一种内容形式,即利用人工智能技术生成的内容。
从广义上看,AIGC指的是自动化内容生成的技术合集,基于生成算法、训练数据、芯片算力,生成包括文本、音乐、图片、代码、视频等多样化内容。
AIGC起源于20世纪50年代,经过多年发展,在2022年AIGC产品集中发布,多款产品出圈,引发社会广泛关注。
据中国信通院,AIGC起源于20世纪50年代,莱杰伦·希勒和伦纳德·艾萨克森完成历史上第一只由计算机创作的音乐作品《依利亚克组曲》,但受制于技术水平,截至1990年,AIGC均仅限于小范围实验。
1990-2010年是AIGC的沉淀积累阶段,AIGC逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。
2010年以来,伴随着生成算法、预训练模型、多模态技术的迭代,AIGC快速发展,2022年多款产品出圈。
2022年8月,StabiltyAI发布StableDiffusion模型,为后续AI绘图模型的发展奠定基础,由Midjourney绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军,引发社会广泛关注。
2022年11月OpenAI推出基于GPT-3.5与RLHF ( ReinforcementLearningfromHumanFeedback,人类反馈强化学习 )机制的ChatGPT,推出仅2月日活超1,300万,据Forbes,2023年1月OpenAI的估值从2021年的140亿美元提升到2023年1月的290亿美元。
此外,科技巨头亦加码布局AIGC,如微软表示将自己的消费者和企业产品中部署OpenAI的模型,宣布将OpenAI语言模型整合到Bing引擎和Edge浏览器中;谷歌在ChatGPT发布后亦加快AI自研,2023年2月7日正式发布下一代AI对话系统Bard,此外谷歌还投资ChatGPT的竞品Anthropic; 国内方面,据百度官网,2023年2月7日,百度公布了大模型新项目文心一言(ERNIEBot),据彭博社,百度计划在2023年3月将最初的版本将内嵌到搜索服务中。
生成算法、预训练模型、多模态技术成为AIGC发展的关键
从技术上看,生成算法、预训练模型、多模态技术是AIGC发展的关键。
从流程上看,算法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。
长期看大模型+多模态将成为趋势:
#1生成算法持续优化
算法即解决问题的策略和机制,2014年伊恩·古德费洛提出的GAN(GenrativeAdversarialNetwork,生成对抗网络)成为最早的AI生成算法。
随后Diffusion、Transformer、基于流的生成模型(Flow-basedmodels)、CLIP(ContrastiveLanguageImagePre-Training)等深度学习算法相继被推出,其中Diffusion逐渐代替GAN成为图像生成的主流模型,Transformer的推出为预训练模型奠定了基础,CLIP则广泛应用在多模态技术中。
#2预训练模型持续完善
2015年以前,小模型一度被认为是行业发展的方向,但这些小模型更偏向处理分析性任务,生成能力较弱。
2017年谷歌研究院在《 AttentionisAllYouNeed 》中提出Transformer算法的概念,而Transformer能够有效提取长序列特征,具备较高的计算效率和可扩展性,大大降低训练时间。
2018年谷歌发布基于Transformer的NLP(NaturalLanguageProcessing,自然语言处理)预处理模型BERT,标志着人工智能进入预训练模型时代。
从流程上看,预训练模型采用两阶段学习法,即首先在大量的通用数据上训练并具备基础能力,再结合多样的垂直行业和场景对预训练模型进行微调,从而有效提升开发效率。
随着参数规模的扩大,预训练模型在语言理解,图像识别等领域迅速取得突破,所需的计算量也急剧增长。
据红杉资本,2015-2020年,用于模型训练的计算量增加了6个数量级。
据腾讯研究院,按照类型分类,预训练模型包括:
1)NLP(自然语言处理)模型,使得人与计算机能够用自然语言有效通信,包括OpenAI的GPT系列,Facebook的M2M100;2)CV模型(ComputerVision,计算机视觉),运用计算机及相关设备对生物视觉进行模拟,比如微软的Florence;3)多模态预训练模型,包含图像、文字、视频等多种形式,如谷歌的Image、StabilityAI的StableDuffusion等。
#3多模态技术快速发展
多模态技术(MultimodalTechnology)即将图像、语音、视频、文字等多模态融合的机器学习技术,而CLIP(ContrastiveLanguage–ImagePre-training)的推出成为跨模态应用生成的重要节点。
CLIP在2021年由OpenAI开源推出,能够将文字和图像进行关联且关联特征丰富,后续“CLIP+其他模型”成为跨模态生成领域的较通用的做法,如DiscoDiffusion便是将CLIP与Diffusion模型进行关联,用户输入文字指令便能够生成相关的图片。
在多模态技术的加持下,预训练模型已经从早期单一的NLP、CV向多模态、跨模态的方向发展。
AIGC产业链基础层/中间层/应用层,中外差距约3年
从产业链结构来看,AIGC主要包括基础层、中间层和应用层,中外差距在3年左右。
由于技术与投资环境差异,AIGC在我国大多作为公司的部分业务进行开发,独立的初创公司数量较少,导致AIGC实际的场景开发较国外仍有差距。
据量子位,中外公司的整体差距在3年左右,底层技术是核心原因。
#1基础层
基础层即预训练模型,构成了AIGC的基础。
随着预训练模型参数的增加,预训练所需要的数据量同样快速提升,带来较高的成本投入。
据中国信通院与京东探索研究院发布的 《人工智能生成内容白皮书2022》,模型参数量已从最初的千万级发展到了千亿级别,训练代价也从数十天增长到几十万天(按在单张V100GPU计算)。
据北京智源人工智能研究院,2020年OpenAI发布的NLP模型GPT-3的参数量约1,750亿,训练数据量达45TB,模型训练成本近1,200万美元。
因此该领域的参与者主要是科技巨头与头部的研究机构,如OpenAI、谷歌、微软、Meta、百度等。
#2中间层
中间层即垂直化、场景化、个性化的模型。
在预训练模型的基础上,能够快速生成垂直化的小模型,实现流水线式的开发,降低开发成本,提升效率。
如StableDiffusion开源后多个绘画模型基于StableDiffusion开发,二次元绘画领域包括知名的NovelAI,而昆仑万维的天工巧绘SkyPaint模型则采用全球第一款多语言StableDiffusion分支模型,兼容StableDiffusion。
据腾讯研究院,随着大模型+多模态加速成长为通用性技术平台,模型即服务(Model-as-a-Service,MaaS)逐渐实现,通过API授权有望助力AIGC变现。
#3应用层
应用层即面向C端的AIGC应用。
从模态上看,应用层包括图像、音频、文本、视频等,其中图像领域代表产品包括MidJourney、DreamStudio等;音频包括DeepMusic等;文本包括ChatGPT、Sudowrite等;视频包括Runway等。
从形式上看,应用层包括App、网页、小程序、聊天机器人等,将C端用户与模型联通,已经逐渐渗透到生活中的各个领域,如MidJourney搭载在聊天软件Discord中推出,ChatGPT则支持网页直接登录,国内的如昆仑万维的天工巧绘SkyPaint能够通过微信小程序登录,满足用户的多样化需求。
AIGC颠覆传统生产模式,掀起全场景内容生产力革命
AIGC从效率、质量、多样性为内容生产带来革命
AIGC技术的突破性进展引发内容生产方式变革,内容生产由PGC(专业制作)和UGC (用户创作)时代逐渐步入AIGC时代。
AIGC顺应了内容行业发展的内在需求,一方面内容消费量增加,急需降低生产门槛,提升生产效率;另一方面用户端表达意愿明显上升,消费者对内容形态要求更高,内容生成个性化和开放化趋势明显。
AIGC通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业的应用场景不断增加和拓展,将在内容生产中产生变革性影响。
具体来看主要有以下三点:
1)自动内容生成,提升内容生产效率,降低内容生产门槛和内容制作成本。
当前大量文本、图像、音频、视频等内容都可以通过AIGC技术自动生成,高效的智能创作工具可以辅助艺术、影视、广告、游戏、编程等创意行业从业者提升日常内容生产效率。
此外,自动内容生成可以降低内容生产门槛和内容制作成本,例如,借助AI编曲软件可以自动生成编曲,而人为创作大概需要7-10年的经验积累。
2)提升内容质量,增加内容多样性。
AIGC生成的内容可能比普通的人类创建的内容质量更高,大量数据学习积累的知识可以产生更准确和信息更丰富的内容,谷歌的Imagen生成的AI绘画作品效果已经接近中等画师水平。
而且AIGC可以帮助企业和专业人士创建更多样化、更有趣的内容,VQGAN可以生成抽象绘画作品,不咕剪辑Cooclip内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。
3)助力内容创新,实现个性化内容生成。
AIGC将内容创作中的创意和实现分离,替代创作者的可重复劳动,可以帮助有经验的创作者捕捉灵感,创新互动形式,助力内容创新。
例如AICG在设计初期生成大量草图可以帮助美术创作者生成更多创作灵感。
根据个人用户的喜好生成个性化内容,也有利于多种创意落地。
AIGC发展中仍面临法律、安全、伦理和环境等问题。
首先,AIGC引发了新型版权侵权风险,因版权争议,国外艺术作品平台ArtStation上的画师们掀起了抵制AIGC生成图像的活动。
其次,AIGC滥用容易引发信息内容安全、内生安全、诈骗违法犯罪行为等安全隐患,诈骗团队利用AIGC换脸伪造埃隆·马斯克的视频,半年诈骗价值超过2亿人民币的数字货币。
再次,算法歧视等伦理问题依然存在,人工智能大规模替代人类劳动引发争议。
最后,AIGC模型训练消耗大量算力,碳排放量巨大,对环境保护造成压力。
文本、音频和图像生成等落地相对较快,游戏等方向仍待成熟
细分场景众多,文本、音频、图像领域发展较快。
基于模态,我们认为目前AIGC下游落地场景有文本、音频、图像、视频、游戏、代码、3D生成等。
较之国外,我国AIGC行业仍处于刚起步阶段,体系化发展等仍待完善。
文本生成:
AIGC目前可以较好地完成新闻播报等结构化写作、推荐相关内容、帮助润色等非结构化内容,同时在虚拟男/女友、心理咨询等闲聊机器人中应用较为广泛。
剧情续写、营销文本等非结构化写作与文本交互游戏等应用尚未实现规模化应用,未来或可实现文本生成的终稿达到人类平均水平甚至专业水平。
图像生成:
随着算法模型的不断迭代,AI作画水平不断提高。
在图像编辑工具上,去除水印、提高分辨率、特点滤镜等已较广泛应用。
根据随机或按照特点属性生成画作等的创意图像生成,与根据指定要求生成营销类海报、模特图等的功能性图像生成发展接近成熟。
当前图像生成水平与专职艺术家、设计师和摄影师的产品设计作品存在一定差距。
音频生成:
发展较为成熟,消费与企业级的应用正在铺开。
AIGC目前在语音克隆、生成虚拟人的特定歌声/播报等的文本生成特定语言、包含作曲与编曲的乐曲/歌曲生成上得到广泛应用,代表企业和应用的有倒映有声、Deepmusic、网易-有灵智能创作平台等。
AI降噪去除压缩和采样中的噪音仍需改善,AI作曲不再机械化与人类创作音乐水平相仿,在未来值得期待。
视频生成:
AIGC目前对于删除特定主体、生成特效、跟踪剪辑等的视频属性编辑已较广泛应用,视频换脸等的视频部分剪辑预计不久将规模化应用,对特定片段进行检测与合成的视频自动剪辑发展仍不完善。
当前,全自动生成长时间的视频作品还不能实现,距离依个人梦想定制电影和剧集还较为遥远。
其他(游戏/代码/3D):
代码补全生成来替代程序员重复性劳动的发展较为成熟,大量应用已落地。
游戏中游戏操作策略生成和NPC逻辑及剧情生成尚需进一步完善,3D生成尚处于早期阶段,3D模型、3D角色制作和3D场景尚未实现规模化应用。
3D、游戏、代码自动生成更加智能将成为未来的增长方向。
AIGC的商业模式同样处于持续探索的阶段,由按量收费等传统方式向SaaS订阅模式等应用场景更灵活的方式拓展。
AIGC让AI公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为AI行业带来一种全新的可能性和商业模式。
1)按量收费:
AI技术传统应用模式主要以API接口对外开放,以实际使用量/训练量计算收费,如OpenAI的GPT3语言模型服务以每千tokens定价(OpenAI使用的字符计算单位,一千tokens约等于750个单词),Ada/Babbage/Curie/Davinci四种模型的能力和产出速度不同,单价也有所不同,分别为$0.0004/0.0005/0.0020/0.0200每千tokens。
图像生成方面,DALL`E模型同样按次收费,不同尺寸的图像收费不同,生成一张256x256/512x512/1024x1024像素的图片,单次收费$0.016/0.018/0.020。
2)SaaS模式:
AIGC为B端及C端用户提供了会员SaaS收费的模式,降低了传统AI公司的客户服务规模化的难度。
据OpenAI官网,2023年OpenAI推出付费版本的ChatGPTPlus,起价为每月20美元,提供更快的响应速度,以及新功能和更新的有限使用权。
美国AIGC公司Jasper主打AI生成文案服务,以类SaaS服务收费,2021年成立当年营收达4,500万美元,以其Starter模式为例,基础收费是24美元/月,可以使用不超过2万字;最高332美元/月,可以使用32万字。
3)其他:
通过降本增效来增利、定制化服务付费、个性化产品销售等。
市场积极探索其他场景商业化:
在广告营销、影视、音乐、游戏、艺术品等领域AIGC有望继续拓展更多样化的商业化形式。
蓝色光标推出的“销博特”发布AIGC“创策图文”营销套件,该套件的定制版服务将销博特营销能力服务部署为企业自有云服务,并根据企业个性化需求进行二次开发,构建企业内部营销创意基础设施平台,为企业提供专属营销策划和创意内容。
AIGC的商业模式同样处于持续探索的阶段,由按量收费等传统方式向SaaS订阅模式等应用场景更灵活的方式拓展。
AIGC让AI公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为AI行业带来一种全新的可能性和商业模式。
AIGC多场景快速落地,文本/图像关注度较高
文本:
ChatGPT引领热潮,大厂加码布局交互式文本
据量子位,AI文本生成分为交互式与非交互式。
非交互式包括结构化写作,非结构化写作和辅助性写作,其中结构化写作指基于数据或规范格式,在特定情况下生成的文本,如新闻、简讯等;非结构化写作以创作型文本生成为主,具备更高的开放度。
作为AIGC最早发展的技术,AI文本生成已经在新闻报道、商业营销、客服机器人等领域广泛落地。
2022年11月30日,OpenAI推出的智能聊天工具ChatGPT引入RLHF机制,降低训练成本且效果优化,不仅能够对问题作出回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务,据Similarweb,ChatGPT推出仅2月平均日活超1,300万,引发社会广泛关注。
科技巨头亦加码布局交互式文本,微软在2023年1月追加投资OpenAI,未来还计划将ChatGPT整合到旗下的搜索引擎Bing中;谷歌通过内部研发与投资ChatGPT的竞品Anthropic来应对挑战,23年2月6日公布了与ChatGPT类似的对话服务Bard;据彭博社,百度计划将ChatGPT类似程序嵌入搜索服务中。
#1交互式文本
在交互式文本当中,最近热度较高的ChatGPT是代表性应用,展现出较强的智能水平。
ChatGPT是OpenAI在2022年11月30日推出的人工智能聊天工具,其不仅能够模仿人类的风格作出问题回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务。
据腾讯研究院,ChatGPT目前可以驾驭各种风格和文体,能够做到回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求等。
ChatGPT的内容输出质量、内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。
据CNBC,ChatGPT通过了Google3级工程师的编码面试,据NBCNews,沃顿商学院教授ChristianTerwiesch发现ChatGPT能够以B-到B的成绩通过该校MBA核心课程运营管理的期末考试,展现出较强的智能水平。
ChatGPT的出现迅速引起广泛关注,仅推出2月平均日活超1,300万,成为一款现象级的产品。
ChatGPT用户数在5天内突破了100万,据Similarweb,2023年1月每天平均有1,300万独立访客使用ChatGPT,超12月的2倍,而这距离ChatGPT的推出仅2个月。
ChatGPT强大的性能引发了社会的广泛关注,特斯拉 CEO马斯克在Twitter上表示 “许多人已经陷入了ChatGPT的疯狂循环中”,“我们离强大到危险的AI不远了”;2023年2月,微软创始人比尔盖茨接受Forbes采访时表示“AI将成为2023年最热门的话题,ChatGPT这种人工智能技术出现的意义不亚于互联网和PC的诞生”。
ChatGPT引入RLHF机制,通过引入人类反馈,持续优化模型效果。
据OpenAI官网,ChatGPT的模型在GPT-3.5的基础上引入了RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)机制,这一模式增强了人类对于模型输出结果的调整,对结果进行更具理解性的排序,并提升训练效率,加速模型收敛。
ChatGPT再获微软投资,合作持续加深,未来将集成至Bing搜索引擎与Edge浏览器中。
据路透社,OpenAI在2019年获得微软10亿美元的投资,2021年微软对OpenAI追加了投资。
据微软官网,微软在2023年1月表示,作为两家公司合作的第三阶段,微软将加大对supercomputingsystems的投资以支持OpenAI的发展。
此外微软未来会把自己的消费者和企业产品中部署OpenAI的模型,并为客户引入基于OpenAI技术的体验,将OpenAI的技术构建到GitHubCopilot和MicrosoftDesigner等,同时微软仍然为OpenAI的独家云提供商。
从具体的落地层面看,2023年1月微软CEO萨提亚·纳德拉表示微软旗下的Azure云服务即将整合ChatGPT技术,2023年2月,微软旗下的Teams推出嵌入ChatGPT的高级服务,同时微软宣布将OpenAI的语言模型整合到Bing搜索引擎和Edge浏览器中。
据Theinformation,截至2023年1月,OpenAI估值达290亿美元。
ChatGPT在商业化路径上持续探索,推出付费版本ChatGPTPlus。
OpenAI的CEOSamAltman在Twitter上表示,ChatGPT平均一次聊天成本在个位数美分,除了API外,公司正在探索更多的商业化变现模式,而ChatGPTPlus便是其中之一。
据OpenAI官网,2023年OpenAI推出付费版本的ChatGPTPlus,起价为每月20美元,目前只对美国的用户开放。
据OpenAI官网,ChatGPTPlus即使在高峰时段也可以访问,有更快的响应,可以优先使用新功能和改进。
谷歌通过内部研发与投资应对ChatGPT或带来的颠覆性挑战。
据Insider,2022年12月,谷歌为ChatGPT带来的威胁发布了“红色警报”,着手进行紧急应对。
应对措施方面,谷歌一方面加快内部研发,据谷歌官网,美国时间2023年2月6日,谷歌发布了与ChatGPT类似的对话服务Bard,目前Bard向测试人员开放,未来几周将持续向公众开放该服务。
Bard基于谷歌的LaMDA模型(LanguageModelforDialogueApplications,用于对话场景的语言模型),能够利用网络上的信息提供最新的、高质量的回答。
此外,据TheIndependent,谷歌或将在2023年通过子公司DeepMind推出聊天机器人Sparrow,可通过谷歌搜索引用特定的信息源,准确性更强。
谷歌也在通过投资持续布局相关领域。
据金融时报,2023年2月,谷歌投资AIGC初创公司Anthropic超3亿美元,获得了约10%股份。
据Anthropic官网,谷歌已经与Anthroic签署了一份大型云计算合同,Anthropic从谷歌云购买计算资源,谷歌提供AI模型算力。
Anthropic在2021年由前OpenAI研究副总裁
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 传媒 行业 专题研究 AIGC 引领 内容 生产方式 变革