AI能让视频更智能吗?

 新闻资讯     |      2020-07-28 12:45

编辑导语:2016年,AI被人们所熟知并且快速发展,同时短视频也慢慢进入了人们的视野,AI与视频相结合已经不是新鲜事。在视频制作的每一个阶段,都有AI的参与。目前的AI+视频虽然已经有了不错的业绩,但是仍有不少可以优化改进的地方,我们看到的只是AI应用在视频行业的冰山一角,背后仍有不少关键地带待我们去发掘和探险。

2016年,AlphaGo打败世界围棋冠军李世石,将强化学习送上了新的研究高潮,同时也推动着人工智能(Artificial Intelligence, AI)进入新的发展阶段——不少人也因此称2016年为人工智能元年。

同样在2016年,短视频行业兴起,抖音快手巨头领跑,各大厂商积极布局,硬生生将我们送入一个全民视频的时代。

如今四年过去了,两个行业在经过了各自的火爆、泡沫、与沉淀之后,进入了新的发展时期。无论是人工智能,抑或是长短视频,不少人称这两个行业均已进入了各自的下半场。

“下半场”这个词总让人产生一种危机感,仿佛这个行业已经日薄西山,穷途末路。然而在我看来,下半场反倒是推动一个行业前进的关键时期。

所谓上半场的红利,下半场的能力,经过了上半场的大浪淘沙,少了些盲从与抄袭、多了些沉淀与坚守的下半场很有可能会为整个行业带来新的探索与提升。

当AI和视频这两个被双双认为进入下半场的行业碰撞在一起时,又产生了、或即将又会产生什么新的火花呢?

一个视频,从无到有到被观众看到,大概会经过视频采集、生产制作、分发播放与被用户体验四个阶段。

视频行业发展至今,从PGC到UGC到日益增多的PUGC,越来越多的大众参与到了视频的拍摄制作与播放观看当中。在这个过程中,视频生命周期的每一个阶段也发生了相应的变化。

在视频采集阶段,得益于手机相机性能的提升,越来越多的人开始用手机来记录拍摄生活。

专业的摄像机、录像机等设备固然能拍摄出画质更好的视频,然而对于大多数人来说,手机所拍摄出的画面质量足以满足他们的要求,再加上手机云台、无人机等消费级设备的出现,彷佛人人都有成为自媒体生产者的可能性。

然而传统的视频制作过程往往较为繁琐,一个高质量视频的制作,往往需要在如PS、PR、AE等诸多重量级视频编辑软件间反复切换,视频的修剪、调色、配音和渲染更是要花费大量时间。

而如今几乎每个人的手机里都有系统自带的视频编辑工具,特效、滤镜、美颜等功能也成了几乎所有短视频APP的标配,手机上的各种第三方轻量级视频剪辑APP更是能让一个从未做过视频的小白快速制作出属于自己的作品。

可以发现,视频的采集与生成阶段都伴随着从专业人员到大众普适参与的转变。而相较于视频的采集和制作,视频分发播放的改变则更为剧烈。

十几年前,我们观看视频的方式多是守在电视机前,被动地接受各大电视台制定好的节目单。

时至今日,网络视频已经成为中国人最主要的休闲娱乐方式,优爱腾芒同题竞争,抖快B站超车入局,人人可以在手机等移动设备上看到自己喜爱的内容。

用户体验在互联网领域备受关注,早期的电视视频时期,我们只能进行单向观看。如今,在各大网络视频平台上,我们可以进行评论、点赞、弹幕等等一系列互动操作,网络视频平台的热烈反响更是一度让传统卫视感受到了危机。

可以看到,整个视频生命周期的变化,是一个生产者逐渐变多、观看者越发积极、以及双方的交流互动越发充分的过程。

人工智能是一个非常广泛的领域。借助于计算机运算能力的提升和数据存储容量的增大,人工智能在几年前掀起了新的讨论及研究热潮。

我们听到的几乎所有跟“学习”有关的,如有无半监督、强化、机器、深度学习等,均是人工智能领域下的分支,而诸如CV、NLP、RS、OCR等诸多方向更是让AI小白眼花缭乱。

我们暂不讨论它们的关系如何,算法又是怎样。有时从应用场景的角度来看AI,往往能让AI多一点地气,少一点高深。

视频行业中可能会用到的AI技术,大致包含图像、声音、文本处理及大数据分析等几个方向:

在视频采集阶段:主体识别与跟随拍摄、AI防抖等功能均得益于图像识别及处理技术的发展。制作阶段:内容及语音识别促进了AI剪辑、智能字幕、实时翻译等应用的逐渐出现。分发播放阶段:内容识别等技术协助视频审核、分类与编目;基于用户、客户、视频等海量数据的分析更是促进了推荐系统的诞生。体验阶段:视频内容、主体识别等技术催生了如弹幕防挡、实时视频人物识别等一系列应用。人工智能下半场,AI势必会加速向各个行业的融入。视频行业的下半场,大概也是如此。而AI+视频,两个积累了数年沉淀的行业,很有可能会碰撞出新的火花。

所谓直拍,指的是男女团表演的时候单独只拍摄某一个人的全程表演。在青你和创3的女团选秀中,就需要十几乃至几十台摄像机同时对准艺人进行拍摄。

有消息称,创3的直拍方式是系统自动识别舞台上的艺人人脸,然后机器自动跟踪人体轨迹进行拍摄。这种拍摄方式在实际中使用的比例有多大,我们暂且未知,但这的确是一个AI辅助视频拍摄的绝佳应用场景。

通过人脸识别利用机器自动跟踪拍摄,从而解放大量摄影师的双手,极大地降低了人力成本。然而,同样有不少粉丝发现直拍有艺人跟丢的情况,若非摄影师开小差,那就是这项技术仍有不少的提升空间。

不少人在利用手机进行视频拍摄时都会遇到拍摄抖动的问题,而手抖可以说是手机拍摄视频时最常见的”敌人”。想要拍出高质量的视频,防抖是亟需解决的关键问题之一。

OPPO的视频防抖3.0,VIVO的微云台,魅族的全场景视频防抖,华为的EIS智能防抖,无不显示出各大手机厂商对于视频防抖的巨大关注。

视频防抖算法的背后,是大量的图像采集、分析及处理的过程,或许AI技术的发展为视频拍摄的防抖做出了巨大的贡献。

自动跟踪模式多年来一直是航拍无人机的标准功能:通过识别镜头画面中的主体,自动跟踪人物、车辆等进行拍摄。同时,通过摄像头、传感器等设备了解周围环境,进行拍摄过程中的自动避障。

无人机的跟随拍摄,集视频主体识别、跟踪拍摄和视频防抖等多种技术于一体,让无人机可以捕捉到如电影般的自动跟踪画面。

尽管这项功能相对比较常见,但是由于实际拍摄场景的复杂,跟踪拍摄的效果有时会不如人意。跟踪丢失、避障失败成了不少炸机党永远的痛。而未来AI等技术的发展,很有可能会促进这些问题的逐渐解决。

不知何时起,美颜彷佛成为了一个刚需。不论是各大短视频软件,抑或是广大视频直播平台,甚至疫情期间上线的各大视频会议软件,都上线了美颜功能。

美颜、瘦脸、贴纸、滤镜是图像识别及处理技术在视频领域常见的应用。至于未来的美颜会是怎样,当看惯了磨皮与瘦脸之后,或许自然又健康的美颜处理,会是另一个发展方向。

AI在识别图像内容与提供标签这些方面已经获得的成效,已经可以帮助用户以前所未有的速度与效率剪辑视频。

AI基于图像识别,可以从各个渠道搜索并提取切分出包含特定关键词内容的视频片段,汇总在一起,从而节省人来搜索和切分素材的时间。

目前的AI剪辑可以识别出视频画面中的对象,比如这段视频中有某个明星,那段视频里某几秒种有长城的镜头;可以将人物出现的时间线连接起来,自动生成人物集锦;可以识别经典的体育赛事瞬间,进行前期的素材整理工作。

在理解了视频内容之后,就可以利用AI学习剪辑规则去组接视频。在大型视频拍摄场景中,如何从几十台机位中找到最终剪辑需要的镜头,又该如何将这些镜头以合适的方式拼接起来,还需要未来AI技术的不断发展和探索应用。

字幕制作是视频编辑领域的另一大关键步骤,传统字幕制作耗时耗力,需要进行语音转文字、时间轴校对、甚至多语言场景下的翻译等一系列工作。

利用AI技术,可以实现自动语音转文本、文本的多语种翻译等工作。这项技术除了可以应用于离线视频之外,也可以运用于会议直播的实时字幕及翻译。

AI技术的发展,甚至一度危机到字幕组的生存。从技术原理上来讲,AI取代人工进行视频翻译,合情合理。而这种逻辑仅仅在理论上行得通,但在实际应用时还有诸多问题。

而在不少情况下,纯粹的机器翻译结果,往往漏洞百出,很多双关、暗示之类的内容无法翻译出来,而这或许将成为未来AI翻译发展的一个方向。

无论是优爱腾芒,抑或是抖快B站,乃至微信公众平台中,视频的审核是视频被观众看到前的最后一步。

目前大部分视频公司都是采取技术+人工的审核模式,技术的审核可以清除大部分明显违规的内容,而剩下的模糊内容则留给人工进行审核。

据网易易盾称,其内容安全服务智能识别精准率超过99.8%,能提供黄政暴恐广告等数十大类上千小类的有害内容智能识别过滤服务。

但AI帮助审核人员的,可不仅如此。一些视频中会出现一些超出大家想象的高清无码变态图,比如乱伦、变性、虐杀等。它们带来的视觉冲击力非常大,让人犹如身临其境,造成心理崩溃,甚至怀疑人生。

我们之所以能够根据自己不同兴趣的组合搜索到需要的视频,是因为有一群看不见的英雄每日浏览无数视频内容且对它们进行分类和标记,而AI的出现也大大减小TA们的工作量。

此前Pornhub曾宣布,其推出的新AI 模型可以利用计算机视觉技术检测和识别成人明星的名字,自动生成相应标签和分类。

阿里云也称,其可以利用AI技术进行视频自动分类打标、人物识别、语音和OCR识别等工作,自动生成源数据信息,进入媒资库,并结合NLP、分词、语义分析、词性过滤等场景,进入到后续的搜索和推荐的领域。

智能编目的方案组合,可以快速生成最基础的源数据,极大提升了创作和生产效率,节省了内容和人力成本。

推荐系统(RS)是AI领域的热门方向之一,视频领域的推荐主要包含视频推荐和广告推荐两大类。

为什么抖音那么容易上瘾?为什么百度从起初的只做搜索到如今的“搜索+信息流”双引擎?为什么各大视频、音乐、新闻应用中都有了一栏叫做“推荐”的区域?

所谓推荐,其实就是将合适的内容在合适的场景下以合适的方式送达到合适的人手中。视频推荐系统作为AI领域较为成熟的应用,如今已经为字节系等不少厂商带来了丰厚的收益。

可以预测,未来的推荐系统仍会继续发展。如何为用户推荐更加多样化、更加有价值的内容,避免用户走进信息茧房,可能是未来亟需解决的问题。

用户体验的好坏是一款产品能否成功的关键因素之一,视频领域更是如此。视频的用户体验,大致可以从三个方面来看:观看体验、交互体验和视频源质量。

特别是当视频网站全面开启弹幕模式之后,越来越多的网友可以边看剧边实时发表评论,剧透、点评、争论甚至聊天。甚至在直播中,也有大量的弹幕。

弹幕,成了一种文化现象。它形成了新的“抱团”观看模式,也真正实现了无时空距离的社交。

热闹归热闹,弹幕炸屏确实影响了不少用户的观看体验,堆满整个屏幕的弹幕着实让人是不知该看视频还是该看弹幕。

B站通过对视频画面中的主体进行识别,自动隐藏视频主体区域的弹幕,既不影响视频的观看体验,又保障广大网友之间互动的乐趣。

但据笔者体验,该项技术目前的识别准确度还有待提升,特别是在画面突然进行切换时会出现弹幕防挡失效的现象,期待未来B站及其他视频厂商在此方向上的的改进探索与发展。

弹幕文化的盛行,逐渐让视频平台看到了新的机会。弹幕不仅仅再是网友们用来交流的途径,更成了视频平台的一种营销及商业变现手段。

利用舆情监测系统识别弹幕中的关键词,捕捉广大用户的兴趣点,从而筛选出备受观众欢迎的弹幕词条内容并发送,可以达到非常好的营销效果。

除此之外,智能弹幕更是可以放出和视频场景高度相关的广告弹幕,帮助广告主创造出既符合用户体验、又打动消费者的营销体验。

2020年在爱奇艺上播出的电视《幸福触手可及》中,999感冒灵作为剧中弹幕上墙广告的首次合作客户,凭借着贴合年轻用户的弹幕语境和发弹幕赢百元现金的创新互动进入了大众视野,成功塑造起了在年轻用户圈层中的活力品牌形象。

弹幕,不仅仅是网友间交流互动的方式,更成了集舆论引导、商业变现为一体的新营销方式。弹幕文化做一种从年轻人中逐渐兴起的新兴文化,颇有成为新的“社交工具”的趋势。

未来的弹幕,是否会更加社交化?是否能营造出更多话题?又是否能更加促进商业变现?让我们拭目以待。

初看一部新剧,特别是美/英剧时,往往会记不住大多数人的脸;有时候觉得视频中某个角色很眼熟,但总是想不起TA演过什么角色;初看一个男女团选秀节目,一时间难以记住一大批艺人的信息;视频中出现的某一件衣服/某一款产品很想要,但却不知道该如何获取它们的购买链接……视频播放时,让用户通过点击、框选等各种操作获取视频画面中的特定内容,从而通过内容识别技术给出用户需要的附加信息,在一定程度上可以帮助这些问题的解决。

伴随着2020《青春有你2》的播出,爱奇艺上线的“奇观”应用为用户提供了一键解锁“她是谁”的互动新方式,用户通过奇观就能够边看边了解训练生的基本信息、相关作品。

我在上篇文章中说到,交互性很有可能会是未来信息传播形式的一个关键特点。通过播放页面上的交互操作,让用户可以不经应用的跳转,直接在视频播放界面上获取到其想了解的关键信息,从而极大提高信息传达获取的效率。

视频的采集制作分发播放,是一条较为完整的产业链,而AI更像是一个帮助解决问题的强有力工具。AI只是手段,并非目的,AI+视频的关键,在于如何发现、并利用AI去解决视频行业中的难题。

未来的AI+视频,会在提高视频生产制作效率、规避监管风险、解放人力、降低成本、提升用户视频体验等各个方面进行新的优化。

可以看到,当前的AI+视频仍有不少可以优化改进的地方。我们仅仅看到了AI在视频行业落地的冰山一角,它的背后,仍有不少关键地带等待我们去发掘和探险:

视频拍摄的防抖算法已经足够优秀了吗?无人机的跟随拍摄能做到决不跟丢吗?视频拍摄时能给出实时的取景和构图建议吗?AI剪辑能做出面向普适大众的消费级产品吗?视频编辑时可以自动联网搜索出匹配画面的声音库?视频审核、分类的准确率可以进一步提升吗?推荐系统能让用户走出信息茧房吗?弹幕可以少一些打扰,多一些科普及有意义的信息吗?交互式视频未来可以做的更加易用好用吗?种种问题,都在等待着未来的探索与解决。期待未来的AI与视频,能够双双携手,迈上新的台阶。