NLP to AutoCut(自然语言处理赋能自动剪辑)
- 坂本ユウスケ
- 2022年8月23日
- 讀畢需時 5 分鐘
自动剪辑的现状
当前自动剪辑的流程还是比较原始和简单。
当前路径为:
用户选取视频文件。
根据用户选取的视频文件,抽帧渲染缩略图,并进行图像分析与识别,将识别结果(如运动),与音乐库中的歌单的歌曲label进行比对,若有相同的信息,则选取该歌单中匹配的音乐。若无任何相同的信息,则返回分析失败。
选择音乐后,根据音乐的踩点,配置视频的起终点和视频时间,鼓点波形图和频响图来自供应商的API。
分析用户所选视频的Highlight,并根据上一步的时间空隙,进行视频和音乐的裁剪。
最终得出结果,用户可以预览,也可以返回进行编辑,或者添加滤镜片头片尾等等。

从流程中我们可以发现,我们所进行自动剪辑判断的依据,仅有用户选取视频文件中的少数几张抽帧。在进行下一步的中间,也很吃歌单的label和抽帧识别结果的比对。虽然label和图像识别结果都可以透过模糊化和场景化以提高比对成功率。但是模糊化和场景化意味着,输出的范式总是趋于相像。只能是自动剪辑而不是定制剪辑,或者说是模板剪辑的弱化版。
而落到实际使用层面上,问题恐怕比想象中的要更大一些。

一个非常简单的相册排布,实际上是给自动剪辑添加了大麻烦,产出的内容与用户的期待甚至从开始就是南辕北辙的。非常有意思的是,这里的南辕北辙不仅仅是形容词,而且确实指的是事实上的完全相反。用户进行拍摄的时候,肯定是遵循时间顺序的;而剪辑软件中的相册,为了用户寻找和导入视频的方便,素材是时间倒序的。不可否认的是,确实有部分用户会在倒序的相册中,精准识别出自己想要的素材,并按照时间顺序进行选择;但更为现实的是,大部分用户都是一边预览或根据缩略图来判断这个素材是否需要,并按照时间倒序一路点过去。根据图像进行识别,我们无所知晓用户的顺序,我们只能默认根据用户选择的顺序进行排列,这就有可能背离了用户的期待。若是有补拍的素材,那更是乱成了一锅粥。
抽帧针对图像进行识别,只能大致识别用户所在的场景。比如图像中识别出来是海边,那只能是匹配大海的场景。但是理想中的自动剪辑不能只是针对场景识别。
人的感情是一件相当复杂的事情,视频说到底也是用来自我表达的载体。要真正的做到剪辑随心,则不能仅通过图像进行分析。因为图像是完全中性的,且不同的用户所拍摄的图像有可能抽帧的结果大致相同,但所表达的意味完全不同。比如同样是输入海边散步的视频,有些人表达的意味是和同事一起出门游玩非常开心;有些人是工作繁忙出门散心;有些人是事不顺心海边买醉。若以当前的自动剪辑设定,这么多人将得出的是同一个结果。而情绪之于视频,则有更多的表现可以映射。比如视频背景音乐的选择,视频的播放速度,视频蒙太奇的剪接节奏,滤镜和色调。
什么是NLP
NLP,全称是Natural Language Process,译作自然语言处理。自然语言通常是指一种自然地随文化演化的语言。汉语、英语、日语为自然语言的例子,以相对于如编程语言等为计算机而设的“人造”语言。而透过自然语言处理,我们可以做到包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取等功能。

NLP在新闻行业中的舆情分析可谓是必备要素。 大量的信息,如微博或是微信的朋友圈,透过NLP的情感分析接口,可以获取出情感正性或是负性,可以分性别、地域、年龄、职业进行多维度的筛选与分析。
除去行业中的舆情分析,NLP运用的更多的地方,是我们每个人手机上的语音助手。语音助手的对话功能基本上就是STT、NLP、TTS的结合。其中STT和TTS都是比较好解决的。而各家语音助手智能与否,除了最基础的STT转化率,就是NLP的理解。语音助手要能够提取出语句的关键词,再根据关键词进行功能的触发和自动运作。
NLP怎么改进自动剪辑
在提出NLP如何改进自动剪辑之前,我得先说一下,怎么获取NLP所需的信息。透过观察,用户创建一个自动剪辑的工程,导入视频,导出剪辑好的视频后,基本上是期待共享给他人的。否则没有任何必要在手机上使用进行剪辑工作。无论是发送给私人,抑或是发送到视频网站、社群媒体,搭配文字都是必不可少的。
更重要的是,与其对于视频具体剪辑的思考。用户明显对视频的模糊预期,或是视频剪辑后的文字更有想法。有些视频是先有的文字再剪辑的视频,甚至有些视频只是几张照片的组合,用户把短视频当作朋友圈九图的进阶版,重点甚至都不是视频,而是文字。与其遵循行业现状的,剪辑视频,分析图像,模版剪辑再附加文字分享。应该是先文字后视频的输入,更符合用户的思维和习惯。
那话说回来了,有了文字,我们能做啥?这就涉及到NLP和自动剪辑的结合了。NLP可以抽出语句中的名词和分析语句的情感。这将给我们的自动剪辑提供更多的信息和变量可以进行精细化的定位标签。

根据语句中的名词,理想的状态下,我们可以根据用户文字对视频顺序进行重构。比如用户拍摄的顺序是猫、天空、海洋,导入的顺序当然是随机的,但是根据用户文字的表述,搭配我们的图像的抽帧辨识,我们可以重构剪辑片段的顺序以符合用户期待。

而分析语句的情感更是给我们更多的选择,在相同的素材的情况下。不同语句的情感可以定位不同的音乐。
通过对正性和负性的量表,我们可以给正性感情的用户,配上轻松愉悦的音乐与相对短且轻快的剪辑风格。
而给予负性感情的用户,搭配忧郁舒缓的音乐与相对长且悠然的剪辑风格,甚至是复古怀旧的滤镜。
除此之外,我们也可以对文字中的关键语句或关键词进行匹配等等,如“出去玩”与旅行标签,“记录成长”与亲子标签等等,“一起”与聚会派对等。最后根据分析视频和文字,进行加权判定,进行音乐的选择和后续剪辑。且可以设置评分机制,让用户对匹配结果评分,根据用户的使用进行算法的不断迭代和优化。
既然文字和视频都完备了,一键分享便更为触手可得。无论是给本应用引流,抑或是转发至第三方平台,文字与视频一并处理可以节省用户的时间。
Comments