深度 | Netflix大屏交互设计分析系列(4):以工程手段构建素材库

麻袋| 流媒体网| 2019-10-28

　　【流媒体网】消息：在上一篇中我们提到：面对海量内容库缺乏有效的、高质量的图片素材将成为制约“面向内容”的交互设计的核心关键。(系列文章阅读：《深度 | Netflix大屏交互设计分析系列(1)：基本原则与设计思路》《深度 | Netflix大屏交互设计分析系列(2)：遥控器与焦点移动》《深度 | Netflix大屏交互设计分析系列(3)：面向内容的交互设计》《深度 | Netflix大屏交互设计分析系列(5):构建个性化页面》《Netflix大屏交互设计分析系列(6):数据、海报与A/B测试》)

　　Netflix所采用的策略是直接从视频源文件中提取静态帧作为海报的原始素材。

　　Netflix始终认为图片海报在用户寻找和观看节目的过程中起到了极其重要的作用，通过图片海报中的元素将用户、内容以及不同的角色联系在一起的独特方式，让对其产生的效果倍感骄傲。

　　随着内容库的不断扩充，最初的“增强内容团队”也已经发展为“内容平台工程及全球产品创意团队”，并试图使用工程技术的思路找到一种新的方法，将不断增长的创意素材生产需求从繁琐的、重复性高的流程性工作中解放出来。

　　感谢近年来人工智能及图像识别技术的高速发展，使得Netflix得以将这一项“科学与艺术结合”的工作采用工程化的手段规模实施。

　　本篇文章将会侧重于在Netflix从视频源文件中选择原始素材时所考虑的相关因素，部分内容将会涉及一些技术名词，如有不适请自行跳过。

　　1 海报：每张海报只有1.8秒来吸引用户

　　2014年初Netflix进行的消费者研究表明：海报不仅是用户决定观看内容的最大影响因素，同时也占据用户在业务浏览过程中82%的注意力，每个用户平均会花费1.8秒思考每个海报所表达的内容主题。

　　研究结果着实令人惊讶：海报对用户寻找好内容有着如此巨大的影响力，但却必须在极短的时间内引发用户兴趣。

　　在过去的几年中，Netflix一直在努力研究如何成功的将技术与创意相结合的方式，在拥有良好交互体验的前提下，帮助用户快速找到他们想看的内容。

　　事实证明，图像可以有效的触动用户并帮助他们更快的找到自己喜欢的故事。

　　在Netflix内部采用“衍生海报”来描述从视频源文件中获取的、能用于表达内容主题的视频静态帧。单集时长为1小时的《Stranger Things》中约包含86,000个视频静态帧，但并不是所有的静态帧都能被称为“衍生海报”。

　　按照传统做法，“衍生海报”会由那些具备专业知识并对主题内容有着深刻理解的资深策划或编辑来选择。但Netflix作为一家高科技公司肯定不会选择这么“笨”的方法来完成这项工作，不然这篇文章就没法继续编下去了……

　　通过Netflix最喜欢也是最擅长的A/B测试发现：尽可能多展现不同类型的主题表达方式，而不是仅局限于有限资深人士的选择，能够有效地提高各类观众的观看次数。

　　对内容标题的选择成为一种“关键性艺术”时，Netflix更倾向于经过大量的测试为合适的观众找到适合他们的海报。

　　虽然这种创新具有极大的挑战性，可一旦将能够应用到Netflix快速增长的海量内容库的每一个内容中，这样的想法令Netflix的工程技术团队兴奋不已。

　　2 AVA：计算机视觉深度学习工具集

　　按照平均每个电视剧每季(约10集)约包含近900万帧静态图像，海报创意编辑需要从中筛选出多个可能会吸引观众注意力的图片，这是一项既枯燥也无效的工作。

　　Netflix经过多年的尝试最终提供了一套被称为“AVA“的工具和算法集合，能够有效的从视频源文件中提取出能表达内容主题的、可用于衍生海报制作的、高质量静态图像。

　　通过确定可测量的客观指标对视频中的每一帧进行标注，即采用被称为“帧注释(Frame Annotations)”的方法从视频源文件中获取一系列对于各帧图像的有效表示，形成该节目静态帧图像的一个完整集合。

　　随后，采用预先编制的排序算法，综合考虑美学、创造力以及在不同界面下内容所需要呈现的不同风格等因素，最终完成对静态帧子集进行排序。

　　3 帧注释(Frame Annotations)：如何客观的描述图像

　　作为整个自动化流程的一部分，需要对每个静态帧通过注释多个不同变量进行标识，以便能更好的描述该帧所包含的内容以及对整个节目的重要性。

　　在内容库不断增长的情况下，Netflix使用自有媒体云Archer框架(本文最后会简要介绍该框架)来实现服务能力的平行扩展和服务质量的可控性。

　　Archer框架可以将视频分成多小块并行处理以提高处理效率，这使得AVA工具集能够集成更多的内容智能算法。

　　基于Archer提供的一系列计算机视觉算法，可以从视频源文件的每一帧中采集客观的元数据、主题表达方式以及某些上下文元数据信息。用于标识视频帧属性的注释大致可以分为以下3类：

　　视觉元数据

　　通常情况下是指亮度、色度、对比度以及运动模糊等客观的、可测量的像素级指标。

　　上下文元数据

　　由演员的移动动作、物体及摄像机拍摄角度等获得的信息所组成的元素组合，包括：

　　面部检测：通过面部特征跟踪、姿势预测和情感分析来评估视频帧中人物的姿势及感情;

　　运动估计：通过估计特定镜头中包含的运动量(摄像机运动或影像主体运动)来识别画面中的运动模糊以及镜头的远近运动;

　　摄像镜头识别：通过识别不同的镜头特征(近景或移动镜头)洞悉摄影师的拍摄意图，进而能够快速识别画面所要表达的氛围、情绪以及流派;

　　对象检测：用于区分视频帧中的道具及移动对象;

　　根据行为认知学的研究表明：无论是面对真人或者图片/视频中的面部影像，我们都会不自觉的对所看到的面部表情进行强制回应。

　　因此，“衍生海报”会更倾向于选择能清晰展现角色面部表情的图像帧，特别是那些包含复杂情绪的面部表情，这种标清远比单一表达愤怒或坚韧的表情更能激发用户的观看兴趣。

　　图：面部特征跟踪、姿势预测：检测角色是否具有能令人影响深刻的面部表情

　　通过光学流动分析预测摄像机的移动来衡量拍摄类型(缩小和平移镜头)

　　合成元数据

　　指根据图像摄影、电影摄影以及视觉美学设计中的一些核心原则定义并识别的一组特征信息，例如三分法、景深和对称性等：

　　4 图像排名(Image Ranking)：如何筛选“最佳海报”

　　在完成帧注释后，下一步工作是从艺术处理的角度，依据多个维度的自动分析选出“最佳”候选图像集，以便内容创意团队根据自动推荐选出合适的、高质量的图片进行运营创作。

　　演员在衍生海报的创作中起着非常重要的作用。采用面部采集和演员识别组合的方法可以对单集中的主要角色、次要角色或其他角色等进行优先级排序，以确定给定视频片段与情节紧密相关的关键角色。

　　为了实现这一目标，Netflix训练了一个深度学习模型在所有已完成帧注释的合格候选帧中进行演员面部相似性采集，还包括指定角色的形体姿势、面部特征、在图像中的位置等的信息，以保证在不了解演员阵容的情况下，对给定内容的主要演员进行排序。

　　示例：演员集合、帧排名以及最佳选择建议

　　示例：由于面部表情、姿势以及运动模糊等因素导致排名较低的次优选择

　　图像帧创意和视觉的差异性是主观性非常高的指标。观众可以通过多种不同的方式来感知和定义图像的差异。

　　图像差异性更多依赖于算法能捕捉到内容中自然发生的关键性差异变化。在此过程中，设计师和创意人员需要一套可扩展的机制来快速了解并区分哪些视觉元素最能表达主题，而哪些则不是很恰当。

　　AVA工具中已经整合的可用于识别差异化图集的关键视觉变量包括：摄影机镜头类型(远景/中景/近景)、视觉相似度(三分之二法则/亮度/对比度)、颜色(最突出的颜色)、显著性图(用于主体周围的空间及其复杂度)。

　　通过这些关键视觉变量的组合，采用自定义向量的方式对图像帧进行有效地聚类，最终实现图像差异性识别。此外，还可以通过合并多个向量来构建一个“差异性指数”，对给定的情节或影片中所有的候选图像进行评分。

　　示例：AVA镜头检测捕捉到的中景(左)、近景(中)、特写(右)

　　满足监管要求进行影片分级过滤，减少用户反感元素。出于内容敏感性和受众成熟度的原因，还需要确保能够排除那些包含有害或令人反感元素的图像帧。

　　性/裸露、文字、Logo/未经授权的品牌、暴力/犯罪等作为主要标准，标题类型、内容格式、受众成熟度等也作为次要标准被合并成向量，以保证在对图像帧进行量化时，包含有这些元素的图像帧的优先级较低。

　　示例：根据血迹、皮肤裸露等因素调低图像排名

　　5 Archer + AVA在国内：有技术却不一定有需求

　　如之前所描述的，AVA工具集运行于Netflix的Archer分布式视频处理云平台上，该平台是一个易于使用的MapReduce风格的平台，目标是简化大规模的视频处理。Archer平台提供的功能包括：文字检测与识别、人脸检测、像素坏点检测、使用机器学习来标记音频、自动的字幕质量控制等。

　　虽然运行于Archer之上的AVA工具集已基本完成了海报图片的选取，但实际上衍生海报的制作还需要根据内容所表达的主题、界面风格等进行色彩、对比度等的调整，更需要加上采用合适字体的标题、Logo等才能最终成为一件“艺术品”。

　　从功能的角度来看，目前国内大部分视频云服务商都具备实现Archer + AVA的人脸识别、文字识别等功能的技术能力，但根据内容主题风格自动实现文字嵌入、图片风格自动调整等能力仍需叠加，才能最终实现完整的内容素材编辑库。

　　对于IPTV/OTT业务运营公司来说，即便希望能够学习Netflix采用面向内容的交互设计，也会因为缺乏工程化、自动化构建内容素材库的能力而很难在短期内实现完全转变。

　　特别是在IPTV这样封闭的业务体系中，业务收入的增长到底是由运营带来的?还是运营商捆绑销售带来的?在运营商这样不以“业务运营”见长的体系内很找到答案。

　　对于牌照方来说，除非是较为市场化、以运营为导向的企业，否则能够轻松赚钱的时候，谁会愿意花钱画精力把内容素材库全部更新一遍呢?

　　但是换一个角度来思考问题：这会不会是视频云服务商提升服务黏着力的一种方法?

　　单纯售卖编解码硬件或云编码服务能力的方式在H.265 + 4K的发展还有一定市场，但随着编码技术的逐步成熟，也会面临因恶性竞争而导致利润下滑的局面。

　　但如果能够将转码器相关的技术资源转变为运营资源，通过合作形成“视频云服务商提供内容素材库，运营公司提供EPG及运营能力” 的方式。在运营商及牌照方尚无明确意愿的情况下，这也未尝不是一种合作共赢的选择。本系列的前4篇文章所讨论的界面交互设计的原则、交互框架设计以及海报素材可以算作是完成了材料的准备，下一篇将讨论如何采用个性化推荐算法向用户呈现，这也是Netflix最著名、最具特色的能力。

　　温馨提示：本文为系列文章第四篇，敬请期待第五篇《Netflix大屏交互设计分析系列(5)：构建个性化页面》。

　　2019年10月30-31日，“聚视而上、向智而生”珠海论道暨第18届中国IPTV/OTT智能视听产业高峰论坛将在长隆横琴湾酒店举行，主题全新升级，九大论坛在涵盖广电、通信、互联网的基础上，将进一步聚焦5G、4K、资本等热点话题，并广邀业界嘉宾，分享洞察与建策......欢迎关注和参与!

　　了解珠海论道详情及报名请点击：http://s.lmtw.com/201910iptv/

责任编辑：王楠

分享到：