Netflix大屏交互设计分析系列(6):数据、海报与A/B测试

麻袋| 流媒体网| 2019-10-29

　　【流媒体网】消息：“一切都是推荐(Everything is a Recommendation)”。Netflix一直致力于及时的向用户推荐最符合他们口味的影片，用户观看的内容80%来自于系统推荐。

　　个性化首页只解决了将用户可能感兴趣的内容快速、准确呈现的问题，但影片推荐的工作却不单单止步于此。为什么用户会关注某部推荐的影片?如何能让用户对一个陌生、全新的影片名感兴趣?如何说服用户觉得某部影片值得去看?虽然我们总希望在有限的展示界面中堆叠更多的内容，但不幸的是用户在每个推荐上仅会花费1.8秒来决定是否观看。

　　因此，内容分类的准确性、海报是否足够吸引人将成为个性化推荐的关键性因素。

　　本系列最后一篇将讨论Netflix在数据标签、个性化海报等在引发用户兴趣中所起到的关键作用，并最终会简单介绍本系列文章中一直提到的：Netflix到底是如何实施A/B测试的。

　　数据多样性：个性化推荐的基础

　　Netflix实现个性化推荐的基础数据来自于与影片主题关联的衍生海报素材、多维度的用户行为数据、标签化的节目元数据等三个方面：

　　每天以百万量级增长的用户评分数据;作为算法基准线的项目热度;包含时长、时间、设备类型的播放数据;用户每天在“我的列表”中添加的节目;丰富的节目元数据;节目展示位置及访问效果;用户社交数据;用户搜索数据;外部的票房或影评数据。

　　其中，我们最熟悉的关于“标签化内容元数据”的故事是：Netflix采用精确却十分有意思的标题来描述不同的分类。例如，情感充沛的反体制纪录片(Emotional Fight-the-System Documentaries)、基于事实的皇室掠影(Period Pieces About Royalty Based on Real Life)、80年代的外国邪恶电影(Foreign Satanic Stories from the 1980s)。

　　这一切都依赖Netflix在2012年提出的“Netflix量子论(Netflix Quantum Theory)”来实现“设置标签的人类智慧与有着运算法则的机器智能结合”。

　　“Netflix量子论”针对影片结局、主角的人气以及构成一部电影的其他各个方面，详细说明了如何设置多种可量化标签的方法，涉及内容的每个情节、主角的工作以及各种场景，巨细靡遗，无所不包。例如，每部电影除了在个性化分类中加上“爱情片”类型外，还会根据解决从喜到悲逐级评估浪漫评级(5级)。

　　为此，Netflix成立了独立的团队雇佣了大量的人手阅读这份长达36页的培训文档，然后训练他们如何对影片的性暗示内容、暴力程度、浪漫桥段、甚至情节等等元素做出精确地评级、细分并进行标记，让推荐系统能够认识和理解这些节目内容。

　　曾经有位国外博主做了件很绝的事情：把Netflix的所有分类全爬了下来，发现一共有76897个之多。通过对分类用词和语法的深入分析，还开发自己的“类型生成器”生成了与Netflix类似的结果。他甚至给出了公式“地区+形容词+类型+故事基础+拍摄地+时代+关于(什么的内容)+适合年龄段”。

　　基础标签数据不仅能用于创立分类，也能提高向用户展示所有影片时的个性化水平。Netflix副总裁托德•耶林(Todd Yellin，Netflix量子论缔造者)认为这是“机器学习、算法规则和一群热爱这些的极客们的真正融合”。

　　如果纯粹使用计算方式，将注意力集中在拥有相似观影习惯的用户身上，基于他们的观看历史推荐影片，将会忽视内容本身可能提供给用户的、更加个性化的选择。

　　在2012年Netflix就在其官方博客中提到，“了解用户喜欢的‘微类型(Alt-Genre)’就能用高收视类型替换低收视的部分，以赢得竞争力。”

　　Netflix通过设置数万种不同的电影属性标签(甚至包括对人物的道德评级)，创造了与其千万级用户的观影习惯相匹配的“微类型(Alt-Genre)”，最终造就了Netflix的核心竞争优势。

　　个性化海报：快速吸引用户注意力

　　虽然Netflix拥有数万种“微类型”并能够使用更加复杂的语法来描述这些微类型，但实际受限于UI设计以及让用户快速选择的目的，一般仅会选取3个标签来组成具备语法意义的“微类型”标题。

　　当文字方式无法充分表达分类及影片想要传递的主题时，海报将成为帮助用户发现优秀影视作品的另一个突破点，尤其是对于那些并不为人所熟知的或一些新的作品。

　　海报是用来表达作品“为什么适合你”的视觉证据，这些海报可能会突出用户认识的某个演员、令人激动的汽车追逐场面，又或者是能传达作品精髓的某个戏剧性场景。Netflix拥有超过1亿种不同的海报，为每个用户提供个性化的视觉效果。

　　本系列的第4篇《以工程手段创建素材库》介绍了Netflix为节目寻找最合适海报的方法，考虑到用户品味和喜好的多样性、不同配图包含着剧情发展中的不同主题，这些信息无法通过任何单独一张图片去呈现。

　　一张影片配图的有效性也可能取决于其他对影片的介绍(比如故事梗概、预告片等)，每部影片的海报之间也需要有足够大的差异去吸引有着不同喜好兴趣的潜在观众。归根结底，一张配图的有效性和信息量其实取决于看到的不同的人。

　　以《心灵捕手(Good Will Hunting)》为例，根据用户对电影主题和种类的喜好去选择图片去描绘这部影片。向一个看过很多爱情片的人展示包含马特•达蒙(Matt Damon)和明妮•德里弗(Minnie Driver)在一起的剧照，也许会让他对《心灵捕手》感兴趣。而向一个看过很多喜剧片的人展示包含罗宾•威廉姆斯(Robin Williams，著名喜剧演员)的剧照也许会让他想去看看这部电影。

　　《心灵捕手》：根据用户品味喜好结合演员特点生成的推荐海报

　　再以《低俗小说(Pulp Fiction)》为例，一位看了很多乌玛•瑟曼(Uma Thurman)主演的电影的用户，看到《低俗小说》推荐海报上乌玛的剧照后很可能会选择点开观看;同理，约翰•特拉沃尔塔(John Travolta)的粉丝则可能会被约翰的剧照所吸引。

　　《低俗小说》：根据用户经常观看的演员生成的推荐海报

　　从实际效果来说，个性化配图使每部影片在不同用户前呈现出最好的第一印象，确实有效提升了用户的使用体验。但在海报选择过程中依然会遇到一些难题：

　　同一页或同一板块所展示的不同影片配图之间会相互产生怎样的影响?针对单个影片采用主角英勇的特写镜头作为影片海报非常合适，但如果所有的电影都采用这种类型的海报，那么整个页面可能就会变得不那么吸引人了。

　　所以孤立的去挑选海报还远远不够，在页面级的海报选择上，不仅需要突出同一电影中的不同主题，还需要突出不同的审美，以保证同一次展现在一个页面上的海报变得多种多样。

　　技术上进大规模个性化海报对计算性能的极大挑战。对每个节目进行个性化海报，服务器要处理峰值每秒超两千万的低延时请求。这样的系统一定要是稳定的：不能快速完整地显示出这些配图会很大程度上降低用户体验。

　　个性化推荐算法需要根据不同的变化快速响应。比如，不但需要在新片上映时快速响应，也需要因为配图的效果可能随影片的生命周期和观众口味的变化而不断变化。为了保证推荐的有效性，Netflix在个性化海报中使用的线上机器学习框架是“上下文老虎机(Contextual Bandits)”：通过在一个变化的情况下不断将所学模型应用于每个用户情景的好处来平衡“收集足够的数据去学习一个无偏模型”的代价。

　　但是，“一枚硬币总有正反面”。虽然个性化海报推荐确实为Netflix吸引了用户流量，也对用户对影片的选择起到了非常大的作用，但也很容易引起争议。

　　Netflix曾因涉嫌种族歧视而被用户指责：一些黑人用户声称，Netflix会给他们在首页上推荐与其种族相同的次要角色，以“诱骗”他们观看节目。比如他们看到《虎父无犬女》这部电影的海报竟然是两个非洲裔的配角演员，而不是戏份更多的两位白人影星。

　　因此，Netflix也特别说明了对个性化海报的担忧：应该尽量控制其使用程度，否则就会变成“骗”用户看电影的“标题党”。

　　A/B测试：一切变化的见证者

　　Netflix认为的每一项产品更改都必须经过严格的A/B测试过程。如果不进行广泛测试，就无法确定这些更改是否会受到用户青睐，只有那些被测试确认为“赢家”的更改才会最终被接收并规模应用。

　　通过采用测试的方法，Netflix能够确保产品的变更不是由那些“最有主见、最坚持自己观点”的员工来驱动的，而是由实际数据驱动，进而确保用户能够自我引导朝着自己最喜欢体验的方向发展，而不是那些“我不管，我就要”的员工们。

　　以个性化海报推荐为例，测试发现同一内容在使用不同海报的时，其观看次数甚至会产生20%-30%的差异。

　　下图就是Netflix采用A/B测试的方法来确定哪些海报能够最大程度的引起用户的观看兴趣，并最终确定一个候选图像的流程。

　　其中最重要的部分就是A/B测试服务器，在测试过程中服务器检测到用户已被分配到某个测试组合，并实时的对用户进行测试。

　　在某项测试完成后，服务器将进一步根据上下文判断是否需要将用户进一步分配给其他关联的测试，直至完成所有测试组合。下图给出了测试服务器的实现方案：

　　在以上架构中，通过系统能力的弹性缩放Netflix可以轻松处理平台上关于UI、推荐、播放、搜索等方面业务所产生的各类流量(15-45万个请求/秒)。从系统响应情况来看，测试集没有在缓存时，加载时间需要8ms;如果已经在缓存中，则会在小于1ms的时间内完成加载。实时评估过程则需要更长的一些时间，平均在50ms左右。

　　随着Netflix在全球更多的国家/地区开展业务，Netflix在不断对A/B测试系统架构不断进行优化的情况下，仍在新的领域不断创新以缩短A/B测试的时间。特别是当个性化推荐已经从用户首页排布进一步细化为实时海报推荐时，面向大用户量的在线实时推荐将成为一项极其艰巨的任务。

　　至此，全系列结束。

　　本来还想多写点感受，但实在是自己也觉得麻烦和啰嗦……

　　虽然Netflix的UI交互设计在国内实现的可能性很小，但其“以内容为中心”的理念确实值得思考：面对越来越多的内容，是以运营人员的个人喜好为中心，为了运营而运营?还是开始做减法，从对内容、专题、推荐位的迷恋逐步转向有效推荐和对用户有价值的事情上?

　　放下“内容运营”的负担，把注意力逐步转向“用户经营”，让机器去烦恼用户该看什么吧。

　　阅读第一篇请猛戳：《Netflix大屏交互设计分析系列(1):基本原则与设计思路》，阅读第二篇请猛戳：《Netflix大屏交互设计分析系列(2)：遥控器与焦点移动》，阅读第三篇请猛戳：《Netflix大屏交互设计分析系列(3):面向内容的交互设计》，阅读第四篇请猛戳：《深度 | Netflix大屏交互设计分析系列(4):以工程手段构建素材库》,阅读第五篇请猛戳：《深度 | Netflix大屏交互设计分析系列(5):构建个性化页面》。

　　本文转载需获得授权，暂不对微信公众号开放当日转载权限!更多精彩内容，请继续关注今日流媒体和流媒体网公众号。

　　2019年10月30-31日，“聚视而上、向智而生”珠海论道暨第18届中国IPTV/OTT智能视听产业高峰论坛将在长隆横琴湾酒店举行，主题全新升级，九大论坛在涵盖广电、通信、互联网的基础上，将进一步聚焦5G、4K、资本等热点话题，并广邀业界嘉宾，分享洞察与建策......欢迎关注和参与!

　　了解珠海论道详情及报名请点击：http://s.lmtw.com/201910iptv/

责任编辑：王楠

分享到：