相关新闻:Netflix的个性化体验简史(上)
译者/TeresaChen
2007年:网飞公司Netflix推出流媒体服务
网飞公司Netflix于2007年推出流媒体服务。这是DVD邮寄服务的免费附件。2010年在加拿大推出了首个纯流媒体服务。
在2007年1月,网飞公司Netflix推出了流媒体服务。公司团队第一次掌握了用户观看的电影的实时数据,以前他们仅仅掌握了DVD租赁活动的数据。时间告诉网飞公司Netflix,在预测会员的电影偏好方面,这种隐性数据比通过其五星评级系统收集的显性数据更重要。
在2007年推出流媒体服务时,网飞公司Netflix有近10万张DVD可供选择,因此DVD销售方面的挑战在于帮助会员从其庞大的DVD库中找到“隐藏的珍宝”。然而在使用流媒体服务之后,公司所面临的挑战变成了帮助会员从300部相当平庸的电影中,找出他们认为值得看的几部。
2007年: Netflix奖
Netflix奖向任何能够将Netflix的协同过滤算法的预测能力提高10%的团队提供100万美元,预测能力以RMSE(每部电影的预期评分和实际评分之间的差值)来衡量。两年后,“Bellkor’s Pragmatic Chaos”打败了其他的5000个团队,赢得了比赛。
这次比赛带给我们两点启示:
•并非所有的收视率都是平等的。参赛选手们发现,评分人员为近期电影提供的评分,比以往的评分更具有预测能力。
•算法越多越好。每年年底,网飞公司Netflix都会向优秀团队支付5万美元的进步奖。在这一年的最后一天,第二名和第三名的团队将他们的算法结合起来,跃升至排行榜首位并且获得了年度进步奖。由此,团队认识到了结合多种算法的重要性。这也是团队名称如此奇怪的原因——在团队合作的时候,他们构思出了“mashup”这个名字。
两年后,顶级团队的RMSE增加了10.06%,赢得了百万美元的奖金。“BellKor’s Pragmatic Chaos”比第二名“the Ensemble”提前24分钟提交了获胜算法。两队得分相同,但是“BellKor”先提交了他们的作品。以下是最终的排行榜:
2009年Netflix奖的排行榜结束时。第四名是“Opera
Solutions and Vandelay United”,这是三个团队共同提交的结果,其中包括一个来自《宋飞正传》(Seinfeld)的内部笑话。
2009年:Netflix的下一个大奖
网飞公司Netflix宣布第一次竞赛的获胜者的同时,公司启动了第二轮竞赛。这项新的挑战是利用人口统计数据和租赁行为来做出更好的预测。算法可以将用户的年龄、性别、邮政编码和完整的租赁历史计算在内。
网飞公司Netflix公布匿名用户信息开始第二轮调查之后,联邦贸易委员会(FTC)介入了这场诉讼,声称这些数据没有充分匿名化。2010年3月,作为该诉讼和解协议的一部分,Netflix取消了第二轮竞赛。
2010年:测试新的“Netflix奖”算法
网飞公司Netflix推出了网飞大奖竞赛从而可以为会员提供更多的电影选择。该团队希望这一举措能够提高用户留存率。但是网飞公司Netflix大规模的在A/B测试中测试新算法的时候,并没有发现可测量的留存差异。这个结果很令人失望。
一个新的假设出现了。为了提高用户留存率,你需要更好的算法和呈现层策略,来解释为什么网飞公司Netflix会为每个用户选择特定的标题,如下所示:
•更好的算法+ UI/设计支持/背景=提高留存率。
举办这场比赛值100万美元吗?当然。单是招募的好处就足以证明这场比赛是值得的。在获得Netflix奖之前,工程师们认为网飞公司Netflix只是另一家电子商务公司而已。而在获奖后,他们认为网飞公司Netflix是一家创新性很强的公司。
2010年:受欢迎程度很重要
网飞公司Netflix公布了它从Netflix奖中获得的所有信息,其他公司也在研究相关结果。音乐流媒体服务公司潘多拉(Pandora)的个性化措施集中在“音乐基因组计划”(music Genome Project)上,该公司对算法是否受欢迎持谨慎态度。相反,潘多拉公司有40个“音乐学家”,他们给每首歌贴上数百个属性,来解释为什么听众会喜欢这首歌。例如,音乐学家将杰克·约翰逊(Jack Johnson)的歌曲贴上了“乐观、民谣、带有冲浪、户外冒险和成长主题的原声音乐”的标签。
但是,潘多拉公司一边评估Netflix奖的结果(它对受欢迎程度的权重很高),另一边他们也开始执行协作过滤算法。这些变化改善了潘多拉公司的收听指标。潘多拉公司的结论是:受欢迎程度很重要。
2011年:网飞公司Netflix的电影基因组计划
在赞赏潘多拉公司的成果并且知道算法越多越好的同时,网飞公司Netflix开始开发自己的“电影基因组”项目。他们聘请了30名“电影生态学家”,来给电影和电视节目的各种属性贴上标签。
需要提醒的是,网飞公司Netflix的协同过滤算法会预测你会喜欢一部电影,但算法不能提供你为什么会喜欢这部电影。Cinematch的协同过滤算法会测算出这样的结果:“因为你喜欢蝙蝠侠和绝命毒师,我们认为你也会喜欢芝麻街。”嗯?这是什么逻辑?
网飞公司Netflix的新电影基因组算法叫做“类别兴趣”(Category Interest)。现在,网飞公司Netflix第一次可以推荐一部电影,并给出用户可能喜欢这部电影的原因。比如,网飞公司Netflix知道我喜欢《飞机》(Airplane)和《希德姐妹帮》(Heathers),所以推荐我看《春天不是读书天》(Ferris Bueller’s Day Off)和《早餐俱乐部》(The Breakfast Club),因为我喜欢“20世纪80年代的荒诞喜剧”。
“类别兴趣”算法的早期执行,大约是在2011年。
“类别兴趣”算法改进了Netflix的观看指标——每月观看至少40小时的会员的百分比——但该团队并没有执行A/B测试,来检验它是否提高了留存率。
2011年:个性化算法如何运作
简单地说,网飞公司Netflix为每个用户都创建了一个电影排名列表——从最可能喜爱的内容开始,然后根据电影、电视节目的属性和用户的偏好,对这个列表进行过滤、切片和分割。例如,一个过滤器梳理出电影的子列表,并将其按“有强大女英雄的古怪戏剧”或“诙谐、无礼的电视节目”一列呈现出来。其他的标题可能包括“因为你看了《怪奇物语》(Stranger Things),我们认为你会喜欢……”或“给你的十大最佳”。
网飞公司Netflix的个性化方法有三个组成部分:
1.每个用户头衔的强制等级列表。
2.了解与每个会员最相关的过滤器,这样算法就可以从上面的列表中呈现电影和电视节目的子集。
3.能够理解每个会员最相关的行,这取决于平台的能力,一天中观看的时间,以及大量显/隐的电影品味数据。
这种方法的美妙之处在于,这些行在适当的上下文里,可以显示在任何设备或屏幕上。很容易在所有浏览器和设备上显示相同的行结构。
2011年:网飞公司Netflix证明个性化可以提高用户留存率
最终,在2011年,网飞公司Netflix在大型A/B测试中,证明了留存率的提高。然而,结果是有争议的,因为测试比较了默认的个性化体验和简化的体验,所有的个性化“推荐”,实际上都是随机选择的电影。网飞公司Netflix的工程师抱怨说,这个测试是在浪费时间。大多数团队成员,已经接受个性化为Netflix会员创造了更好的体验。
认识到网飞公司Netflix在个性化方面进行了长达13年的长期投资,直到2011年他们终于有了提高用户留存率的“证据”。但是代理指标的改进——在使用该服务的头两个月里对至少50部电影进行评分的会员比例——给了网飞公司Netflix信心,使其不断加大个性化服务的力度。
2012年:“家庭会员个人档案”功能更新
随着网飞公司Netflix超越了DVD的业务,它不再要求用户创建一个有序的电影列表。相反,会员们按下“播放”键,就可以开始观看电影或电视节目。
网飞公司Netflix在DVD时代有一个“家庭会员个人档案”功能,但只有2%的用户使用这个功能,主要是因为管理这个强制的电影排名列表很耗时。但是现在,没有什么好管理的了。你只要向Netflix提供你的名字、你喜欢的三部电影或电视节目,Netflix为每个与该账户相关的用户,都可以创造个性化的体验。
如今,超过一半的Netflix账户拥有多个个人资料档案库。网飞公司Netflix知道2亿用户对这部电影的喜好,从而理解与这2亿用户相关的,5亿独立电影观众的喜好。
2013年:《纸牌屋》原创内容推出
《纸牌屋》(House of Cards)是网飞公司Netflix,在原创内容上的第一笔大投资,实际上这是一步对英国电视剧的美国翻拍剧。
还在2007年的DVD时代里,网飞公司Netflix第一家原创内容公司——Red Envelope Studios失败了。尽管失败了,网飞公司Netflix在流媒体时代再次开始尝试。
知道有数百万用户喜欢凯文·史派西(Kevin Spacey)和《白宫风云》(The West Wing),网飞公司Netflix最初在《纸牌屋》(House of Cards)上押了1亿美元,最终得到了回报。在六季中,网飞公司Netflix为这部剧投入了超过5亿美元。《纸牌屋》是网飞公司Netflix投资的众多成功的,原创电影和电视剧中的第一部。
在网飞公司Netflix的历史上,很明显的一点是个性化以一种难以复制、提高利润的方式在取悦客户。通过让用户更容易找到电影,网飞公司Netflix提高了用户留存率,从而提高了终身价值(LTV)。而且网飞公司Netflix的个性化技术很难复制,尤其是大规模复制。
个性化服务的另一个方面,是提高了公司的利润率:Netflix“适当调整”内容支出的能力。以下是我对网飞公司Netflix的多项内容投资的最佳估计:
•根据对会员口味的了解,Netflix预计将有1亿会员观看《怪奇物语》,并为这部剧投资5亿美元。
•数据科学团队预测,古怪的成人动画片《马男波杰克》(Bojack Horseman)将有2000万观众收看,因此Netflix投资了1亿美元制作这部动画片。
•据预测,将有100万用户观看攀登珠穆朗玛峰的纪录片,Netflix为此投资了500万美元。
网飞公司Netflix在调整原创内容投资规模方面拥有巨大优势,这得益于其预测特定电影、纪录片或电视节目有多少用户会观看的能力。需要注意的是:Netflix并没有把数据驱动的方法,引入电影创作过程——他们对创作者是放手不管的。
2013年:Netflix赢得艾美奖的技术大奖
2013年,网飞公司Netflix凭借“视频发现个性化推荐引擎”获得艾美奖。这个奖项暗示了网飞公司Netflix凭借其原创内容最终将在奥斯卡、艾美奖和金球奖上占据主导地位。
2015年:如果是法语可以吗?
一个基于法语的Netflix个人电脑主页。
2015年至2021年,网飞公司Netflix在190个国家推出了服务,语言从20种扩展到40种。个性化团队想知道,他们是否应该用每个用户的母语,来进行个性化算法。基于A/B测试结果的简单回答是:不需要。
就像2006年的人口统计测试一样,用户的品味如此独特,以至于语言和地理位置,无助于预测用户的电影偏好。和以前一样,最有效的方式来建立一个会员的品味档案,是要求他们提供一些喜欢的电视节目或电影。随着时间的推移,网飞公司Netflix从这个“种子”中构建,它将会员评价、观看、停止观看的影片告知其算法,甚至通过点击“电影显示页面”或观看预告片,来显示对电影的兴趣。
2016::Netflix测试个性化界面
网飞公司Netflix的三种文化价值观是好奇、坦诚和勇气。Netflix鼓励新员工在加入公司时,挑战传统观念。Netflix欣赏“新鲜的眼光”的价值,并鼓励打破传统的文化。
网飞公司Netflix新聘请的一位产品主管,建议团队去测试“浮动行”(floating rows)。这个的想法是,像“Gib的前10名”、“刚刚发布”和“继续观看”这一行,应该根据每个用户的不同,甚至根据观看设备、一天中的时间,和其他因素而改变。传统观点认为,不一致的网站设计,会让用户感到困惑和烦恼,所以最好保持界面的一致性。但不管怎样,“保守派”人士还是允许新手去测试它。
拉尔夫·沃尔顿·爱默生(Ralph Waldon Emerson)曾经说过:“一致性是心胸狭窄的人的恶魔。”令人惊讶的是,不一致的界面,在A/B测试中表现得竟然更好。今天,甚至用户界面都是个性化的,基于用户的偏好。
请注意,Netflix提供给您的行名是非常不一致的。在我的个人电脑屏幕截图中,Netflix第一排标题为“Trending Now”,将“继续观看”排在第二。根据您最近的活动、平台和每天的时间,每次使用它时,界面都会发生变化。
2017年:从星星到拇指
到2017年,网飞公司Netflix获得了超过50亿的星评。但在过去10年里,脸书Facebook推广了一种不同的评分系统:“赞”和“嘘”。到2017年,Facebook已经向全球超过20亿用户,介绍了这个简单的手势。
发现哪种方法,能激发会员提供更多的偏好数据,其实很简单:对五星系统执行一个A/B测试,对一个大拇指向上/向下的系统。结果是:更简单的拇指评价系统,收集了两倍的评分。
2017年,网飞公司Netflix用脸书Facebook的“赞/嘘”界面测试了它的五星评分系统。拇指评价系统让会员的品味输入量,翻了一番。
这个结果令人惊讶吗?不。当你要求一个成员在三颗、四颗或五颗星之间进行解析时,你就迫使他们思考太多。他们会感到困惑,然后他们就继续下一个活动了,而不给电影打分。向上或向下点拇指,就要容易得多。这里,就像许多用户界面的情况一样,简单胜过完整。
2017年:五星系统会发生什么变化?
如果星星都不在了,你如何传达电影质量呢?回想一下,网飞公司Netflix早期的一个假设是,随着时间的推移,观看的电影的平均评分会上升,从而导致留存率的提高。虽然有证据表明平均收视率提高了,但Netflix的数据并没有显示,更高的平均收视率,提高了用户留存率。
事实证明,电影评级并不等于电影的享受程度。虽然你可能会觉得《辛德勒的名单》(Schindler’s List)或《卢旺达酒店》是五星级电影,但这并不意味着比起三星电影,你更喜欢它们。有时候,你需要一部“把大脑放在门口”(leave your brains at the door)的喜剧,比如《保罗·布拉特:商场警察》(Paul Blart: Mall Cop)。这就是为什么网飞公司Netflix在原创内容上的首批大笔投资之一,是与幼稚喜剧之王亚当•桑德勒(Adam Sandler)签订了四部电影的协议。我最喜欢的是哪部?荒唐六蛟龙(The Ridiculous Six)。
这是亚当·桑德勒(Adam Sandler) 2.5亿美元的原创内容四部电影协议中的一部。有时候,享受电影,就是把你的大脑和一部好的三星电影放在一起。
2017年:百分比匹配
因此,随着星级评分的减少,以及星级评分并不等于对电影欣赏程度的认识,网飞公司Netflix改变了它的系统。他们切换到“百分比匹配”,表示你对一部电影的喜爱程度,不管它的质量如何。
下面,网飞公司Netflix给了我一个“80%匹配”的《爱尔兰人》(The Irishman)。它认为我有80%的机会会喜欢它,这是Netflix给我的初级建议。
网飞公司Netflix不再用它的五星系统来衡量一部电影的质量。它只是表明一个标题与你的匹配程度,表明他们认为你会有多喜欢它。
2018年:个性化电影艺术
网飞公司Netflix的个性化团队,希望在正确的时间为你呈现正确的标题,并尽可能多地鼓励你观看该标题。为了做到这一点,网飞公司Netflix使用个性化的视觉效果来,迎合每个会员的口味偏好。
以下是来自网飞公司Netflix技术博客的更多信息:
让我们考虑尝试用个性化,来描述电影《心灵捕手》(Good Will Hunting)的形象。在这里,我们可以根据会员对不同题材和主题的偏好,来做出个性化的决定。如果我们展示包含马特·达蒙(Matt Damon)和米妮·德莱弗(Minnie Driver)的艺术作品,看过很多浪漫电影的人可能会对《心灵捕手》感兴趣,然而,如果我们展示这是一部包含著名喜剧演员罗宾·威廉姆斯(Robin Williams)的艺术作品,一个看过很多喜剧的人可能会被这部电影吸引。
使用上面的例子,网飞公司Netflix的技术博客,分享了支持每个场景的标题,以及Netflix提供给不同会员的独特的电影艺术。最上面一排是对浪漫电影感兴趣的会员,男主角是马特·达蒙和米妮·德赖弗。最下面一排是给喜欢看著名喜剧演员的会员的。在这个例子中,罗宾·威廉姆斯是主角。
如果你喜欢浪漫喜剧,Netflix会在向你推销《心灵捕手》时,使用右上角的电影艺术。如果你喜欢著名的喜剧演员,那么你的个性化电影艺术,就有罗宾·威廉姆斯的介绍。
网飞公司Netflix不仅利用其对会员喜好的了解来选择正确的电影,而且还考虑到会员的口味,通过高度个性化的视觉效果,来支持这些选择。
2021年:你觉得幸运吗?
终极的个性化就是你打开电视,网飞公司Netflix会神奇地播放一部,你喜欢的电影。网飞公司Netflix首次尝试这一概念,是公司联合CEO里德·黑斯廷斯(Reed Hastings)(开玩笑地)称之为,“我觉得幸运”(I feel lucky)按钮的一个功能。
请注意,如果你是基于在电视的系统上注册个人资料时,会有一个新的“随便播些什么”( Play Something)的按钮。你可以把这个按钮,看作是Netflix算法将用户与他们喜欢的电影,联系起来的一个代理键。我猜今天有2-3%的戏剧来自这个按钮。如果这个“Play Something”按钮在未来几年里会产生10%的使用率,这就有力地表明Netflix的个性化服务,在将用户与他们喜欢的电影联系起来方面,做得更好了。
这是长期的个性化愿景:20年后,Netflix将取消“播放”按钮和个性化推介系统,你在特定时刻想看的一部特殊电影,将自动开始播放。
我猜网飞公司Netflix将在20年内实现这一愿景。他们在过去的20年里,已经取得了很大的进步,所以我认为这是可行的。
结论
如今,网飞公司Netflix的会员所观看的超过80%的电视节目和电影,都是通过Netflix的个性化算法推介给你的。
网飞公司Netflix的个性化历史有起有落。但最终,个性化使网飞公司Netflix建立了一个难以复制的技术优势来取悦用户,最终提高整体利润。
对于从事创新项目的产品领导者来说,网飞公司Netflix的历程凸显了以下需求:
•计划:一个产品战略以及相应的指标和策略。
•方法:快速测试各种假设的方法。
•一种鼓励冒险、求知欲、坦诚以及说“让我们试试这个想法”的勇气的文化。
最后一个要求:耐心。打造世界级的产品和公司需要几十年的时间。