YouTube引擎的推荐视频机制是怎么运作的?

很多人对 YouTube 的第一印象,是内容多。

但真正让它可怕的,从来不是“多”,而是它总能把你继续留在那里

本来只是想搜一个视频。
结果首页一刷新,又多看了三个。
本来只是听一首老歌。
结果顺着推荐一路点下去,半天就没了。

这件事说起来不复杂,做起来却非常难。

因为推荐系统从来不是“把几个相似内容摆出来”那么简单。它要解决的是另一层问题:在一个内容多到几乎看不完的平台上,怎么尽快拿出当下最可能让这个用户继续看下去的那几条。

YouTube 推荐引擎厉害的地方,就在这儿。

它不是单纯懂视频。
它是很会处理“人、内容、场景、时间”之间那点微妙关系。


推荐系统最难的,不是猜你喜欢什么,而是先把范围缩小

很多人一提推荐系统,脑子里先想到的是“懂用户”。

这当然没错。
但只说一半。

因为在 YouTube 这种平台上,真正的难点其实有两个:先从海量视频里捞出一小批候选,再把这批候选排出顺序。

少了前一步,后一步根本排不过来。
少了后一步,前一步再准也只是“给了一堆还行的东西”。

原文里提到,YouTube 的推荐问题,本质上很像一个被无数因素影响的排序系统。用户看过什么、订阅了什么、点过什么、停留了多久,这些都重要。视频本身的标题、描述、缩略图、音频、内容特征,也都重要。

麻烦就在于,这些信息不是天然就在一个尺度上的。

比如,用户的历史行为是一种信号。
视频的视觉和文本特征,又是另一种信号。
它们彼此之间有语义落差,分布还很稀疏。

说得直白一点,就是:机器想把“这个人可能会喜欢这个视频”这件事讲明白,远没有人类嘴上说一句“我感觉他会点”那么轻松。

推荐系统真正的难度,不是会不会推荐,而是能不能在巨大的不确定里,先把范围收窄到可计算、可排序、可上线。

这也是为什么,很多内容平台都在砸钱做推荐系统。
因为这玩意儿一旦做对,不只是更懂用户,而是会直接改变平台的停留时长、内容消费路径,甚至商业结果。


YouTube怎么做?先找候选,再做排序

YouTube 处理这个问题,不是靠一个“大一统模型”一把梭,而是拆成了两个阶段。

这也是它最值得看的一点。

第一层:候选生成网络

第一步不是精排,而是先从数十亿个视频里,挑出几百个值得进下一轮的视频。

注意,是从数十亿里,先缩到几百个
这一步如果做不好,后面根本没法算。

原文把这一层叫做候选视频生成阶段。它会把用户的活动记录、搜索查询、历史观看、订阅关系等信息一起考虑进来,然后从庞大的视频语料库里筛出一批候选视频。

这一层最看重的是准确度和相关性。哪怕意味着有些本来很能带来播放量的视频会被排除掉,只要它们对当前用户不够相关,那也先不进下一轮。

这其实很关键。

因为很多平台做推荐,最容易犯的错就是太急着追热度。
热度当然重要,但热度不等于适合。一个全网都在看的视频,不一定是这个人现在最想点开的东西。

YouTube 在这一层,更像是在回答一句话:

“对于这个人、这个时刻,先把像样的选择找出来。”


第二层:排序网络

候选视频有了,下一步才是排名。

这一步不是简单地按某个指标从高到低排,而是把更多视频特征和用户反馈一起拉进来,对每个候选视频做更细的打分。

原文提到,在排序网络里,用户反馈依然是非常重要的标准。这里的用户输入,核心来自两类行为,尤其是点击和观看带来的参与行为

这就意味着,YouTube 在乎的不是“你有没有看见”,而是“你到底有没有点”“点了以后看了多久”“这种行为说明了什么”。

所以推荐系统看上去像是在“猜兴趣”,其实它更像是在不断地读反馈。

你点没点。
你看了没。
你是看了十秒就关,还是一路看完。
这些动作,都会变成下一轮推荐的依据。

好的推荐系统,不是一次性猜中你喜欢什么,而是能根据你的反馈,越来越接近你下一秒会做什么。

这也是 YouTube 容易让人越看越久的原因。

它不是一次就把答案猜对。
它是边猜你,边修正自己。


真正让它难抄的,是多目标、稀疏性和可扩展性

如果事情只到“候选生成 + 排序”,其实还不算最难。

更麻烦的是,YouTube 面对的不是一个小平台,而是全球最大的视频内容池之一。视频数量多,用户规模大,场景复杂,很多特征还只能在线上实时拿到,没法提前准备。

这时候,问题就不只是“模型准不准”,而变成了“模型怎么在这么大的规模下还能跑得动”。

原文里专门提到两个关键词:稀疏分布可扩展性

一方面,项目在特征空间里的分布很稀。
另一方面,传统的矩阵因子化方法,在这种全局特征空间里不太容易继续扩展。

这就逼着 YouTube 不能只靠老办法硬撑,而是要换一种更适合大规模推荐的结构。于是它才会把整件事拆成两个网络,先粗筛,再精排。这样既保证了候选项目的稀疏分布不会把系统拖垮,也让后续排序变得可控。

说白了,YouTube 推荐系统不是一个“聪明模型”单独赢的。

它是模型设计、工程实现、线上训练、反馈回流一起赢的。

很多人喜欢把推荐系统想象成一个天才侦探,像福尔摩斯一样一眼看穿用户。这个比喻挺有画面感,但不够准确。它更像一个特别能干的工厂:前面负责筛,后面负责排,中间不断接反馈,整条链路一直在转。

流水线感很强。
但正因为这样,它才扛得住规模。


推荐系统不是只有一个目标,它得同时顾很多事

原文里还有一个关键点,容易被忽略,但其实很重要:YouTube 的排序问题不是单目标问题。

它不是只追点击,也不是只追观看时长,更不是只追某一个单独指标。研究者最后把它建模成了一个多目标的分类与回归组合问题

这也是 Multi-gate Mixture-of-Experts,也就是 MMoE 出场的地方。

如果用不那么学院派的话说,这套东西可以理解成:底下有一组共享的“专家模块”,上面再有不同的“门控网络”去决定,在不同任务下该更倚重哪些专家。

有点像一条流水线。

同一批工人都在干活,但不同产品会走不同工位、调不同流程。
不是每个任务都从头招一拨人,而是共享一部分能力,再按任务分配重点。

这个思路很适合 YouTube 这样的场景。
因为它面对的本来就不是单一目标,而是多个目标同时存在、彼此还会打架的推荐任务。

点击高,不代表看得久。
看得久,不代表一定新鲜。
新鲜,也不代表最适合当下这个人。

这就是推荐系统最烦的地方。

不是没答案。
是答案太多,而且经常互相拧巴。

所以原文才会强调,这套系统会把收集到的上下文数据一路带到时间 t,然后去预测用户在时间 t+1 对哪些视频感兴趣。它不是一次静态匹配,而是一个持续更新、持续训练的过程。

这也是现代计算和工程能力真正发光的地方。

不是做出一个模型。
而是让这个模型在现实世界里,长期、稳定、规模化地活着。

我佛了。很多平台嘴上也说自己有推荐系统,但有推荐模块,和真有一套能打的推荐系统,中间差得不是一个按钮,是一整条工业链。


YouTube真正重新定义的,不只是推荐效果,而是推荐这件事该怎么做

如果把原文收一下,会发现它想讲的其实不是一句“ YouTube 很强”。

它真正想说的是:YouTube 重新定义了内容推荐的做法。

它让更多人意识到,推荐问题不能只靠简单相似度,也不能只盯一个结果指标。面对海量内容和复杂用户行为,系统必须同时解决候选生成、排序、多目标优化、反馈学习和可扩展性这些问题。

而这背后,和 Google Brain、TensorFlow 这条技术脉络也连在一起。Google 后续把 TensorFlow 开源,本质上也是把深度学习这套能力从内部工程,慢慢推成了更广泛的方法平台。推荐系统、神经网络、工程部署,这些原本分散的话题,也因此被更多人放进同一张图里去理解。

所以 YouTube 推荐引擎真正厉害的地方,不只是它把人留住了。

而是它把一件原本很容易被想简单的问题,做成了一个真正完整、可扩展、能持续进化的系统。

推荐系统做到最后,拼的不是“会不会推荐”,而是能不能在海量内容、复杂反馈和真实工程约束里,持续给出还不错的下一条。

这才是它最值钱的部分。


说到底,YouTube 不是比别人更懂视频,它只是比很多平台更早明白:内容分发这件事,最终拼的是系统,不是灵感。

 

原创文章,作者:图帕先生,感谢支持原创,如若转载,请注明出处:https://www.yestupa.com/youtubes-recommendation-system.html

(0)
打赏 微信咖啡 微信咖啡 支付宝咖啡 支付宝咖啡
图帕先生图帕先生普通会员
上一篇 2天前
下一篇 1月 27, 2025 下午11:27

相关推荐

发表回复

登录后才能评论