什么是Youtube评论系统排序/排名算法？ [关闭]

34
投票

我有你的问题的答案。

在互联网上寻找答案之后，我从来没有找到我正在寻找的东西。所以，我和我的同事决定使用Youtube评论系统进行实验。

首先，我们将我们认为是热门视频的内容整理成一个部分，将平均视频分类到另一个部分，并将不太流行的视频分类到最后一部分。每个部分共有200个视频，经过几天的检查后，我们开始注意到一种模式。我们发现你对所需的三件事情是正确的，但我们也更深入地发现了一个额外的变量。

Youtube评论系统取决于四件事：

1）发布的时间，

2）评论的喜欢/不喜欢比例，

3）回复数量，

4）不管你信不信，世卫组织发布了它。

您发布的每条公众评论的平均喜欢/不喜欢的比例构成了它，正如（我们预测的那样）他们认为那些喜欢/喜欢比率低的人会发表许多人不喜欢或不同意的评论。

它有一个算法，它比你想象的要简单得多。基本上有一些我们称之为“模块点”的东西，你会根据这四个因素得到一个。首先，您需要了解有关模块点转换的两个因素：

这是表示评论所具有的模块点数量的两个基本因素。

例如，如果评论有27个喜欢和8个不喜欢，那么比率将是3.375。乘以10，您将得到33.75个模块点。使用下一个因素，回复量，让我们说这个评论有4个直接回复。乘以2乘4，我们得到8.这是你在累积模块点上加8的部分，总共有41.75个模块点。

但是我们没有在这里完成;这是它变得棘手的地方。

使用他们公开发布的一个人的总评论的平均喜欢/不喜欢比率，我们发现添加到累积模块点的公式是这样的：

C = MP(R/3) + (MP/10)

where C = Comment Position Variable; MP = Module Points; R = Person's total like/dislike ratio

相信我，我们只在这一部分花费DAYS，这可能是最令人沮丧的。即使这个等式中的3和10看起来是随机的和不必要的，到目前为止我们测试这个等式的所有注释都通过了测试，但是当这两个变量被移除时没有通过测试。完成此等式后，它会为您提供一个我们命名为位置变量的数字。

但是，我们还没有完成，我们还没有谈到time。

我真的很惊讶这部分并没有像我预期的那样长，但是对于我们测试的每一条评论来说，确实每次都做这个等式是很痛苦的。首先，在测试时，我们认为如果2条评论具有相同的位置变量，那么时间就是打破障碍。

实际上，当发生这种情况时，我几乎把它称为实验包装，但经过进一步检查，我们发现还有更多工作要做。我们发现一些评论相互之间的评价相同，其位置变量相同，但时间似乎是随机的！经过几天的检查，这里是最终结果的来源：

在应用第四个变量之前，我们必须找到另一个等式。使用另一个单独的等式，这是我们的代数推论归结为：

X = 1/3(S/10 + A) x [absolute value of](A - 3S)

where X = Timing Variable; S = How long ago the video was posted in minutes; A = How long ago the comment was posted in minutes

我希望我能做到这一点，但不幸的是，这是系统的复杂程度。其他变量背后有数学原因，但它们太复杂而无法解释，它可能需要至少三段才能解释。我们在超过150条评论中测试了这个等式，所有这些评论都是真实的。

一旦找到X，这就是我们所说的时序变量，你所要做的就是将它应用于这个等式：

N = X(C/4 + 1)

where X = Timing Variable; C = Positioning Variable

N是你所有问题的答案。

这是最后的等式，最后的答案。简单的结论是：N越高，评论越高。

注意：特别感谢我的同事：David Mattison，Josh Williams，Diego Mendieta，Steven Orsette和Kyle Shropshire。如果没有他们以及他们为此付出的努力，我可能永远都不会发现这一点。