【图文】Pinterest分享：如何利用机器学习抵制垃圾信息（上）

篱笆资讯

Pinterest分享：如何利用机器学习抵制垃圾信息（上）

数以亿计的人定期访问Pinterest，在数十亿的Pins中直观地发现鼓舞人心的想法。灵感是一个很高的标准，我们必须保持警惕，确保Pinners不会看到垃圾邮件、有害内容或错误信息。为了执行我们的社区政策并维持一个鼓舞人心的环境，我们使用最新的机器学习技术来建立自动化系统，迅速检测并打击垃圾邮件内容和垃圾邮件发送者。

我们的反垃圾邮件系统由反应式和主动式两部分组成，以有效对抗对抗性滥用者--那些故意试图规避系统的用户。我们的主动式系统由复杂的机器学习模型组成，而被动式系统包括在实时规则引擎中执行的规则和轻量级机器学习模型。我们不仅使用最新的建模技术，而且还通过添加新的数据和探索新的技术突破，定期迭代这些模型，以便随着时间的推移保持或提高其性能，从而有效解决垃圾邮件。

机器学习模型

（1）垃圾邮件域模型

我们使用一个深度神经网络分类器主动识别垃圾邮件Pin链接。为了使影响最大化，我们的模型会学习将一个域名分类为垃圾邮件，而不是链接。我们对属于同一领域的链接的所有Pin应用同样的执行。这个模型是在人工标注的域名上交互训练的，以达到更高的召回率和更低的假阳性率。我们使用从链接、网页文本和媒体、用户与域的互动、以及用户行为中创建的特征作为输入。对于每个领域，我们对链接和网页进行取样以创建特征。我们从语义上将链接分割成语义标记，只使用频繁的标记作为特征。我们分析用户行为在一段时间内的外在模式，以创建行为特征。这个模型由PySpark工作使用Tensorflow、Spark SQL和UDF定期进行大规模的批量推断。

（2）垃圾邮件用户模型

识别从事垃圾邮件活动的用户是打击垃圾邮件的最终解决方案，但这是极难实现的。我们利用有监督和无监督的模型来建立一个有效的垃圾邮件用户识别系统。

（3）分类模型

我们的垃圾邮件用户分类模型是一个深度神经网络，是我们主动式系统的一部分。它是使用人工标注的数据进行训练的，并以最少的人工监督来确保质量。我们使用从用户属性和他们过去的行为创建的特征作为输入。我们还使用用户与领域的互动，总结为每个用户的领域分数分布，其中领域分数是从垃圾邮件领域模型中重新使用的，作为输入。这个模型定期进行批量推断，由一个使用Tensorflow、Spark SQL和UDF的PySpark工作对数百万Pinners进行评分。