400-803-8660 Mon. - Fri. 10:00-22:00

九枝兰专访搜狐大数据中心副总经理管延放:为了提升广告投放的效果,搜狐广告产品采用了哪些成熟的算法?

九枝兰专访搜狐大数据中心副总经理管延放:为了提升广告投放的效果,搜狐广告产品采用了哪些成熟的算法?

九枝兰:为了提升广告投放的效果,搜狐广告产品采用了哪些成熟的算法?

管延放:回答这个问题之前我们首先需要弄清楚:你到底用机器学习的方式去解决什么样的问题,并要能够把目标清晰地用数学语言给定义出来。人工更多的是需要编程,需要设计好机器学习的流程,使得机器可以按照人设定的那个目标去运作。

目前我们使用的是一些比较成熟的算法——

  • 分类算法(回归和分类)

我们用已知答案的数据去推断未知答案的可能性,在算法上称为有监督的学习。一般常用的是回归算法,以及在回归算法基础上衍生出的分类算法。

例如,如果把已经看过某广告的人中点击人群作为采样数据,那基于这些数据,就可以在一个更大的人群范围里分析,根据他们和已知人群特征的相似性判断他们点击该广告的可能性,这就是逻辑回归。

再举一个有意思的例子:如何猜测一个人的性别呢?大多数网站其实并没有可靠的人口属性数据源,但他们会掌握采样数据。如果有一千人的访问量,其中三百个是男的,七百个是女的,在这种情况下,想知道另外一百万用户的男女人数。就可以先研究这一千人中男女用户在网站上浏览的行为模式,了解其中的差异性,将这差异性应用到一百万的用户上,就可以大致推测那一百万个用户中每个用户是男性或女性的概率。这也是一个典型的分类问题。

  • 聚类算法

聚类是另一种思路的算法。比如我们有一百万篇文章,但我们并不知道每篇文章应该被分到哪个类别中,甚至我们不知道该把文章分成多少类,这时候就需要采用无监督学习的方式来进行,我们称之为聚类。

对于文章,我们可以用算法提取它们的主题关键词,再根据关键词的相关性和重合性,把特征近似的文章归到同一类别下,形成文章类簇。

更进一步,根据用户对不同类别文章的浏览历史,我们还可以进一步对用户的行为进行聚类,由此形成用户的聚类标签。用户聚类可以用于效果类广告的优化。

284521115748548727九枝兰:这些算法是如何互相组合和相互作用的呢?广告平台如何调优这些算法进行协同作业?

 管延放:这里主要用到三大策略:

  • 机器算法优劣评估的KPI

这是最基本的,所有的机器算法都会定义明确的KPI公式,就是说所有的机器学习的目标都在优化这个公式最后算出来的KPI,把它最大化或者最小化,这个是最核心的。比如点击模型,我们就可以看它点击预测的误差总和,那所有对参数的优化,都是为了去降低这个误差总和。

  • 组合策略

有时同一件事,我们可以用几个算法同时去进行模拟或预测。可能在不同的细分场景下不同算法的效力是不一样的,那我们就可以用类似投票的策略,来提高算法预测总体的准确性。假设我们同时运行了十个性别判定的算法,6个显示用户是男性,4个显示它是女性,那我们就可以把他作为男性来对待,即使未必全准,但也会稳妥很多。

A/B test

系统同时跑A算法和B算法,最后再用已经掌握的那部分数据去判别A系统和B系统的优劣与有效性。这种方法在互联网界已经非常普遍了,并不仅限于算法的评估。很多策略,甚至是界面的设计,都会用A/B测试的方式来决定取舍。

160161127675706805

 

九枝兰专访:程序化广告的高精尖算法以及流量作弊的现状解读——来自搜狐大数据中心的独家内容 【DSP专题系列3】

九枝兰专访管延放:为了提升广告投放的效果,搜狐广告产品采用了哪些成熟的算法?

九枝兰专访管延放:广告投放效果除了受数据算法的影响,还会受哪些因素影响?

—————————————————————————————————————————————

注:若转载本文请加上九枝兰微信ID:jiuzhilan或二维码。对于不署名者,九枝兰将保留追究的权利。