广告点击率预估是一个非常经典的转化率预估问题,在互联网时代,广告作为互联网公司盈利的一种重要手段或方法,而广告又分为很多种(这部分的知识可以课后脑补一下),今天主要讲下在计算广告当中,竞价广告涉及到的ctr预估遇到的平滑问题。这里先解释一下竞价广告:简单讲来就是广告主需要在媒体投放平台投放广告,而媒体需要通过多个广告主竞价,价高者得的方式来获取利润。而这里主要介绍两种竞价方式:1、CPM方式,2、CPC方式;
CPM方式是按照千次展示固定的价格来收费,这里实际上不涉及竞价。而CPC是根据广告主出的低价,乘以ctr;再乘以1000得到一个最终的价格。
所以这里的ctr预估对于广告主来说是非常重要的,如果ctr预估过高,导致投放成本很快用完,无法达到预期投放目标;而ctr预估过低,就无法得到曝光展示机会。
而CTR预估中,ctr平滑就是一个非常重要的过程:下面首先来讲讲贝叶斯平滑是个什么东西
1、贝叶斯平滑假设前提
当某个广告曝光给到用户,用户点击或者不点击是服从二项分布:(通俗的理解,所谓二项分布就是n次伯努利概率分布)伯努利分布就是用户是否点击广告服从伯努利分布。即
所以某个广告点击率CTR可以理解成,n个用户是否点击广告的概率分布,而用户是否点击广告服从伯努利分布,n个用户,则该广告的点击率是符合二项分布,转化成最大似然估计。则是n个用户是否点击该广告的概率最大即为转化率。
而为了求得这个最大似然估计,通过利用用户的历史数据作为先验概率,利用贝叶斯原理,预估出后验概率。这里我们用广告的转化率CTR对应期望作为目标函数,则对应损失函数如下所示:
r表示根据历史得到先验概率期望,^r表示真实概率期望。即使得L(^r,r)最小。然后我们就得到这个东西
而上式中,对于点击次数,服从的是二项分布,即f(C,I|r)∼Bin(r)f(C,I|r)∼Bin(r)。二项分布的共轭先验是Beta分布。Beta分布我理解是表示正负样本真实概率的一个分布,其中有两个参数,a和b,分别表示正样本个数,和负样本个数。也可以将CTR理解成是一个服从Bate分布的。于是我们就得到下面的转化率结果:
贝叶斯平滑参数计算: