训练的时候要三个网络一起训练,但是预测的时候只用CTR,这一开始让我无论如何也想不通,如果你的目标是CTR,为什么不让LOSS直接针对CTR进行训练呢? 其实这另外的两个网络根本就不是要训练的部分,它们只不过是第一个网络的正则化项而已。这里面的一个大前提就是,我底下的这些Embedding,它们应该是能表达用户和广告的,并不仅仅是做预测(这也是Embedding层设计的初衷),这样的设计在早起的NN方法中,会用ALS算法的结果做Embedding层的初始化就可见一斑。但是End2End的方法流行以后,网络并不会在乎人类最初是怎么设计这一层的,网络只关心Loss。 回到这篇文章,我们可以看出,作者本质上假设了,这些Embedding,除了预测CTR以外,理论上也能承担其他任务,例如关联和匹配等等,这些才是Multi Task的本质,其它的Task都是为了某一个具体的Task服务的正则化项,并不是我真的需要这些Task。