同时搭配在多个环节上的优化提升,比如训练样本、损失函数上、噪音处理上等,这篇论文提出的方法比基准方法有了较大的提高。和论文的纯英文不同,黑皮书专门总结了中文表格解释为什么淘宝的向量化召回会有更好的效果,比直接啃原文要来的快捷,比较适合我这种想要大致了解思路的读者。
除此之外,这几年很火的一个概念是云边协同。核心思路就是把复杂的运算放在云端(cloud),而在边端(edge,比如手机上)只进行轻量的运算。好处有很多,首先就是降低了云端的压力,充分利用边端的计算资源,毕竟智能手机/平板的计算能力已经越来越强了。其次就是数据安全,在边端对数据进行处理可以避免数据传输中和其本身可能造成的安全问题。
那么推荐系统也绕不过这个问题,如何能使用云边协同在轻量计算设备(比如手机)上进行高质量的推荐也就变得非常重要。而黑皮书也花了较大的篇幅对淘宝的端上推荐系统EdgeRec进行了解读,这一部分因为本身不是论文(虽然一部分内容发在了CIKM2021上),因此也是我第一次看到的比较完善的技术说明(见下图)。
在我看起来,最有意思的部分是「端上重排」的设计。简单来说,就是我们不再完全实时的给用户展示所有推荐,而是综合手机上的历史缓存的内容,同时再根据用户的实时互动进行智能的展示。这个设计有很多好处,比如可以避免服务端的决策延迟,也就是我们常常说的网速慢时刷不出来内容。同时我们在端上的很多操作其实是有时序上的连贯性的,比如连续几天会搜索类似的内容,因此我们可以复用最近的端上缓存内容。而就像我前面的说的云端协同(黑皮书里叫做端云联合),EdgeRec首次实现了在端上进行大规模深度神经网络推理,下图左边就是端上,而右边是云端。当然书里面的介绍比我这个复杂深入的多,对大规模端上推荐系统感兴趣的小伙伴不妨去看看。
而另外一条我觉得程序们不该错过的是来自于「旭伦」的分享:如何做好一份程序员的工作汇报ppt?其实作为程序员,我们的通病是做了太多,说的太少,以至于严重影响了我们扩大影响力,获得升职加薪,甚至被人抢了功劳。这篇分享中我自己最喜欢的部分是他把写PPT的逻辑思维拆解成了三个具体措施:(1)结构化的表达,要有条理(2)用事实说话,而不是简单空泛的形容(3)用数据说话,这是最好的例证。