L1范数和L2范数有什么区别,为什么L1解空间是稀疏的,L2解空间是稠密的 L1是模型各个参数的绝对值之和。 L2是模型各个参数的平方和的开方值。 L1会趋向于产生少量的特征,而其他的特征都是0。因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0 ,产生稀疏权重矩阵 。 L2会选择更多的特征,这些特征都会接近于0。最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0。当最小化||w||时,就会使每一项趋近于0。 L1的作用是为了矩阵稀疏化。假设的是 阅读全文 → 2022-12-28
常用的高性能优化器有哪些,ADAM和SGD有什么区别? 常见的优化器:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam、AdamW优化器等。 SGD是随机梯度下降法,是最基本的优化器。 Adam是一种自适应学习率的方法。以SGD作为最初的算法,Momentum在其基础上加入了一阶动量(历史梯度的累计), AdaGrad和RMSProp在其基础上加入了二阶动量(历史梯度的平方累计),Adam就是结合了SGD的一阶动量和RMSP 阅读全文 → 2022-12-28
高性能计算BN层的参数,输入是N,C,H,BN层参数是多少? BN层的参数是C * 2(C为通道数),BN的本质是利用优化改变方差大小和均值的位置,在CNN中,因为网络的特征是对应到一张特征图上的,所以BN是以特征图为单位而不是按照各个维度。 阅读全文 → 2022-12-28
深度学习ESMM模型原理 ESMM模型利用用户行为序列数据在完整样本空间建模,避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题,取得了显著的效果。另一方面,ESMM模型首次提出了利用学习CTR和CTCVR的辅助任务迂回学习CVR的思路。 阅读全文 → 2022-12-28
简单描述用高性能计算LDA主题模型? 将文档集中每篇文档的主题以概率分布的形式给出,通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。 在LDA模型中,一篇文档生成的方式如下: 从狄利克雷分布alpha中取样生成文档 i 的主题分布θi 从主题的多项式分布θi中取样 阅读全文 → 2022-12-28
深度学习Dense Retriever和Sparse Retriever的特点,以及典型代表 Sparse Retriever指的是使用稀疏表示来进行文本匹配,典型代表:TF-IDF、BM25等。特点如下: 维度大小一般为语料的词典大小; 当词典较大时,向量表示中会包含大量的0; 基于统计,无法包含更丰富的语义信息。 Dense Retriever指的是使用稠密向量来进行文本匹配,典型代表:Bert,特点如下: 维度一般比较灵活,不受词典大小的影响; 由于向量维度一般较小,向量表示中一般不会包含0; 阅读全文 → 2022-12-27