GBDT和Xgboost的区别有哪些? 有以下几点区别: 1、GBDT是机器学习算法,XGBoost是该算法的一种工程实现 2、XGBoost在使用CART作为基学习器时,加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力 3、GBDT在模型训练时只使用了损失函数的一阶导数信息,XGBoost对损失函数进行二阶泰勒展开,可以同时使用一阶和二阶导数 4、XGBoost支持自定义损失函数,增强了模型的扩展性 5、传统的GBDT采用CART作为基学习器(也叫基分类器),XGBoost支持多种类型的基 阅读全文 → 2023-01-05
Precision和Recall分别是什么? 精确度(precision)/查准率:TP/(TP+FP)=TP/P 预测为真中,实际为正样本的概率 召回率(recall)/查全率:TP/(TP+FN) 正样本中,被识别为真的概率。 阅读全文 → 2023-01-05
AUC指标讲有哪些? AUC是ROC曲线下面的面积,AUC可以解读为从所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。AUC反映的是分类器对样本的排序能力。AUC越大,自然排序能力越好,即分类器将越多的正例排在负例之前。 阅读全文 → 2023-01-05
Bert和transformer区别有哪些? 有以下几个区别: 1 bert只有transformer的encode 结构 ,是生成语言模型 2 bert 加入了输入句子的 mask机制,在输入的时候会随机mask 3 模型接收两个句子作为输入,并且预测其中第二个句子是否在原始文档中也是后续句子 可以做对话机制的应答。 4 在训练 BERT 模型时,Masked LM 和 Next Sentence Prediction 是一起训练的,目标就是要最小化两种策略的组合损失函数。 深度学习模型在训练和测试时,通常使用小批量( 阅读全文 → 2023-01-04
Bert里面为什么Q,K,V要用三个不同的矩阵,用一个不是也行吗。 如果使用相同的矩阵,相同量级的情况下,q 和 k进行点积的值会是最大的,进行softmax的加权平均后,该词所占的比重会最大,使得其他词的比重很少,无法有效利用上下文信息来增强当前词的语义表示,而使用不同的QKV后,会很大程度减轻上述的影响。 深度学习模型在训练和测试时,通常使用小批量(mini-batch)的方式将样本组装在一起,这样能充分利用GPU的并行计算特性,加快运算速度。 但在将使用了深度学习模型的服务部署上线的时候,由于用户请求通常是离散和单次的,这时若采取传统的循环服务器或多线程 阅读全文 → 2023-01-04
Bert里面为什么用layer normalization,而不用batch normalization,分别讲一下这两个啥意思。 Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。 区别:LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。所以,LN不依赖于batch的大小和输入sequence的长度,因此可以用于batchsize为1和RNN中sequence的normalize操作。 蓝海大脑为满足 阅读全文 → 2023-01-04