Bert和transformer区别有哪些?

有以下几个区别:

1、BERT只有transformer的encode 结构 ,是生成语言模型

2、BERT 加入了输入句子的 mask机制,在输入的时候会随机mask

3、模型接收两个句子作为输入,并且预测其中第二个句子是否在原始文档中也是后续句子 可以做对话机制的应答。

4、在训练 BERT 模型时,Masked LM 和 Next Sentence Prediction 是一起训练的,目标就是要最小化两种策略的组合损失函数。

深度学习模型在训练和测试时,通常使用小批量(mini-batch)的方式将样本组装在一起,这样能充分利用GPU的并行计算特性,加快运算速度。

但在将使用了深度学习模型的服务部署上线的时候,由于用户请求通常是离散和单次的,这时若采取传统的循环服务器或多线程服务器, 会造成GPU计算资源浪费,用户等待时间线性增加。更严重的是在大量并发请求时,会造成CUDA out-of-memory error,导致服务宕机。

基于此,蓝海大脑开发了service-streamer,它是一个中间件,将服务请求排队组成一个完整的batch,再送进GPU运算。这样可以牺牲最小的时延(默认最大0.1s),提升整体性能,极大优化GPU利用率。



蓝海大脑 京ICP备18017748号-1