Bert和transformer区别有哪些?

有以下几个区别：

1、BERT只有transformer的encode 结构，是生成语言模型

2、BERT 加入了输入句子的 mask机制，在输入的时候会随机mask

3、模型接收两个句子作为输入，并且预测其中第二个句子是否在原始文档中也是后续句子可以做对话机制的应答。

4、在训练 BERT 模型时，Masked LM 和 Next Sentence Prediction 是一起训练的，目标就是要最小化两种策略的组合损失函数。

深度学习模型在训练和测试时，通常使用小批量(mini-batch)的方式将样本组装在一起，这样能充分利用GPU的并行计算特性，加快运算速度。

但在将使用了深度学习模型的服务部署上线的时候，由于用户请求通常是离散和单次的，这时若采取传统的循环服务器或多线程服务器，会造成GPU计算资源浪费，用户等待时间线性增加。更严重的是在大量并发请求时，会造成CUDA out-of-memory error，导致服务宕机。

基于此，蓝海大脑开发了service-streamer，它是一个中间件，将服务请求排队组成一个完整的batch，再送进GPU运算。这样可以牺牲最小的时延（默认最大0.1s），提升整体性能，极大优化GPU利用率。