什么是大模型?

大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。其实感觉就是自监督学习,利用大量无标签很便宜的数据去做预训练。
比如BERT,怎么做的无监督pre-trained?他会把输入的句子中的token随机遮住,然后去预测这个token经过encoder以后的输出单词的概率(通过softmax),因为我们自己是知道哪个token被遮住了的,loss就是让模型预测的记过越来越接近真实值(有一个词汇表,可以编码GT的one-hot),通过这样来反传播训练。
想要训练一个大模型,首先需要收集大量的数据样本,这些样本应该具有代表性和多样性,以便让AI大模型能够更好地学习和理解各种情况。接下来,我们需要对收集到的数据进行处理和筛选,去除掉无效或重复的数据,以减少数据的冗余和提高数据的准确性。这个过程通常需要借助人工或自动化工具来完成。然后,我们需要从原始数据中提取出有用的特征信息,以便让AI大模型能够更好地理解和分析数据。接着,我们需要选择合适的算法和技术来构建AI大模型的结构和参数。最后,AI大模型会根据上述步骤生成的模型结构和参数来进行学习和优化。这个过程通常需要大量的计算资源和时间,因为AI大模型需要对大量的数据进行迭代训练和调整。目前市面上已经有现成的可以直接上传数据让它自己进行训练的大模型了,成本很低。

蓝海大脑 京ICP备18017748号-1