没有大数据,就没法训练模型吗?
如果想进行预训练模型的训练,那么确实需要大量的数据居。虽然对数据质量的要求不高,但通常还是需要进行数据清洗,以减少垃圾数据的影响。
然而,如果想进行监督微调、建立模型,或进行强化学习的阶段的训练,那么并不需要大量的数据。尤其是在监督微调阶段,从图1中我们可以看到,其数据量范围是10到100K。t也就是说,只需要几十个或几百个高质量的数据,就可以对模型进行微调并取得不错的效果。显然,在监督微调阶段,数数据质量比数据量更重要。
这里所说的高质量数据,不仅指问题的答案要准确,更需要要注意的是,你的微调数据要能很好地覆盖你的任务。
蓝海大脑 京ICP备18017748号-1