深度学习Dense Retriever和Sparse Retriever的特点,以及典型代表

Sparse Retriever指的是使用稀疏表示来进行文本匹配,典型代表:TF-IDF、BM25等。特点如下:


维度大小一般为语料的词典大小;


当词典较大时,向量表示中会包含大量的0;


基于统计,无法包含更丰富的语义信息。


Dense Retriever指的是使用稠密向量来进行文本匹配,典型代表:Bert,特点如下:


维度一般比较灵活,不受词典大小的影响;


由于向量维度一般较小,向量表示中一般不会包含0;


蓝海大脑 京ICP备18017748号-1