多模态训练，怎么解决不同模态之间差异的问题？

语音和文本之间的模态差异虽大，但利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样，两种模态亦能在预训练中通过共享接口自然地交互。

回首语音和语言联合训练
与NLP不同，语音信号是连续的，因此很难直接找到类似于BERT预训练的预测标签。想要解决这个问题，就需要一个Tokenizer将连续的语音特征映射至离散的标签。受文本预训练方法BERT的启发，语音表示学习模型HuBERT 利用MFCC特征或者Transformer中间层表示的k-means模型作为Tokenizer，将语音转换为离散的标签，通过迭代的方法进行模型预训练。

以往的联合预训练方法大多简单地让语音和文本共享神经网络的模型参数。这种训练方法不能保证语音和文本在同一语义空间内，存在迁移干扰和容量稀释的问题。为了缓解这两个问题，SLAM和mSLAM利用额外有监督的语音识别任务来增强语音与文本的一致性。然而，这些方法仍然无法使用相同的建模单元对未标注的语音和文本数据进行建模。虽然MAESTRO能够在RNN-T框架下通过模态匹配算法从语音和文本模态中学习共享表示，但该算法只能在成对的语音-文本数据上进行优化。

SpeechLM的目标就是利用文本数据来改善语音表征的学习。不同于之前的研究，SpeechLM能够利用训练过的Tokenizer将所有未标注的语音和文本转换到相同的离散表示空间。这样，两种模态亦能在预训练中通过共享接口自然地交互。

构建语音和文本的共享桥梁
语音和文本之间的模态差异极大。首先，语音信号比文本数据具有更多更丰富的信息，如韵律、音色、情感等。其次，语音是由一连串音素组成的连续信号，通常表示为连续平滑的波形，而文本是由词语、字词或字符表示的离散数据。第三，语音表示比文本表示更长，例如，一秒16KHZ的语音包含16000个采样点和几个单词。因此，如何弥合语音和文本之间的模态差异是构建两者桥梁的关键。

为了解决这一问题，研究员们探索使用了一个定义好的离散标签来桥接语音和文本，将语音和文本映射到共享离散空间中进行联合预训练。利用音素单元或者隐藏单元作为语音和文本之间的桥梁具有以下优点：

（1）将语音和文本分别对齐成共享的中间表示比直接对齐两者更容易；

（2）可以充分利用额外的未标注数据来提升对齐学习;

（3）可以利用更细粒度的对齐信息（例如帧级别对齐）来促进联合建模。