如果公司有大量的原始音频数据,如何筛选数据,以及起步去建立自己的模型?有哪些要素是必须要有的?

一般把这个问题叫冷启动问题,其实对于冷启动还是有不少的方案,这里主要描述一个比较朴素的流程。因为是原始数据,要先进行标注,那首先要关心的是要筛选什么样的数据送标,这也取决于你这个描述的大量是什么样的量级,以及你想用什么样的方案来去做标注。是全人工还是第三方服务,结果为主,人工为辅,另外还要考虑您接受的成本和标注周期是多少,若想简单些,可能就是全部送去标注。如果不能接受,就需要做筛选。对于筛选,简单来讲会计算它的信噪比,然后提取一些音频的特征,来看整体数据的分布,也会截取一些人声片段去送标,通过类似的方案,目的是要尽量找到更贴近你的业务场景的一些数据去送标。这里理解音频理解跟合成是不太一样的,对于理解可以引入更多的机器辅助的方式,来尽量去降低人工的成本。合成也有一些机器辅助的手段去应用,可是它本身的主观性是很强的,就是标注的难度相比较高,所以他会去依赖于一些有行业经验的专家来进行测听。标注完了以后,对标注后用于训练模型的数据进行挑选,需要先去校验下标注的质量,通过引入一些质检或者做一些交叉校验的方式来验证。另外可能需要重新去分析,因为标注过程中可能会丢弃掉一些数据,或者说有些数据的特性是标注过程中才标注上。数据回来后,也需要根据这些新的特性,或者说其他特性,重新看一下数据分布是否符合预期。无论是哪种方案,最重要的一点就是快,要尽快在效果可接受的情况下,把这个模型落地到实际的业务里,积累业务场景的数据,把数据闭环给打通。很多时候可能刚开始模型性能都一般般,首先要解决的是0到1的问题,后面是1到100的问题,这两个阶段用的策略是不一样的,就是说不用一开始就能把模型做的非常好,要尽快的落到场景里面,积累场景数据,打通闭环,我觉得这个是更为关键的事情。

蓝海大脑 京ICP备18017748号-1