在深度学习大规模分布式训练过程中,如何做到高性能计算和通信重叠?

无监督学习是想学习的东西是没有supervise的,元学习是MAML,在元学习里面,训练一个network去解各式各样的task,在不断解复杂task之后可以比较好解新task的能力。在训练时是训练影像转换纹路,转换任意两个不同training data的类的image。如training data类里面有110种动物,随便sample一个当content,另外一个当target task,把content转换成target task,不断的训练network,最后达到这个效果。跟MAML的概念很像,但是不一样的地方就是MAML它要解一个新的task,它还是要再做一些training。


蓝海大脑元数据服务器的设计包括两大点,一个是元数据本身的高可用,另一个是元数据服务器实例的高可用。元数据层面的高可用主要是通过外围组件比如etcd集群,或者自身底层存储实现冗余存储,并依赖其数据一致性方案。对于实例层面的高可用其实主要是实现故障探测和服务切换两方面,这两方面的实现会牵涉到集群抖动和脑裂的处理,这些其实是在实现mds高可用时都需要考虑的。

蓝海大脑 京ICP备18017748号-1