在训练ImageNet比赛中,腾讯云用128卡创下了业界新记录——
2分31秒训练128万张图片
平均一秒训练大约23751张照片,不管是人是花还是小动物,都“看”得明明白白。
开发团队来自腾讯云智能钛团队、腾讯机智团队、腾讯云计算产品团队、腾讯优图实验室以及香港浸会大学计算机科学系褚晓文教授团队。
ImageNet
大型图像数据集,由学者李飞飞设立,拥有超过上千万张图片。每年 ImageNet 项目组织都会举办ImageNet 大规模视觉识别竞赛,是该领域最重要的赛事之一。
ImageNet赛制简单。训练图片数据库128万张图片,在保证准确率的前提下,看谁更快。硬件设施、网络状况、算法,厂商可自由搭配。
更快、更强、更准确
腾讯自研的Light大规模分布式多机多卡训练框架,速度快、扩展性强、准确性高。
在2分31秒内,该框架训练了 ImageNet 28个epoch,也就是说把128万张照片训练了28遍,TOP5精度达到了93%。以前最好成绩为2分38秒。
如果网络改为RoCE,还可以更快,2分2秒就能训练 ImageNet 28个epoch。
自研算法,速度更快
用AI训练大规模图片,往往需要多台服务器协作加快速度。服务器之间“交流”的速度就很关键了。
腾讯云自研的层级Topk压缩通信算法,可以在一个安装8张GPU的服务器中,对每张卡原梯度八分之一大小的数据块进行压缩,并行传输,减少数据压缩时间,同时减少传输数据量,提升带宽利用率。
用上这个技术,美颜、鉴黄、人脸门禁、刷脸支付……AI应用开发算法速度会变得更快,开发成本更低,受硬件设施、网络状况的限制更少。