日本曾经有这个历史机会超越这一切,但他们压根儿就没想过要做这些事情。历史不会是碰运气,一个民族的历史机遇同样只垂青于有准备的头脑。
以常用的 Type3 为例,一个完整的量化流程分为三阶段:(1)以一个训练完毕的浮点模型(称为 Float 模型)为起点;(2)包含假量化算子的用浮点操作来模拟量化过程的新模型(Quantized-Float 模型或 QFloat 模型);(3)可以直接在终端设备上运行的模型(Quantized 模型,简称 Q 模型)。
近年来随着边缘计算和物联网的兴起与发展,许多移动终端(比如手机)成为了深度学习应用的承载平台,甚至出现了各式各样专用的神经网络计算芯片。由于这些设备往往对计算资源和能耗有较大限制,因此在高性能服务器上训练得到的神经网络模型需要进行裁剪以缩小内存占用、提升计算速度后,才能较好地在这些平台上运行。