
面向推理的深度模型量化压缩优化技术研究
发布者:
拟投入资金额:面议
期望达产效益:根据实际情况
发布时间:
有效期:
对接成功:0
申请对接:0
收藏
申请
对接 邀约 洽谈 交易
对接 邀约 洽谈 交易
- 详情描述
需求项目所属阶段:研制阶段
项目需求缘由:新产品开发
意向合作方式:
—详细描述—
现状: 近年来,深度学习模型在CV、NLP等领域实现了广泛应用。然而,庞大的参数规模带来的计算开销、内存需求,使得其在计算能力受限平台的部署中遇到了巨大的困难与挑战。因此,如何在不影响深度学习模型性能的情况下进行模型压缩与加速,成为了行业研究热点。 需解决问题: 优化压缩技术可以减小深度学习模型对于计算时间和存储空间的消耗,减少内存占用。一个神经网络中不同层对量化的敏感度是不一样的,因此应对不同层使用不同的bit-width,然而为每层找寻最优的bit-width是一个组合优化问题,其搜索空间是随着层数的增加指数增加的。在一个训练好的网络基础上,如何找到最优的量化参数是需要解决的关键问题之一;同时,对于量化目标对象,其分布影响着量化的效果,如何让量化目标对象的分布变得更适合量化是需要解决的另一关键问题。 达到的指标: 1、模型压缩优化的量化尺度分析,探索合适的量化参数方法,包括基于统计近似的方法、基于优化的方法和基于可微分的方法,形成三种量化参数方法的分析报告; 2、混合精度量化方案设计,项目需要将推断中的浮点数运算量化为整数运算,最终将权重和激活函数量化为8-bit整数,只有一小部分参数(偏差向量)为32-bit整数,并在训练过程中引入伪量化的操作,用于模拟量化过程带来的误差,以使权值、激活值的分布更加均匀,方差更小。