基于卷积神经网络的方法因其高精度而被应用于越来越多的生产和生活场景。然而,卷积神经网络存在许多权重参数和计算问题。电源要求、有限的计算能力以及不同类型的边缘计算设备限制了这些应用程序的使用。卷积的缺点使得基于GPU的卷积神经网络的跨平台高性能代码执行和优化变得越来越重要。为了扩展神经网络和其他通用矩阵乘法(GEMM)技术,我们提出了一种基于块规模、分支执行、内存访问和计算速率优化技术针对卷积神经网络规模进行优化的GEMM,并将其应用于维诺格拉德算法。将其与算子合并相结合,进一步优化卷积。同时,基于遍历自调优,结合离线编译、内存池、16b量化、网络规模等,选择性能最好的卷积算子。最后在AMD V1605B平台上进行实验验证了该算法的有效性,并通过比较深度学习网络与其他GEMM算法的性能来验证该方法的有效性。它给出了比GEMM 和Winograd 算法更好的结果。具有较高的加速效果,可以有效加速卷积神经网络。
关键词通用矩阵乘法、卷积神经网络、GPU。
近年来,随着卷积神经网络技术的发展,越来越多的算法被应用于各种机器视觉任务,如目标分割、检测、跟踪和识别等[1]。与传统技术相比,它通常可以实现更高的精度,因此广泛应用于各种硬件平台。然而,卷积神经网络通常涉及较高的计算复杂度,这限制了算法在各种平台上的应用。另一方面,硬件使用效率对于进一步优化卷积神经网络的性能非常重要。这种集成工作对于运行卷积神经网络有一定的差异。计算设备架构(Computing Device Architecture)
#以上基于特征选择的工业互联网入侵检测分类方法相关内容来源网络,仅供参考。相关信息请参见官方公告。
原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/93020.html