首页 软硬需一同抓,搭载清华最新深度学习编译研究成果的芯片已商用

软硬需一同抓,搭载清华最新深度学习编译研究成果的芯片已商用

2016年,榜首颗根据可重构核算的人工智能芯片诞生于清华。该效果曾宣布在《IEEE固态电路期刊》,《麻省理工科技谈论》也报导过该芯片。这是清华可重构核算实验室“十年磨一剑”的效果。2006年起,清华开…

2016 年,榜首颗根据可重构核算的人工智能芯片诞生于清华。该效果曾宣布在《IEEE 固态电路期刊》,《麻省理工科技谈论》也报导过该芯片。

这是清华可重构核算实验室 “十年磨一剑” 的效果。2006 年起,清华开端研讨可重构核算并树立实验室。

2018 年,该实验室开端走向产品化,并树立清微智能公司。两年来,公司已在语音辨认、视觉辨认等范畴研宣布规模化使用产品,并和阿里巴巴等互联网巨子树立协作。现在,清微智能将最新技能运用于 AI 编译东西链中,并服务于其量产芯片 TX5 系列中,经过编译优化,全球首款多模态智能核算芯片 TX510 用于人脸辨认时,其处理速度能够进步一倍。

DeepTech 近来联系到清微智能首席科学家、清华大学微电子与纳电子学系教授尹首一,就该公司的首要产品、和他自己近来以通讯作者宣布的新论文进行了深度沟通。

图 | 尹首一在 2018 年阿里巴巴云栖大会上

自 2018 年以来,清微智能针对终端产品的语音和视觉两大使用场景,量产出货两款芯片产品:超低功耗的智能语音 SoC 芯片 TX210,已使用至多款 TWS 耳机、电子产品及多种智能家居产品中;TX510 芯片于 2020 年 7 月完结量产,在金融付出、智能安防、工业机器人、航空等范畴也已分批革除客户,出货量已超十万片,并承当多个国家重大项目的建造。

图|TX 510 使用范畴

以清微智能的 TX510 智能视觉芯片系列为例,该芯片的休眠功耗为 10uW、支撑中止唤醒,冷启动下的人脸检测辨认时刻小于 100ms,典型作业功耗为 350mW,算力达 1.2T (Int8)/9.6T (Binary),AI 有用能效比达 5.6TOPS/W。

图 | TX510 芯片

TX510 还具有可重构 AI 引擎,其支撑 AlexNet、GoogleNet、ResNet、VGG、Faster-RCNN、YOLO、SSD、FCN 和 SegNet 等干流神经网络,可完结人脸辨认、物体辨认和手势辨认等功用,适用于 AIoT、智能安防、智能家居、智能穿戴、智能制作等范畴。

TX510 内置 3D 引擎,支撑 3D 结构光、TOF和立体视觉,误识率千万分之一的情况下辨认率大于 90%。

在接口方面,TX510 支撑市面上干流的视频接口、存储接口和通用接口,可确保产品兼容性。

虽然从硬件层面芯片功用现已取得了较大前进,但尹首一独爱 DeepTech,业界历来有一个一致,光有芯片架构还不行,编译东西和开发东西等软硬件体系也有必要做好。不然,很难彻底把硬件功用的优势发挥出来。

在软件上面,其团队现已有新进展。

做芯片要软硬结合

在近来的第 16 届 ACM/IEEE 世界嵌入式体系会议 上,清华微电子所魏少军、尹首一教授团队的论文《面向神经网络处理器的非规矩网络结构高效调度技能》(“Efficient Scheduling of Irregular Network Structures on CNN Accelerators”) 取得最佳论文奖。

尹首一表明,这是世界完结单位初次在 AI 编译优化范畴取得世界学术会议最佳论文奖。该研讨效果填补了大规模、非规矩神经网络编译映射这一技能空白,可大幅进步神经网络处理器的核算功用。

该效果处理的痛点在于,跟着 AI 算法的不断遍及,以 AIoT 为代表的嵌入式体系使用,给 AI 芯片的功用、功耗、本钱、可靠性和可编程性等提出了严厉且火急的需求。为此,根据可重构架构、专用指令集架构、存内核算架构等技能的神经网络处理器应运而生。

比较 CPU/GPU 等传统架构,神经网络处理器可将 AI 算法的核算能效进步 1~2 个数量级,现在其已在移动设备、可穿戴设备、智能传感器等使用场景中取得广泛的使用。

可是,神经网络处理器的使用离不开编译器的支撑,编译器一方面完结了 AI 使用到芯片的主动化布置,另一方面经过优化算法到芯片架构的适配,能为 AI 使用的履行功率带来大幅进步。

当架构规划经过工艺制作并固化为硬件电路后,硬件电路的运算行为则由编译器所生成的机器码来指挥,履行速度和能量开支也将因此而确认。因此,编译器的优化程度是研制 AI 芯片的关键所在。

可是,其时最先进的神经网络模型,依旧具有不行猜测的非规矩网络拓扑结构,在编译层面表现为扑朔迷离的数据流图、和呈指数增加的解空间,而这给编译器中的表达式优化、算子调度、资源分配、循环优化、主动代码生成等关键技能环节带来严峻应战。

现有的深度学习编译结构,如 TVM、TensorRT 等仅针对网络中的某些特定形式进行优化,它们没有处理恣意结构的才干,因此未能有用处理上述难题。

针对上述问题,魏少军、尹首一团队在本次研讨中,研宣布支撑恣意网络拓扑结构的端到端深度学习编译结构,比较同类编译映射办法完结了 1.41-2.61 倍的核算加快。

图|支撑恣意网络拓扑结构的端到端深度学习编译结构

具体来说,本次编译结构有三大立异性技能奉献点。

榜首, 针对结构杂乱的数据流图,提出了根据核算节点深度聚类的编译办法,该办法可对图结构进行杂乱度降维和查找途径生成,然后可求解到具有大局最优特性的图调度计划,在硬件处理器上表现为多级存储体系间的数据传输开支、与额定核算开支之间的最佳平衡,即推理核算功用到达最优;

第二,针对非规矩网络结构导致的解空间指数增加,提出了一种根据回溯查找和参数匹配的启发式资源分配办法,并对神经网络根本算子在时空域上的散布进行联合优化,然后完结硬件层面上处理器缓存资源利用率最大化;

第三,针对新式网络结构的循环优化问题,该团队推导得出最小循环改换粒度,并在编译结构中树立了最优阵列映射机制,使得嵌套循环的运算与核算资源到达最优匹配。

由于该编译结构的优化办法具有通用性,因此它也能用于专用神经网络处理器以外的其他架构。

关于研讨该问题的初衷,尹首一表明,这来自该团队亲身经历的痛点。曩昔,在开发神经网络处理器时,人们往往只考虑到处理单元阵列的搭建和底层的数据复用等问题。而关于神经网络算法编译,由于其时的模型结构简略、调度空间有限,只是选用惯例编译优化就已满足。

可是,在面临近年来根据神经架构查找等办法所生成的杂乱网络结构时,之前的规划范式不再能供给具有挨近最优功用的处理计划,然后大大限制了算力的发挥。因此该团队认识到,有必要要有针对性的软件编译东西,才干对新式 AI 使用进行充沛的优化和加快。

尹首一独爱 DeepTech,在编译方面他们并非 “新人”。他和团队十多年来一向研讨通用可重构处理器编译问题,已具有较为深沉的研讨根底,因此在面临神经网络编译这一新问题时,能敏捷掌握问题实质,然后得以快速完结研讨。

据他介绍,现在由其担任首席科学家的清微智能,现已将该论文的技能创造运用在 AI 编译东西链中,并已服务于量产芯片 TX5 系列中。对终端客户而言,这意味着可用相同的费用买到更多的算力。例如,经过编译优化,TX510 芯片用于人脸辨认时,其处理速度能够进步一倍。

现在,清微智能的 AI 编译东西链还在不断晋级优化中,旨在使实践运转中的神经网络处理器迫临其理论算力上限。

AI 芯片公司应 “软硬” 结合

尹首一以为,和全部草创公司相同,AI 芯片企业要想构建成功的商业形式,在市场竞赛中站稳脚跟,就得厚实详尽地研讨客户实践需求。

其时,AI 芯片的客户多数是整机和使用开发相关企业,这类客户首要面向算法和使用来开发神经网络模型,他们急需的是将生成的模型、快捷高效地在硬件设备进步行布置,因此他们不太关怀硬件的底层架构和编译细节。

可是,芯片公司光有先进的硬件和架构是不行的,由于这无法让客户快速用起来,也无法将硬件算力转化为可观的核算功用。这时,AI 芯片公司就得供给软硬件全栈式处理计划。参照英伟达在图形加快范畴的成功经验,有两点值得其他公司学习:其一是先进的 GPU 硬件架构,其二则是 GPU 开发东西链的老练和完善。

现在,尹首一把首要精力会集在前沿研讨上,这些研讨效果不断支撑着产品的竞赛优势。以清微智能 AI 编译东西链为例,它集成了模型主动量化、定点练习、通用算法核算和网络调度映射等多方面的先进技能,可高效处理神经网络和及其他 AI 算法,而且兼容干流的深度学习结构,因此完结了从使用算法、到可重构核算硬件的端到端布置。

经过这套 AI 东西链,开发者可在不改动编程习气的情况下,快速高效地布置 AI 算法。以现已量产出货的视觉智能芯片 TX510 为例,开发者能够只是经过调用功用级 API,就完结包含剪枝参数和权值位宽参数在内的最优模型紧缩战略,以及包含数据流图优化、算子时空域映射在内的最优调度成果。

尹首一最终总结到,和操作体系相同,编译器也是中心根底软件,它是全部可编程芯片的魂灵,应当遭到国内公司的更多注重。做 AI 芯片的公司,应当从开发伊始就对软硬件两方面的技能道路进行充散布局,这样才干走得更远。

本文来自网络,不代表本站立场。转载请注明出处: https://www.lifedancedistribution.com/news/20220627/7167.html
上一篇
下一篇

发表评论