(原标题:模拟内存狡计开云「中国」Kaiyun官网登录入口,还好吗?)
若是您但愿不错通常碰面,原谅标星储藏哦~
来源:内容来自semiengineering,谢谢。
内存狡计 (In-memory computing,IMC) 的发展之路崎岖,最引东谈主防护的交易化尝试以失败告终。尽管一些公司依然转向数字化,而另一些公司则完满烧毁了这项技巧,但开发东谈主员仍在奋发让模拟 IMC 取得顺利。
对于 IMC(也称为内存狡计,或 CIM)的公正存在不对。有东谈主说,这一切齐是为了减少数据迁徙,而数据迁徙是 AI 能耗的关键构成部分。“把 MAC(乘法/累加电路)放下来很容易,” Synopsys ARC AI 处理器居品司理 Gordon Cooper 说。“为它们提供数据并确保数据高效地流过它们要困珍惜多。”
其他公司则专注于狡计才智,每家公司齐信赖我方开发的居品不错科罚这两个问题中最关键的一个,致使两个问题。关联词,既能减少数据迁徙,又能践诺低功耗 AI 狡计,同期兼顾资本和可制造性的优化电路仍然难以杀青。
Rambus的隆起发明家 Steven Woo 示意:“数据迁徙是要津问题,不管是对于性能照旧功耗而言齐是如斯。世界上并不枯竭数据,尤其是对于这些大型 AI 模子而言,检修集相当庞大。”
当今尚不明晰哪种方法才是科罚这一问题的最好门道,但 IMC 是一种可能的选拔。对于那些不知谈正在进行的难懂创业责任的东谈主来说,这个话题似乎依然归还到计划实验室,何处正在进行无数责任。“我认为咱们还莫得完满走出计划阶段,” Cadence居品营销集团总监 Frank Ferro 说。
事实上,IMC 致使不在大多数瞎想师的眷注范围内。“咱们在客户的网站上莫得看到它,” Quadric谐和独创东谈主兼首席技巧官 Nigel Drego 说。
关联词,新的居品和方法正在尝试改变这一近况。
不啻一种含义
“内存狡计”一词过头变体对不同的公司有不同的含义。当其主张是将数据迁徙保抓在最低限定时,它与“内存”或“近内存”狡计的主见密切关联。在这些情况下,它触及狡计发生位置隔邻的小块 SRAM。使用这种内存仍然需要数据迁徙,但与保存到 DRAM 比较,距离较短。
“内存中”的主见将这一主见进一步发展,并透彻颠覆了这一主见。先前的方法是将内存放在狡计隔邻。IMC 则更多地是将狡计放在内存所在的方位。不同 IMC 之间的一个主要区别是,狡计是在内存阵列里面但在内存单位以外进行,照旧这些单位我方践诺狡计。
另一个区别是狡计的性质——数字或模拟。数字 IMC 通常是那种在通盘阵列中散布着几个数字门的类型。“你将存储单位与践诺乘法的狡计元件和践诺累加的狡计元件交错在沿途,并在整个这些周围扬弃无数其他数字逻辑来践诺整个其他操作,”Axelera 首席践诺官 Fabrizio del Maffeo 示意。
数字 IMC 背后的理念并不复杂——它仅仅将数字算术电路从一个方位迁徙到另一个方位。但这并不虞味着它很容易。构建高效的电路和器具仍需要无数责任。仅仅它不像模拟那样病笃。
模拟狡计平方通过将存储单位视为具有可变内容来践诺,这些内容不错通过感测流过存储单位的电流来测量。字线接受实值。在最著名的杀青类型中,字线和位线交叉处的每个单位本色上将输入电压乘以单位电导率,该电导率由存储的单位值诞生。通过允好多个字线同期处于行为景象,每个相乘电流的总数将成为乘积的遣散总数。位线上的整个单位齐不错并行践诺乘法。
Sagence 策略与业务开发副总裁 Richard Terrill 示意:“(闪存 IMC 科罚决策)基于将数亿个闪存单位扬弃在一个芯片上,以便咱们能够在现场完成整个责任。”
图 1:经典的基于闪存的 IMC 架构。数字输入更正为字线上的模拟电压。与内存不同,多个字线不错同期处于行为景象。位线上的整个单位提供输入电压乘以闪存单位电导率的乘积,该乘积由存储的权重细则。位线上的每个单位左证单位电流孝顺电流,感测放大器将整个这些电流相加以提供积聚。然后必须将遣散数字化并通过其他电路(举例激活函数)发送,然后将其路由回另一层或看成完整遣披发送出去。来源:Bryon Moyer/Semiconductor Engineering
该技巧的一个放荡是它需要整数数据。这对于视觉来说很天然,但基于提神力的收集(举例大型说话模子 (LLM))更频繁使用浮点数据,这使得此类应用设施超出了该架构的范围。
咱们要科罚什么问题?
IMC 所要科罚的问题尚未明确界说或达成一致。天然整个东谈主齐愉快镌汰功耗是最终方针,但存在争议的是主要问题是迁徙数据的资本照旧狡计的资本。
数字方法通常侧重于迁徙数据的资本,因为不管数字电路是在内存阵列里面照旧外部,狡计才智齐大体沟通。这试图科罚内存带宽问题。Cadence 的 Ferro 示意:“咱们每天齐被超大鸿沟狡计需要更多带宽的问题搞得头疼。”
Expedera首席科学家兼谐和独创东谈主 Sharad Chole对此示意愉快。“瓶颈不再是狡计或内存,而是狡计和内存之间的带宽,”他说。
使用数字 IMC,狡计风光不会发生首要变化。“你领有的基本技巧仍然与数字加快器沟通,”Encharge AI 首席践诺官 Naveen Verma 示意。“通过在内存中插入 加法器,你本色上所作念的便是扩大内存,何况所糟践的能量与你在内存外部践诺时所糟践的能量沟通。与规范数字狡计比较,其公正是渐进的。”
也可能莫得一个正确的谜底。相背,它可能取决于正在践诺的模子的性质,尤其是 LLM。Expedera 的 Chole 解释说:“若是你的险峻文长度很小,比如 256 个 token,那么权重就占主导地位。可是若是你生成了 32,000 个 token,那么激活就初始成为关键的部分。若是你的激行为作东导了力量,那么将权重存储在模拟域中的公正将无法对消这少量。”
争论的另一个方面是,将所需的整个权重全部填充到内存中是否可行,这样就无需进一步迁徙。基于闪存的方法宣称具有非易失性的上风,因此权重即使在电源轮回后仍会保留在原位。但这意味着斥地必须适当最大的模子。另一方面,容量跳跃必要会浪费硅,尽管该分析假定瞎想中只须一个模子。“咱们本色上最终存储了多个模子,”Sagence 的 Terrill 说。
其他东谈主则认为,将通盘模子齐存储起来是不切本色致使不可取的,而是选拔在处理进程中更新权重的设施。“IMC 计划依然普通标明,权重不行弥远存储在内存中,”Verma 指出。“原因是不同位的数据触及的操作数目相当不同,若是每个位齐分派一个内存单位,那么一些内存单位将践诺无数操作,而另一些则大部分期间处于安静景象,从而导致硬件诈欺率低。”
若是这种不雅点是正确的,那么 IMC 就无法像东谈主们但愿的那样科罚分量迁徙问题。它还使非易失性存储器变得不切本色,因为编程期间比重写 SRAM 所需的期间毛糙长三个数目级。但 SRAM 是一个大而耗电的单位,这进一步加重了衡量的复杂性。
直到推出这些芯片的各家公司有契机在现场诠释我方之前,这场争论齐不会末端。当今,还莫得一个明确的正确谜底。
模拟的挑战
模拟 IMC 并非清新事物。Mythic 曾试图将基于闪存的模拟 IMC 推理引擎推向商场,但最终失败,因此受到密切眷注。由于使用闪存进行权重存储,它承诺镌汰狡计才智并减少数据迁徙。当今尚不明晰 Mythic 形貌失败的具体原因,但该技巧带来了一些首要挑战。而模拟需要弯曲的衡量。“模拟是功率、速率照旧准确性,”Drego 说。“二选一。”
在经典杀青中,每个闪存单位齐保存通盘权重。INT8 是视觉和卷积神经收集 (CNN) 中较为流行的数据风光之一,但在单个闪存单位中保存 8 位值是一项吃力的任务。而且灵验精度仍然会受到影响。“我还莫得传说过有任何东西能跳跃 4 位灵验精度,”Drego 补充谈。“但在一些小众应用中,这些东西不错相当相当高效。”
图 2:减轻多位单位的读取窗口。单位包含的位越多,分袂越紧密,读取机制必须越奢睿。来源:Bryon Moyer/Semiconductor Engineering
商用闪存单位存储三位数据依然存在多年。四位单位现已成为执行,五位单位正在兴起。但莫得东谈主领有八位单位。这需要极其提神,尤其是若是要跨多个单位、芯片、晶圆和批次以及整个环境条目和老化后责任。执行情况是,东谈主们可能不得不接受较低的精度,从而放荡该技巧的实用性。
老化问题是潜在客户一直眷注的问题。Expedera 营销副总裁 Paul Karazuba 示意:“当我向潜在客户计划模拟居品时,老化是他们不细则怎么处理的问题之一,这通常会吓跑他们。”
令东谈主担忧的是,跟着细胞老化,它们的运作风光将发生变化,从而导致潜在的幻觉,咱们梗概不错称之为“硅老化”。事实上,这种老化的芯片不太可能产生幻觉,即给出可能合理但装假的谜底。东谈主们更有可能得到顺口开河,但这仍然是不可接受的。
除了老化以外,还必须以某种风光摒除制造和环境变化,以便整个芯片齐能正常责任。事实诠释,这极具挑战性,而且这个问题可能是影响畴昔奋发的要津问题。即使莫得变化,模拟从界说上来说也没稀有字那样的噪声裕度。“模拟的问题一直是噪声,”Verma 说谈。
另一个挑战是模拟狡计仅仅加快器操作的一部分。其他函数,如softmax或非线性激活函数,必须在数字域中发生。这意味着在每一层以模拟风光狡计其矩阵乘积后,必须将遣散更正为数字以生成激活,然后必须将其更正回模拟以供下一层使用。Quadric 首席营销官 Steve Roddy 指出:“最终,激活往复流动,最终会变得一团糟。”
在整个这些更正进程中保抓精度需要精准的 DAC 和 ADC,而这些电路会糟践无数能量,从而对消该架构的主要上风之一。
临了一个挑战可能是资本,尽管这还有待不雅察,何况取决于所实施的内存技巧。“若是你正在构建一个带有闪存或 DDR 变体的安稳芯片,你的资本将失色光、海力士和三星高得多,而这些公司的产量高达数以亿计,”Drego 说。
尽管存在这些问题,一家名为 Sagence(隐身模拟推理)的新创业公司照旧推出了一款新的模拟 IMC 居品——从外不雅上看,它与 Mythic 的作念法惊东谈主地相似。另一家尚未负责推出的新公司是 EnCharge AI,它领有特有的传感技巧。
再说一次,若是你仔细不雅察 Sagence 的技巧,你会说它与 Mythic 所作念的近似。闪存阵列?对。校准以处理变化?对。多位闪存单位?对。在感测放大器中进行乞降?对。当今尚不明晰 Mythic 接受了哪种闪存单位,但 Sagence 示意它使用的是已赢得 NOR 竖立许可的规范闪存单位。整个使闪存阵列恰当推理的电路齐位于阵列外部,因此单位面积效能为4F2。
与之前杀青的主要区别在于,该公司在深亚阈值景象下运行闪存阵列。这不错从简几个数目级的功率,电流以纳安的几分之一来测量。但这也带来了一个挑战,因为数学不再是线性的,因此图 1 所示的欧姆定律方法不再适用。
Sagence 通过对数存储权重来科罚这个问题。这意味着闪存单位中的不同级别并不是均匀散播的。数据值越高,它们就越接近。底部部分可能比线性版块更容易检测,但顶部部分将更难区分。更困难的是,在深亚阈值下操作时,合座读取窗口更小。
图 3:线性和对数“间距”之间的相反。左侧,线性方法创建特地的间距。右侧,跟着值变高,间距变窄。(对数分袂不准确。)来源:Bryon Moyer/半导体工程
Sagence 也认为数字和模拟之间的更正必须精准,而且这些更正需要耗能。“若是咱们莫得阿谁 ADC,咱们每次操作的电流糟践将比非 IMC 杀青低三到四个数目级,”Sagence 独创东谈主、总裁兼首席践诺官 Vishal Sarin 示意。“但由于咱们使用精密 ADC,因此耗损了一个数目级。”
关联词,有些应用设施不错以较低的精度责任。“每个单位存储的位数 取决于收集的要求,”Terrill 解释谈。“咱们不错将存储位数擢升到 8。平方更少,因为咱们细则了所需的精度,然后以该量化风光存储。”
另一个令东谈主惊诧的方面是,乘法略有立时性。Sagence 示意,它尽其所能摒除系统错误,但即使它完好地作念到了这少量,小的立时错误仍会存在。立时性本色上使值之间的界限变得舒缓,而在尖端,部分相当褊狭,一些可能会灵验崩溃。
Sagence 示意,这种方法之是以灵验,是因为本色版块将稀有百致使数千个单位沿着每条位线。计议到这些大数字,这样多单位上正负几个百分点的错误将平均达到迷漫的精度。“若是你思要准确地记载某东谈主的银行账户,你就不会作念这种乘法和加法,”Sarin 说。“但对于深度学习来说,这是一个完好的选拔。”
不外,对于任何 AI 科罚决策来说,器具齐是必不可少的,这样用户就不会被复杂性所困扰。Sagence 的编译器在瞎想时就计议到了对数性质,静态地为单位分派权重。
“对于硬件资源识别,一切齐是在编译时完成的,这意味着您无须进行任何运行时养息,”Sagence 居品营销高等总监 Suhas Nayak 解释谈。“模拟量化器进行硬件感知检修、噪声感知检修,并在运行时需要时生成信息以供进一步校准。”这种静态养息的公正是延伸固定且可瞻望。
该公司有多种方法来处理变化、漂移和老化问题。校准处理制造变化,但 Sagence 还监控单位,若是漂移太大,不错选拔重新加载权重。“有一种计量电路不错不雅察闪存单位随期间的变化,若是它们达到咱们无法通过底层电路缓解的进度,咱们不错左证需要重新加载它们,”Terrill 指出。
左证架构,这似乎是一个仅使用整数的科罚决策,这会将其根除在基于提神力的收集以外,但该公司还有其他狡计。“咱们狡计使用专有方法在咱们的 Gen AI 科罚决策中杀青提神力,”Sarin 说。“这是咱们科罚决策的关键构成部分。”
一些探索
EnCharge 在三个主要鸿沟接受了完满不同的方法——存储单位的类型、每个单位存储的位数以及感测遣散的风光。后者是一项首要龙套,因为整个之前的电流感测决策齐因制造和环境条目而有很大相反。在从普林斯顿大学分离出来之前,该公司发现电容器不错存储电荷看成感测机制,而不受任何依赖。
“这种电容器最关键的少量是它不受温度影响,”Verma 解释谈。“它不受材料参数影响。它是完满线性的。它只取决于导线之间的空间。它不错扩张到来源进的节点,因为它们不错让你更好地限度几何阵势。”
该公司已细则,累加需要比乘法更高的精度,而这恰是电容器所提供的。该阵列由 SRAM 单位构成,每个单位存储一位权重。由于 EnCharge 尚未负责推出其技巧,因此仍有好多细节未暴露。要点是 SRAM 单位提供乘法,每个遣散限度一个将电荷置于电容器上的开关。
电容器物理上位于 SRAM 单位上方,位于两层金属之间,因此易于构建且不占用稀薄空间。单个 MAC 的电容器齐集在吞并块板上。然后,相背的电容器板会平均整个这些电荷,从而灵验地提供加法。它是一个模拟值,因此需要 ADC 更正为数字阵势。无需 DAC。
EnCharge 的阵列需要重新加载数据,因为内存是易失性的,而且阵列不够大,无法容纳通盘模子。“为了最大限定地镌汰支出,咱们使用了近似于造谣内存的造谣化架构,”Verma 说。
尽管这种传感方法似乎很新颖,但该公司示意,它已在 ADC 等高精度电路中得到考证。Verma 指出:“它的可靠性、可扩张性、准确性和可制造性已通过这些其他超高精度模拟电路得到考证。”
DRAM 或将加入游戏
在临了一个新思法中,初创公司 Neo Semiconductor 建议了使用其 3D DRAM 的 IMC 决策。“咱们不错在 3D DRAM 阵列中践诺无数狡计,而无需将其发送到 SRAM,”Neo 首席践诺官兼谐和独创东谈主 Andy Hsu 示意。
Neo 的主要开发要点是使用浮体电荷存储而不是电容器的堆叠 3D DRAM。与 EnCharge 相似,每个 DRAM 单位齐包含一个权重位。这标明乘法技巧与 EnCharge 近似,但 Neo 尚未骄慢其怎么处理多位乘法。
关联词,传感风光有所不同。垂直位线承载着经过测量和数字化的模拟电流。它还有一个 ADC,但莫得 DAC。该方法只需使用恰当数目的 DRAM 位(平方对于 INT8 为 8 位)即可径直用于整数数据。该公司示意,浮点单位对于基于提神力的收集是必不可少的,但尚未骄慢其责任旨趣。
Neo 的方针是将 HBM 分为两个阶段。最初,它不错用 3D DRAM 版块替换 HBM 堆栈中的内存芯片,这不错将容量擢升两个数目级。第二阶段将 HBM 基片上的感测放大器电路替换为神经电路。“对于 AI,底部芯片将被替换为 不错 践诺激活功能的芯片,”Hsu 说。
这种技巧的一个可能问题是热量。在 DRAM 中,典型的位线将反应单个单位的值。使用 AI,您不错测量多个单位的电流。HBM 依然濒临热挑战。若是不遴选进一步的缓解设施,进一步加多电流量似乎是值得怀疑的。
Neo 示意,由于其 DRAM 技巧名满世界,其读取电流约为规范 DRAM 典型值的 10%,因此其肇端电流较小。它一次处理 8 位,因此电流应低于规范 DRAM 电流。8 位并未几,但该公司将合座数据分红 8 位组并按规则处理。这种方法可能会影响延伸,但当今尚无具体数字。
这个提议需要更多的考证才能成为执行。Neo 当今的主要要点是其 3D DRAM。东谈主工智能游戏是该公司的另一个思法,本年刚刚暴露。但当今它仍处于主见阶段。
模拟 IMC 又活了一天
东谈主们依然蹙迫期待了多年,好多东谈主彰着认为它还未准备好接待黄金时段。这是一个熟习的大学计划课题,好多不知谈行将推出的东谈主依然深信,要让它推崇作用,需要进行一些首要改变。
Sagence 的技巧试图顺从依然走过的谈路,同期幸免先前的陷坑。EnCharge AI 专注于用于感测积聚的电容器。Neo 的 DRAM 思法太新,无法细则它是否能取得交易顺利。来岁应该有契机望望前两者是否能取得进展。若是莫得,就回到计划实验室。
关联词,若是其中一种或两种方法齐能成效,那么将为推理成立一个新的低功耗规范。西门子 EDA 高等空洞部门形貌总监 Russ Klein 示意:“无需迁徙所稀有据和IMC承诺的并行性所带来的节能后果将不仅对东谈主工智能产生巨大影响,而且对任安在大型数据阵列上进行的狡计也会产生巨大影响。”
咱们还将提供硬数据来骄慢对于数据迁徙才智与狡计才智的哪种表面是正确的。
https://semiengineering.com/is-in-memory-compute-still-alive/
半导体佳构公众号保举
专注半导体鸿沟更多原创内容
眷注人人半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支柱,若是有任何异议,原谅关联半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3976期内容,原谅眷注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”共享给小伙伴哦