存算一体芯片带来的创新和惊喜有哪些_运营管理领域_乐鱼官网-乐鱼官网入口网页版-乐鱼官网平台入口

乐鱼官网入口网页版

存算一体芯片带来的创新和惊喜有哪些发布时间: 2024-09-17 来源：运营管理领域

近年来，随着AI应用场景的爆炸式增长，AI算法对计算能力的需求飞速增加，其上涨的速度远超于摩尔定律所预测的硬件性能提升。传统计算机芯片在计算资源、处理延迟和功耗等方面的局限性逐渐显现，难以满足高度并行化的AI计算需求。在智能芯片领域，传统的冯-诺依曼架构侧重于计算，处理器和存储器的物理分离导致大量数据频繁迁移，进一步限制了人工智能电路的整体性能。因此，传统芯片架构面临着内存墙、功耗墙和算力墙等严重问题，难以满足AI应用在低延迟、高能效和高扩展性方面的迫切需求。

针对这一问题，业界开发了一种名为存储和账户的解决方案。究竟什么是存储墙、电源墙和翻译墙？什么是一体化芯片，它怎么样才能解决这样一些问题？一体化技术的出现给业界带来了哪些惊喜？芯片开发的三大障碍首先，有必要了解什么是挡土墙。内存墙是指内存性能严重限制 CPU 性能的一种现象。在过去 20 年中，CPU 性能以每年约 55% 的速度迅速增加，而内存性能每年仅增长约 10%。由于长期发展速度不均衡，目前内存的利用率已远远落后于 CPU 的运算速度，内存瓶颈阻碍了高性能处理器充分的发挥作用，成为高性能计算发展的一大制约因素。这种严重影响CPU性能的内存瓶颈被称为内存墙。存储计算机的剪刀差来源：存储计算机的剪刀差：OneFlow，艾讯泰克研究中心除了存储墙问题，还有流量墙问题，即在数据传输过程中会消耗大量能量，从而大幅度的降低芯片的能效。造成电源问题的根本原因是，随着计算机系统对内存带宽的要求慢慢的升高，并努力追求更高的容量和访问加载速度，传统 DRAM 和别的类型内存

的功耗飞速增加，最终达到收益递减点，无法通过简单地增加电源预算来解决。部分原因是数据一定要通过多级存储层次结构（包括 L1、L2 和 L3 高速缓存）从 DRAM 传输到 CPU。在某些情况下，将单个数据从 DRAM 传输到 CPU 所需的能量要比在 CPU 上处理该数据所需的能量高出几个数量级，甚至几个数量级。英特尔的研究表明，当半导体工艺达到 7 纳米时，数据处理功耗会上升到每比特 35 pJ，占总功耗的 63.7%。数据传输造成的功耗增加，限制了芯片开发的速度和效率。两者都存在编译墙问题，因为当编译器在极短的时间内处理大量数据时，不可能以静态可预测的方式优化运算符、函数、程序或整个网络，而手动优化又非常耗时。在过去，这三座大山的缺陷能够最终靠先进的工艺创新快速提高计算能力来弥补。然而，残酷的现实是，摩尔定律随着物理极限、HBM、3D DRAM、更好的互连和其他传统方式而逐渐失效，而工艺技术的改进在过去几十年中一直在改善芯片的老算术问题，但解决方案也是治标不治本，晶体管小型化越来越难以提高算术性能并降低功耗。随着大规模建模时代的到来，信息技术的普及无疑加大了三

面墙的影响。部署综合存储和会计技术是应对这些挑战的有效办法。股票和账户的结合会带来什么惊喜？从存储与计算一体化技术的原理来看，存储与计算一体化的实质是将存储功能与计算功能集成在同一电路中，直接利用存储设备做数据处理。经过仔细修改存储计算机结构中的读取电路，可以从读取电路中获取计算结果，并将计算结果直接写入存储器中的目标地址，从而省去了处理设备和存储设备之间频繁的数据传输。经过仔细修改存储计算机架构的读取电路，可从读取电路中获取运算结果，并将结果直接写入存储器中的目标地址，从而无需在处理设备和存储设备之间频繁传输数据，消除了数据传输开销，大幅度的降低了功耗，并极大地提高了处理效率。这样就无需在处理设备和存储设备之间频繁传输数据，大幅度的降低了功耗，提高了处理效率。因此，集成存储计算技术能有效消除冯-诺依曼架构的瓶颈。在实际应用中，组合存储和计算技术能带来哪些性能优势？存储计算机芯片在某些领域能够给大家提供更高的计算能力（1000 TOPS 或更高）和更好的能效（10-100 TOPS/W 或更高），这一点明显优于传统的 ASIC 芯片。CCS 技术还能够最终靠在逻辑计算中使用存储设备来提高计算能力

，这相当于在同一区域内增加了计算内核的数量。在能耗管理方面，统一存储和处理可以将能耗降低到原来的十分之一到百分之一，因为它减少了不必要的数据处理，提高了数据处理效率，降低了能耗；统一存储和处理自然会带来更好的成本效益。综合存储和计量技术的分类根据存储和计算之间的接近程度，常见的存储和计算解决方案可分为三大类：近内存处理（PNM）、内存处理（PIM）和内存计算（CIM）。近内存计算是一条更为成熟的技术路线。利用先进的压缩技术将逻辑运算芯片和内存封装在一起，缩短内存和处理器之间的路径，以此来实现高 I/O 密度，带来高内存带宽和低访问成本。近内存计算主要是通过 2.5D 和 3D 堆叠技术实现，并大范围的应用于不一样的处理器和显卡。另一方面，存量处理主要侧重于尽可能将计算过程嵌入内存。这种实现方式旨在降低处理器的内存使用率，因为大部分计算已经在内存中进行。这种设计有助于克服冯-诺依曼瓶颈带来的问题，提高计算速度和效率。存储计算是另一种将数据处理和存储结合到单一设备中的技术。主要有两种思路。第一种想法是通过芯片创新，使内存本身就具有可计算性。通常，这涉及修改 SRAM 或 MRAM 等存储器，以便在有读取数据的解码器的地方执行计算功能。这种方法通常更节能，但可能会限制计算精度。其中，本地存储计算机和存储计算机是实现统一存储计算技术最常见的途径。大型制造商需要一种既实用又能快速实现的集成计算架构，由于近内存计算是最接近的技术，因此成为大型制造商的首选。近内存计算的代表包括 AMD 的 Zen 系列处理器，而 Mythic、奇力软件、闪盈、知乎、九天瑞芯等国内初创企业则专注于存储计算，并未考虑先进的计算技术。三种主要存储介质存储器集成计算机芯片上主要有两种存储介质。一种是易失性存储器，如 SRAM 和 DRAM，在系统正常关闭或突然或意外关闭时会丢失数据。第二类是非易失性存储器，包括在上面讲述的情况下不会丢失数据的传统闪存、NOR 闪存和 NAND 闪存，以及新型存储器，如电阻式 RRAM (ReRAM)、磁性 MRAM、铁电 FRAM (FeRAM) 和相变存储器 PCRAM (PCM)。如何明智的选择正确的技术路线，这些技术路线的特点、障碍和优势是什么？就设备成熟度而言，SRAM、DRAM 和闪存都是成熟的存储技术。闪存是一种非易失性存储器件，通常具有成本低的优势，适用于低计算能力场景。DRAM 具有成本低、容量大的特点，但现有的 eDRAM IP 核心处理器节点不成熟，读取延迟高，数据需要定期更新；SRAM 具有极大的速度优势，能效接近最高，容量密度略低，精度更好后能够给大家提供更高的精度。精度高，可大范围的应用于云计算等大功率计算场景。在工艺技术方面，SRAM 可采用 5 纳米等先进工艺生产，而 DRAM 和闪存可采用 10-20 纳米工艺生产。根据芯片设计的难易程度，店内计算可分为：店内计算 DRAM；店内计算 SRAM；店内计算闪存。就店内计算而言，SRAM 和 DRAM 的设计难度较大，它们属于易失性存储器，其工艺偏差大幅度提升了模拟计算的设计难度；闪存属于非易失性存储器，其状态可以连续编程，能够对编程工艺偏差等进行补偿，来提升精度。准存储器计算的设计相对简单，可通过成熟的存储器技术和逻辑电路设计技术来实现。除了成熟的存储技术，学者们也更加关注在神经网络计算中采用很多类型的 RRAM。RRAM 可通过电阻调制来存储数据，读取电流信号而不是传统的负载信号，并且具有更加好的线性电阻特性。然而，RRAM 工艺仍处于起步阶段，仍面临着非易失性存储器固有的可靠性问题，因此仍大多数都用在计算能力较低端的低功耗计算和边缘的AI计算。存储和计算芯片的应用场景有哪些？低计算能力方案：成本、功耗、延迟和开发难度对外围设备非常敏感。(来源:(来源:(来源:(来源:(来源:(来源:(来源:(来源:(来源:(来源:最初，未解决语音类、健康类和低功耗视觉终端的应用场景，解决AI计算芯片的性能和功耗问题，单个芯片的算力存储和计算量都很小，从1TOPS以上的小算力开始，作为AIoT应用。众所周知，分散的人工智能物联网市场对高端处理芯片的需求不大，而更青睐轻量级、低成本、低功耗的芯片。Storage Compute All-in-One 正是满足这些要求的理想芯片。首先，组合存储和处理技术能减少存储和处理设备之间的数据传输量，从而大幅度降低能耗。例如，传统架构在传输大量数据时会消耗大量能源，而统一的存储和处理架构可避免这种不必要的能源消耗，从而使电池供电的物联网设备等能够运行更长时间。其次，统一存储计算技术能通过减少数据传输和提高集成度来降低芯片生产所带来的成本。对于可以大规模部署的人工智能物联网设备来说，成本的降低能够在一定程度上促进更多应用的部署。集成内存可使计算机芯片提高运算速度并节约空间，这是改善人工智能物联网应用的两个重要的条件。高性能计算场景：图形卡在功耗和能效方面无法与特定的加速芯片竞争。在云计算市场中，GPU 的个性化架构已经不能适应不一样人工智能处理场景中算法的个性特点，如图像、推荐和 NLP 领域，都有自己的算法通用架构。随着集成存储芯片计算能力的逐步的提升，其使用范围正逐步扩展到具有大规模计算能力的应用领域。针对高计算能力的应用场景，100TOPS 可为无人车、仪表盘机器人、智能驾驶和云计算提供高性能的大规模计算能力和超高的性价比的产品。存储芯片还有别的更广泛的用途，如认知计算和类脑计算。与国家存储和会计一体化有关的技术流程传统轴承的国际制造商认识到这一技术的巨大潜力，热情地进入了这一行业。在国际上，三星开创了多种技术途径，如推出全新的 HBM-PIM（店内计算）芯片，以及全球首个基于 MRAM（磁性随机存取存储器）的店内计算实验。在 ISSCC 2021 大会上，台积电提出了基于数字增强 SRAM 存储器设计的店内计算解决方案。英特尔提出近内存计算战略也有一段时间了，即在存储层次中移动数据，使其更接近处理单元进行计算。国内方面，单芯片企业的存储和计算也在扎堆，并将在2021年后逐步实现量产和产业化。最早成立的公司正在尝试实现闪存易、新型存储技术、苹果核心存储技术等较为成熟的技术，而其他公司则在关注物联网、可穿戴设备、智能家居等方面的低功耗计算场景。随技术和应用的不断成熟，近年来成立的初创企业敢于尝试高计算能力和新技术的应用。例如，易播科技和千芯科技专注于人工智能的高计算能力应用场景，如大规模建模和无人驾驶。冀坤科技成功量产全球首款基于模拟闪存的低功耗计算机芯片 WTM2101，该芯片能以极低功耗执行大规模深度学习计算，大范围的应用于智能语音控制、智能健康可穿戴设备等场景。该芯片推出不到一年，出货量已达 100 万颗。近日，AppleSeed 推出了 28nm 和 22nm PimChip-N300 节点，集成了用于存储计算的 NPU，以及支持智能可穿戴设备、智能数据安全、大规模 AI 模型、医疗数据分析等领域的 PimChip-S300 多模智能传感芯片，专门支持AI和加速大规模模式推理等计算任务。在大数据算力方面，赫马智能成功推出国内首款AI一体机存储计算芯片赫马鸿图H30，物理算力256TOPS，成功推出国内首款AI一体机存储计算芯片大数据算力；H30已开始向alpha客户提供测试，第二代H50正在研发中，将于2024年推出，2025年可支持量产机型。准备中。去年，EverFoundry 还发布了基于 ReRAM 的高精度、低功耗、高功率 PoC 芯片，用于人工智能，并集成了存储和计算技术。EverFoundry 还开始设计基于超异构芯片概念的下一代芯片，该芯片集成了存储和计算技术。随技术的持续不断的发展和应用场景范围的逐步扩大，店内计算机的作用在未来将慢慢的变重要，并将推动新算术时代的发展。然而，零售业计数技术仍然面临着许多挑战和问题。例如，零售业计数设备的研发必须克服重大技术难题，提高性能和稳定能力；同时，零售业计数系统的设计和优化必须最大限度地考虑实际应用需求，提高系统的可扩展性和灵活性。集成存储和计算芯片大规模落地的时间尚不明确，但我们一定要期待这一天的到来。技术进步不会停止，市场需求会发生明显的变化，当一切条件成熟时，存储和数据芯片将大放异彩。#深度好文计划#

下一篇:AI大模型、智能算力、数据要素——三个关键词看联通数科创新布局