首页 » 软件优化 » Tenstorrent推出基于RISC-V架构的高性能AI芯片(芯片加速卡高性能架构工作站)

Tenstorrent推出基于RISC-V架构的高性能AI芯片(芯片加速卡高性能架构工作站)

神尊大人 2024-11-26 23:04:49 0

扫一扫用手机浏览

文章目录 [+]

Tenstorrent 首席执行官 Jim Keller 表示:“将更多产品交到开发人员手中总是有益的。
使用我们的 Wormhole 卡发布开发系统有助于开发人员扩大规模并开发多芯片 AI 软件
除了这次发布之外,我们很高兴我们的第二代 Blackhole 的流片和通电进展非常顺利。

据介绍,Wormhole n150采用 Tenstorrent 自研的灵活、可扩展的Wormhole Tensix 人工智能计算内核,拥有72核心和 108 MB SRAM,主频为1GHz,运行功率高达 160W,可以提供262 TeraFLOPs (FP8)的算力。
单芯片卡配备了 12 GB GDDR6 内存,带宽为 288 GB/s。

需要指出的是,Tenstorrent 的每一个Tensix 人工智能计算内核内部都集成了 5 个支持各种数据格式的基于 RISC-V 架构的微处理器。

Tenstorrent推出基于RISC-V架构的高性能AI芯片(芯片加速卡高性能架构工作站) 软件优化
(图片来自网络侵删)

Tenstorrent称,与传统 GPU 相比,Wormhole n150提供卓越的性价比和广泛的数据精度格式支持。
同时,还可以联网成工作站和服务器的多芯片网格,并由两个开源SDK支持,用于高级(TT-Buda)或低级(TT-Metalium)开发,还包括主动冷却套件。

Wormhole n300 就是由两颗Wormhole n150芯片组成的PCIe加速卡,拥有128 个Wormhole Tensix 核心,主频1GHz,192 MB SRAM,以及板载24 GB GDDR6,频率为 576 GB/s,可以在300W 下提供高达 466 FP8 TFLOPS的算力。
软件配套方面与Wormhole n150s一致。

Tenstorrent 还推出了新的工作站,包括 TT-QuietBox和TT-LoudBox。

TT-QuietBox 是一款液冷桌面工作站,是面向运行或测试 AI 模型的开发人员的绝佳解决方案,或者是为 HPC 移植和开发库的绝佳解决方案。
TT-QuietBox 配备了AMD 的 EPYC 处理器和四张Wormhole n300加速卡,总共有 8 个 Wormhole Tensix 处理器。
这些处理器通过灵活的、基于以太网的网状拓扑连接,该拓扑可以扩展以实现 96GB 内存池。
这使得TT-QuietBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。
TT-QuietBox 也由两个开源 SDK 支持,用于高级 (TT-Buda) 或低级 (TT-Metalium) 开发。

TT-LoudBox 主要为希望运行、测试和开发 AI 模型或移植和开发 HPC 库的开发人员提供卓越的性价比的解决方案。
其配备了英特尔的Xeon处理器,和备四张Wormhole n300加速卡,总共有 8 个 Wormhole Tensix 处理器,这种基于以太网的灵活网状拓扑结构可以扩展以实现 96GB 内存池。
这使得TT-LoudBox能够运行多达约800亿个参数的单用户/单模型和多达约200亿个参数的单用户/多用户、多个模型。
TT-LoudBox 也由两个开源 SDK 支持,用于高级 (TT-Buda) 或低级 (TT-Metalium) 开发。

定价方面,Tenstorrent 的 Wormhole n150 零售价为 999 美元,Wormhole n150零售价为1,399 美元,这个价格要比市场竞争对手的产品的便宜得多。
TT-LoudBox 工作站零售价为 6,000 美元,而 TT-QuietBox 工作站的零售价为 15,000 美元。

小结:

从上面的介绍当中,我们可以看到,虽然Tenstorrent的Wormhole n150芯片的算力并不高,与英伟达、AMD、英特尔的AI芯片仍有一定差距。
作为对比,英伟达的H100在300W功率时其FP8的性能高达 1,670 TFLOPS(稀疏时为 3,341 TFLOPS),远高于160W功率下的Wormhole n150(262 TeraFLOPs ),也高于300W 功率下的Wormhole n300加速卡的算力(466 FP8 TFLOPS)。

虽然从纸面上看,Wormhole 系列AI芯片及加速卡性能不高,但 Tenstorrent 计划通过提供巨大的可扩展性来使其 AI 产品具有竞争力。
这意味着当需要统一电源时,多个Wormhole 处理器可以作为一个单元运行,或者它们也可以单独使用,这一切都是因为使用了以太网互连,这是也是Jim Keller高度赞赏的。
也就是说,要达到类似英伟达H100的算力,可能需要4张Wormhole n300加速卡互联就可以办到。

并且,在价格方面,一张英伟达H100 加速卡的零售价高达 30,000 美元,而Wormhole n150的零售价仅为 999 美元,4张Wormhole n300加速卡的零售价也只有不到4000美元,仅为H100的约1/8。

Jim Keller此前也曾批评英伟达等公司的人工智能芯片昂贵,显然Tenstorrent正是希望提供更具性价比的解决方案。

而Wormhole AI芯片之所以能够做到具备更高的性价比,一个关键原因是因为其并未像英伟达、AMD、英特尔的AI芯片那样配备的大容量的HBM(高带宽内存),这是这些AI芯片关键组件,但是其成本高昂,并且功耗较高。
而Wormhole AI芯片则是与Groq的LPU芯片一样,选择采用了高带宽的片上SRAM,虽然其容量与常见的AI芯片中动辄几十GB、甚至上百GB容量的HBM差距巨大,但由于其直接是在集成在片内的,无需将数据从GPU到HBM来回搬运,数据处理速度更快、更高效、功耗也较低,综合成本也更低。

Jim Keller认为,全新方式可让Tenstorrent芯片在部分AI应用领域取代GPU及HBM。
此外,Tenstorrent也会尽量提升产品成本效益。
不过,Jim Keller也坦言想要动摇目前规模日益庞大的HBM产业,恐怕需要花上数年时间。
他预测,未来将有更多新兴AI芯片公司进入英伟达目前还无法服务到的AI市场,但不是出现单独一家完全取代英伟达的企业。

编辑:芯智讯-浪客剑

相关文章