新智元新智元  2021-08-26 20:17 热点新闻资讯 隐藏边栏  10 
文章评分 0 次,平均分 0.0

来源:wired

编辑:yaxin su Catherine

【新智元导读】突触是神经网络的「桥梁」。今日,Cerebras 宣布世界首个「大脑级」AI 集群,能够训练120万亿参数模型,击败人脑百万亿个突触!

突触,是神经网络的「桥梁」。

人类大脑有大约 100 万亿个突触,860 亿个神经元。

因为有了突触,才可以把神经元的电信号传递到下一神经元。

而现在,Cerebras 宣布了「第一个大脑级 AI 解决方案」!

一个可以支持 120 万亿参数 AI 模型的单一系统,击败了人脑万亿个突触。

相比之下,最大的AI硬件集群大约占人类大脑规模的 1%,约 1 万亿个突触(参数)。

Cerebras 可以通过单个CS-2系统(85万个内核)实现首创!

世界第一!192个AI集群,解锁万亿参数模型

参数越多,人工智能模型就越复杂。

谷歌在短短2年内将模型参数的数量提高了大约1000倍。

参数的数量,所需的算力,都呈指数级增长。

Cerebras 的创始人兼首席执行官Andrew Feldman表示,最新的处理器如此强大的原因就是,在晶片上打造而不是单个芯片上。

192个 CS-2 集中在一起,将使最大的人工智能神经网络的规模扩大100倍。

Cerebras系统由其第二代晶圆WSE-2提供动力。

WSE-2 有2.6万亿个晶体管和85万个AI优化内核,再次刷新记录。

相比之下,最大的图形处理器只有540亿个晶体管,比 WSE-2少2.55万亿个晶体管。

与英伟达相比,WSE-2还拥有内核数是A100的123倍;缓存是其1000倍;可提供的内存带宽,则达到了A100的13万倍。

「大脑级」 AI 解决方案

首个大脑级 AI 解决方案如何诞生呢?

除了用到最大芯片,Cerebras还揭露了4项新技术。

这种技术组合可以轻松组建大脑规模的神经网络,并将工作分配到人工智能优化的核心集群上。

一、Cerebras Weight Streaming:分解计算和内存

这是一种新的软件执行模式,可以将计算和参数存储分解,使规模和速度得以独立且灵活地扩展,同时解决了小型处理器集群存在的延迟和内存带宽问题。

具体来说,这项技术首次实现了在芯片外存储模型参数,同时提供与在芯片上相同的训练和推理性能。

建立在WSE庞大规模的基础上,一个小型参数存储可以连接包含数千万个内核的许多晶圆,或者说,120 万亿个参数模型需要的 2.4 PB 存储可以分配给单个 CS-2。

模型权重保存在中央芯片外,它们被传输到晶片上,用于神经网络每一层的计算。

在神经网络的增量训练中,梯度从晶圆流到中央存储,然后被用于更新权重。

最终,用户可以将 CS-2 的使用数量从1个扩展到192个,同时无需更改软件。

二、Cerebras MemoryX:启用百万亿参数模型

这是一种一内存扩展技术,它使模型参数能够存储在芯片外,并有效地流式传输到 CS-2,实现同在芯片上那样的性能。

这一架构灵活性极强,支持4TB 到 2.4PB 的存储配置,2000 亿到 120 万亿的参数大小。

也就是说,最终,WSE 2可以提供高达 2.4 PB 的高性能内存,CS-2 可以支持具有多达 120 万亿个参数的模型。

三、Cerebras SwarmX:提供更大、更高效的集群

这是一种人工智能优化的高性能通信结构,可将 Cerebras的芯片内结构扩展到芯片外,从而扩展AI集群,而且使其性能实现线性扩展。

也就是说,10 个 CS-2 有望实现比单个 CS-2 快 10 倍的相同解决方案。

最终,SwarmX 可以将CS-2 系统从2个扩展到192 个,鉴于每个 CS-2 提供85万个 AI 优化内核,Cerebras 便可连接 1.63 亿个 AI 优化内核集群。

连接SwarmX的 CS-2 计算机接收神经网络的权重流、分割后的训练数据,同时计算传送到 MemoryX 的反向传播梯度。

四、Selectable Sparsity:缩短时间

Cerebras WSE 基于细粒度数据流架构,其 85万个 AI 优化计算内核可以单独忽略零。

Cerebras 架构独有的数据流调度和巨大的内存带宽,使这种类型的细粒度处理能够加速所有形式的稀疏性。

Cerebras

简言之,用户可以在他们的模型中选择权重稀疏程度,直接减少 FLOPs 和解决时间。

比iPad还大,「巨无霸」芯片迭代史

「巨芯」一代问世,大有可为

科技行业日新月异,变化发展飞快。芯片行业更是如此,之前再先进的工艺,两年后就有可能面临淘汰。这是信息时代不可逆转的趋势。

作为全球芯片龙头,NVIDIA依然占据着庞大的市场份额。

位于美国硅谷的AI创企Cerebras虽然没有NVIDIA那么全面,但其技术解决方案显然已经吸引到了许多客户。

早在2019年,Cerebras曾发布了第一代WSE(Wafer Scale Engine)芯片。

这款芯片是有史以来最大的AI芯片,有40万个内核和1.2万亿个晶体管,使用台积电16nm工艺制程。

与多数芯片不同,一代「巨芯」不是在12英寸硅晶圆上制作的,而是在单个晶圆上通过互联实现的单芯片。互联设计可保持高速运行,使万亿个晶体管同时工作。

与传统芯片相比,WSE还包含3000倍的高速片上存储器,并具有10000倍的存储器带宽。WSE的总带宽为每秒100 petabits,不需要诸如TCP/IP和MPI之类的通信协议支持。

由于大芯片可以更快处理信息,减少训练时间,研究人员能够测试更多想法。WSE的问世在当时消除了整个行业进步的主要瓶颈。

「巨芯」二代另辟蹊径,良率更高

2021年,Cerebras推出了最新的Wafer Scale Engine 2(WSE-2)芯片,该芯片为超级计算任务而构建,具有破纪录的2.6万亿个晶体管和85万颗AI优化内核,采用台积电的7nm工艺制造。

与第一代WSE芯片相比,二代芯片更加先进。

WSE-2的晶体管数、内核数、内存、内存带宽和结构带宽等性能特征增加了一倍以上。

在先进工艺的支持下,Cerebras 可以在同样的8*8英寸,面积约46225mm2的芯片中塞进更多的晶体管。

而且,正是采用了台积电的7nm工艺,电路之间的宽度仅有七十亿分之一米。

当有内核发生故障时,单独的故障内核并不影响芯片的使用。况且在台积电这样的晶圆代工厂中,很少会出现连续的内核缺陷。

由此可见,二代「巨芯」的良率较高。

参考资料:

https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/

https://www.tomshardware.com/news/worlds-largest-chip-unlocks-brain-sized-ai-models-with-163-million-core-cluster

瓦力的朋友:大芯片,以后各个政府和大公司可能会用,因为一颗芯片需要很大的散热系统,很多公司都是买小芯片的成熟单品通过互联互通分布式实现各自业务,这种集成的大芯片也许在3-1纳米时代才会慢慢商用吧。

xulin416:不服跑个分?

星空无垠海:多少钱一颗

瓦力的朋友:大芯片,以后各个政府和大公司可能会用,因为一颗芯片需要很大的散热系统,很多公司都是买小芯片的成熟单品通过互联互通分布式实现各自业务,这种集成的大芯片也许在3-1纳米时代才会慢慢商用吧。

夏微凉DbqOD:然后呢?

摩尔电导率t:这个确实牛

你可能也喜欢

扫一扫二维码分享