7月15日消息,总部位于英国的AI芯片公司Graphcore今天发布了第二代IPU GC200,采用台积电7nm工艺,晶体管数量高达594亿个,裸片面积达到823平方毫米。这比两个月前英伟达最新发布的安培架构GPU A100的540亿个晶体管增加了10%,黄仁勋当时说A100是全球最大的7nm芯片,裸片面积为826平方毫米。
IPU是一种全新的大规模并行处理器,雷锋网此前报道,已经推出了基于台积电16nm工艺集成236亿个晶体管的GC2 IPU,120瓦的功耗下有125TFlops的混合精度、300M的SRAM能够把完整的模型放在片内。
第二代IPU GC2000(MK2)与第一代IPU(MK1)相比,实际性能提高了8倍。Graphcore联合创始人兼CEO Nigel Toon表示,GC200是目前世界上最复杂的处理器,可使创新者实现AI的革命性突破。
据悉,GC2000芯片内部有1,472个独立的处理器内核,能够执行8,832个独立的并行线程,所有这些均由900MB的RAM支持。
Nigel说:“GC200在处理器内部具有史无前例的900MB超高速SRAM,在每个处理器内核旁边都设有大量RAM,以实现每位最低能量的访问。Graphcore的Poplar软件还允许IPU通过Graphcore独特的Exchange-Memory通信访问Streaming Memory。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的Exchange-Memory,以及前所未有的180TB/秒的带宽。”
除此之外,基于最新GC200的一款即插即用的机器智能刀片式计算单元IPU-M2000还集成了Graphcore的专用AI联网IPU-Fabric。新的Graphcore GC4000 IPU-Gateway芯片可以让每个IPU-M2000提供2.8Tbps。Graphcore称,在从数十个IPU扩展到数以万计个IPU的过程中,IPU-Fabric技术使通信时延几乎保持恒定。
据悉,1U大小的IPU-M2000可提供1个PetaFlop的机器智能计算。利用IPU-M2000可构建成IPU-POD64的模块化机架规模解决方案。IPU-M2000的设计使客户可以在IPU-POD配置中构建多达64,000个IPU的数据中心规模系统,提供16ExaFlops的机器智能计算能力。
Graphcore也强调,其Poplar SDK可以使开发者无论使用单个IPU还是要使用数千个IPU完成机器智能工作负载都可以让过程变得简单。
Graphcore高级副总裁兼中国区总经理卢涛表示,中国很可能成为Graphcore最新推出的第二代处理器技术最先实现商业化落地的区域之一。
宣布这一消息的同时,人工智能正在对芯片世界产生重大的影响。因为 AI 模型的训练需要借助高度并行的处理器,除了催生新的市场参与者(Graphcore),还激励谷歌等科技巨头加速采用自研芯片。
该公司称,新硬件完全支持即插即用,允许客户将多达 64000 个 IPU 节点连接到一起,以达成 16 Exa-Flops 的算力。
截止目前,英伟达已经抢占了 AI 计算的大部分市场。该公司起初专为视频游戏提供加速的 GPU,已被证明相当适合 AI 运算。
即便如此,Graphcore 仍试图向英伟达的市场主导地位发起挑战,并且已经吸引了微软、戴尔等科技巨头的资金和支持。
今年早些时候,Graphcore 宣布已在新一轮融资中吸引 1.5 亿美元的研发资金,总估值也达到了 19.5 亿美元。
作为一家成立于 2012 年的企业,当时深度学习的趋势刚刚开始兴起。不过该公司最大的优势,就是其芯片在设计之初就完全考虑到了 AI 应用。
Moor Insights & Strategy 分析师 Karl Freund 在接受 TheVerge 采访时称,其对 Graphcore 的最新产品感到印象深刻。而软件方面的升级,对正确利用 AI 所需的巨大并行处理能力显得尤为重要。
Graphcore 不仅将重心放在了 AI 芯片上,还考虑到了系统层面的整合。因为训练有意义的神经网络,不能只依赖于单颗芯片,而是必须在成千、乃至上万的芯片平台上完成,但可扩展性让 Graphcore 真正脱颖而出。
karl Freund 补充道:对于初创企业来说,Graphcore 的软件支持已经相当完备。其不仅能够与各种 AI 框架进行交互,还提供了使工作人员能够充分利用其硬件性能的工作负载监视工具。
|