비록 AI 기업들의 거대한 야망을 충족시키는 경쟁이 모두 Nvidia를 중심으로 진행되는 것처럼 보일 수 있지만, 실제로는 AI 가속기 칩에서의 진정한 경쟁이 벌어지고 있습니다. 최근의 사례로는, 이번 주에 애리조나 주 피닉스에서 열린 인텔의 비전 2024 행사에서 회사가 세 번째 세대 AI 가속기인 Gaudi 3의 첫 구조적 세부 사항을 공개했습니다. 이에 대한 소개가 IEEE Spectrum에 개재되어 이번 포스팅에서 소개하고자 합니다.
이전 칩에서 회사는 그 성능이 당시 Nvidia의 최고 칩인 H100과 거의 동등하다고 주장하고, 가격 대 성능 비율이 더 우수하다고 주장했습니다. Gaudi 3에서는, 회사가 명백한 우위를 주장할 수 있는 대형 언어 모델 (LLM) 성능을 강조하고 있습니다. 그러나 배경에는 올해 나중에 도착할 것으로 예상되는 Nvidia의 다음 GPU인 Blackwell B200이 있어 계속해서 주목받고 있습니다.
Gaudi 아키텍처의 변화
Gaudi 3은 전신인 Gaudi 2의 아키텍처를 보강하고 있으며, 일부 경우에는 문자 그대로 그것을 두 배로 확장하고 있습니다. Gaudi 2의 단일 칩 대신 Gaudi 3은 높은 대역폭 연결로 연결된 두 개의 동일한 실리콘 다이로 구성되어 있습니다. 각각은 48 메가바이트의 캐시 메모리 중심 영역을 갖고 있습니다. 이 영역 주변에는 칩의 AI 직원인 행렬 곱셈을 위한 네 개의 엔진과 텐서 프로세서 코어라고 불리는 32개의 프로그램 가능한 유닛이 있습니다. 이 모든 것은 메모리와의 연결로 둘러싸여 있으며 한쪽 끝에서 미디어 처리 및 네트워크 인프라로 완료됩니다.
인텔은 이 모든 것이 트랜스포머 모델을 교육하는 데 중요한 역할을 하는 8비트 부동 소수점 인프라를 사용하여 Gaudi 2의 AI 컴퓨팅을 두 배로 증가시킨다고 주장합니다. 또한 BFloat 16 숫자 형식을 사용하는 계산에 대해 네 배의 향상을 제공합니다.
Gaudi 3의 LLM 성능
인텔에 따르면 GPT-3 175B 대형 언어 모델의 훈련 시간이 H100 대비 40% 빠르다고 예측하고, Llama2의 70억 및 80억 파라미터 버전에 대해서는 더 나은 결과를 예상하고 있습니다. 추론 과정에서는, 새로운 칩이 Llama의 두 가지 버전에 대해 H100의 성능의 95%에서 170%를 제공하여 격차가 매우 좁았습니다. 그러나 Falcon 180B 모델의 경우, Gaudi 3은 최대 4배의 우위를 차지했습니다. 놀랍지 않게도, Nvidia H200에 대한 우위는 더 적었습니다. Llama의 경우 80%에서 110%이고, Falcon의 경우 3.8배입니다.
인텔은 전력 효율을 측정할 때 보다 현저한 결과를 주장하며, 이에 따라 Llama에서 H100의 가치의 최대 220%, Falcon에서 230%를 예상하고 있습니다. 인텔의 하바나 랩스 최고 운영 책임자인 에이탄 메디나에 따르면 “우리의 고객들은 데이터 센터에 충분한 전력을 공급하는 것이 제한적이라고 말합니다.” 에너지 효율성 결과는 LLMs가 더 긴 출력을 제공하는 것에 가장 좋았습니다.
메디나는 이 우위를 Gaudi 아키텍처의 대형 매트릭스 수학 엔진으로 설명합니다. 이들은 가로로 512비트입니다. 다른 아키텍처는 동일한 계산을 수행하기 위해 많은 작은 엔진을 사용하지만, Gaudi의 초대형 버전은 “거의 1차적으로 적은 메모리 대역폭이 필요합니다,”라고 그는 말합니다.
Blackwell과의 비교
아직까지는 추측의 단계이지만, 메모리와 메모리 대역폭에 대한 몇 가지 데이터 포인트를 비교할 수 있습니다. 메모리는 언제나 AI에서 중요했으며, 생성적 AI가 확산되고 인기 있는 모델이 수십 억 개의 파라미터에 이르기 시작함에 따라 더욱 중요해졌습니다. 두 제품 모두 고대역폭 메모리(HBM)를 사용하며, 이는 DRAM 메모리 다이가 제어 칩 위에 쌓인 형태입니다. 고급 가속기에서는 로직 실리콘과 같은 패키지 내에 최소한 두 면에서 둘러싸고 있습니다.
칩 제조업체들은 로직과 메모리 간의 고대역폭 경로를 제공하기 위해 인텔의 EMIB 실리콘 브리지나 TSMC의 칩 온 웨이퍼 온 실리콘(CoWoS)과 같은 고급 패키징을 사용합니다. 표에서 보여주는 대로, Gaudi 3은 H100보다 더 많은 HBM을 가지고 있지만, H200, B200 또는 AMD의 MI300보다는 적습니다. 또한 그의 메모리 대역폭은 H100의 것보다 우수합니다. Gaudi의 가격 경쟁력에 중요할 수 있는 점은, 그가 다른 제품들의 HBM3 또는 HBM3e와 달리 보다 저렴한 HBM2e를 사용한다는 것입니다. 이는 가속기가 수십만 달러에 판매되고 있다고 알려진 것의 상당 부분을 차지할 것으로 생각됩니다.
또 하나의 비교 포인트는 Gaudi 3이 TSMC의 N5(가끔 5나노미터로 불리는) 공정 기술을 사용하여 제작되었다는 점입니다. 인텔은 Gaudi의 세대에 걸쳐 기본적으로 Nvidia의 공정 노드 하나 뒤쳐져 왔으므로, 최신 칩을 Moore의 법칙 사다리에서 최소한 한 단계 더 높은 칩과 비교해야 했습니다. Gaudi 3에서 그 경쟁 부분은 약간 좁아지고 있습니다. 새로운 칩은 H100과 H200와 동일한 공정을 사용합니다.
게다가, 3나노미터 기술로 이동하는 대신, 다가오는 경쟁 상대인 Blackwell은 N4P라는 공정에서 완성됩니다. TSMC는 N4P를 N5와 동일한 5나노미터 패밀리에 속하지만, 성능 향상률이 11%이고 효율성이 22% 향상되며 밀도가 6% 더 높다고 설명합니다. Moore의 법칙 측면에서, 다음 세대 Gaudi인 현재 코드명이 Falcon Shores인 제품이 어떤 기술을 사용할 것인가에 대한 큰 의문입니다. 현재까지 제품은 인텔이 자신의 파운드리 사업을 가동시키는 동안 TSMC 기술에 의존해 왔습니다.
그러나 내년에는 인텔이 파운드리 고객에게 18A 기술을 제공하기 시작하고 이미 내부적으로는 20A를 사용하고 있을 것입니다. 이 두 노드는 다음 세대의 트랜지스터 기술인 나노시트를 가져오며, 이는 TSMC가 2026년까지 계획하고 있는 조합입니다.
마무리
이번 포스팅에서는 Gaudi 3와 관련된 여러 쟁점과 비교 요소들을 살펴보았습니다. 인텔의 최신 AI 가속기 칩인 Gaudi 3이 전 세대와 비교하여 어떤 발전을 이루고 있는지, 또한 경쟁 상대인 Nvidia와의 기술 경쟁에서 어떤 위치에 있는지에 대해 알아보았습니다. 또한, TSMC의 공정 기술과 인텔의 파운드리 비즈니스 발전에 대한 전망도 살펴보았습니다. 앞으로 Gaudi 시리즈의 다음 세대 제품인 Falcon Shores가 어떤 기술을 채택할지에 대한 관심도 높아졌습니다. 이러한 동향들이 AI 가속기 시장에 미치는 영향과 미래 전망에 대해 계속해서 관심을 기울여야 할 것입니다.