전자, IT

오픈AI, 엔비디아 대신 구글 TPU 선택? AI 컴퓨팅 비용 절감과 인프라 다각화 전략

아이런메이든 2025. 6. 30. 16:14
320x100

오픈AI(OpenAI)가 챗GPT(ChatGPT)를 비롯한 자사 제품 구동을 위해 엔비디아(Nvidia) 칩과 마이크로소프트(Microsoft) 데이터 센터에 대한 의존도를 줄이고, 구글(Google)의 텐서 처리 장치(TPU)를 사용하기 시작했습니다. 이는 AI 컴퓨팅 시장에 큰 파장을 불러일으킬 전략적 변화로 평가받고 있습니다. 오픈AI는 이러한 움직임을 통해 추론 컴퓨팅과 관련된 높은 비용을 절감하고, 하드웨어 인프라를 다각화하는 것을 목표로 하고 있습니다. 하지만 구글은 AI 경쟁에서 우위를 유지하기 위해 가장 진보된 칩에 대한 접근을 제한하고 있는 것으로 알려져 복잡한 양상을 띠고 있습니다.

TPU 대 엔비디아 GPU: 성능과 비용의 대결

TPU(텐서 처리 장치)와 엔비디아 GPU(그래픽 처리 장치)는 AI 하드웨어 가속화에 대한 두 가지 다른 접근 방식을 대표하며, 각각 고유한 강점을 가지고 있습니다. 구글이 자체 개발한 TPU는 텐서 연산과 신경망 학습에 특화되어 있으며, 특정 딥러닝 작업에서 기존 프로세서보다 15~30배 빠른 처리 속도와 30~80배 뛰어난 에너지 효율성을 제공한다고 알려져 있습니다. 반면, 엔비디아의 GPU는 텐서플로우(TensorFlow) 외에 다양한 프레임워크를 지원하는 더 높은 범용성을 제공하며, 특히 H200 모델의 경우 최대 141GB의 VRAM을 제공하여 TPU V6E의 32GB보다 훨씬 많은 메모리 용량을 자랑합니다.

이러한 하드웨어 차이는 실제 성능 차이로 이어집니다. GPU는 일반적으로 확장성, 처리량, 병렬화 능력에서 TPU보다 뛰어나 대규모 AI 작업에 더 적합합니다. TPU는 낮은 동시성 조건에서 첫 번째 토큰을 빠르게 생성하는 데 강점을 보일 수 있지만, 엔비디아 GPU는 다양한 작업에서 더 뛰어난 비용 효율성을 유지하며, H200은 토큰당 최저 비용을 제공합니다. 또한 엔비디아는 더 넓은 생태계 지원과 멀티 클라우드 가용성의 이점을 누리는 반면, TPU는 구글 클라우드(Google Cloud)에만 한정되어 있어 배포 유연성이 제한된다는 단점이 있습니다.

비용 절감 전략: '엔비디아 세금' 회피

오픈AI가 구글 클라우드와의 파트너십을 맺은 것은 업계를 지배하는 엔비디아 세금(Nvidia tax)'을 회피하기 위한 전략적인 비용 절감 조치로 평가됩니다. 2024년 오픈AI의 90억 달러 운영비 중 컴퓨팅 비용이 55~60%를 차지할 것으로 추정되며(2025년에는 80%를 초과할 것으로 예상), 구글의 TPU 인프라를 활용하면 상당한 비용 절감 효과를 얻을 수 있습니다.

업계 분석에 따르면, 구글은 엔비디아 GPU를 구매하는 기업들이 부담하는 비용의 약 20% 수준으로 AI 컴퓨팅을 운영할 수 있다고 합니다. 엔비디아의 고급 데이터센터 칩은 80~90%의 높은 총이익률을 자랑하며 막대한 수익을 올리고 있습니다. 이러한 비용 우위는 유사한 AI 모델 간의 가격 차이에서도 드러납니다. 구글의 Gemini 2.5 Pro는 백만 출력 토큰당 10달러인 반면, 오픈AI의 o3는 백만 출력 토큰당 40달러로 4배가량 비쌉니다. 오픈AI는 마이크로소프트 애저(Microsoft Azure) 외에도 인프라를 다각화함으로써 구글의 비용 효율적인 TPU에 접근할 수 있게 되었고, 단일 공급업체에 대한 의존도도 줄일 수 있게 되었습니다. 이로 인해 구글은 자사의 검색 비즈니스에 큰 위협이 될 수 있는 경쟁사에 실질적으로 무기를 제공하면서도, AI 분야에서 가장 많은 지출을 하는 고객 중 한 곳으로부터 수익성 높은 클라우드 매출을 확보하는 흥미로운 딜레마에 직면하게 되었습니다.

마이크로소프트 애저 의존성 변화와 인프라 다각화

오픈AI의 구글 클라우드와의 새로운 파트너십은 2019년부터 유일한 인프라 제공업체였던 마이크로소프트 애저에 대한 독점적 의존에서 중요한 변화를 의미합니다. 이러한 전략적 다각화는 2025년 1월, 오픈AI와 마이크로소프트 간의 계약에서 독점 조항이 만료되면서 시작되었으며, 이를 통해 AI 기업은 추가적인 클라우드 파트너십을 모색할 수 있게 되었습니다. 마이크로소프트는 여전히 주요 제공업체로 남아 있으며 최소 130억 달러를 오픈AI에 투자했지만, 오픈AI는 구글 클라우드, 오라클(Oracle), 코어위브(CoreWeave) 등 여러 제공업체에 대규모 컴퓨팅 워크로드를 분산시키며 명확하게 독립성을 구축하고 있습니다.

이러한 움직임은 마이크로소프트에 대한 의존성에 대한 오픈AI의 우려가 커지고 있음을 반영합니다. 마이크로소프트는 5,000억 달러 규모의 "프로젝트 스타게이트(Project Stargate)" 데이터 센터 이니셔티브와 자체 개발한 Phi-4 모델 등 자체 AI 투자로 점점 더 경쟁자가 되고 있기 때문입니다. 오픈AI는 연간 100억 달러의 매출과 주간 5억 명의 사용자를 기록하는 폭발적인 성장과 함께, 2028년까지 연간 300테라와트시(TWh) 이상의 에너지 수요가 예상되는 상황에서 유연한 인프라가 필수적입니다. 이러한 멀티 클라우드 접근 방식은 오픈AI가 구글의 TPU와 같은 특화 하드웨어를 활용하는 동시에, AI 분야에서 직접적인 경쟁자가 되어가는 단일 벤더에 대한 의존에서 오는 위험을 줄일 수 있게 해줍니다.

뭐랄까.. 오픈AI의 독립(엔비디아와 마이크로소프트)이 시작되는 느낌인데... 과연 성공적일까요?! 구글 TPU의 성능이 기대되긴하네요 :)

320x100