AMD, MLPerf 6.0 결과 발표하며 생성형 AI 추론 성능 입증해

2026-04-02 신윤오 기자, yoshin@elec4.co.kr

MI355X GPU 기반으로 신규 생성형 AI 워크로드 대응 단일 GPU 경쟁력과 클러스터 확장성 함께 제시

AMD는 최신 MLPerf 추론 6.0 결과를 발표하고, AMD 인스팅트 MI355X GPU가 새로운 생성형 AI 워크로드에서 초당 100만 토큰 이상의 성능을 달성했다고 밝혔다.

AMD에 따르면 이번 결과는 단순히 기존 벤치마크를 다시 측정한 수준을 넘어, 신규 워크로드 확대와 멀티노드 환경에서의 확장성, 파트너 시스템 전반의 재현성을 함께 보여준 것이 특징이다. 특히 기업 고객이 단일 시스템 성능뿐 아니라 대규모 추론 처리량, 신규 모델 대응 속도, 파트너 환경에서의 일관성까지 함께 평가하는 흐름 속에서 의미를 갖는다는 설명이다.

AMD는 이번 MLPerf 추론 6.0 제출을 통해 AMD 인스팅트 MI355X GPU가 라마 2 70B 기반 서버 추론에서 초당 10만282개 토큰을 기록하며, 이전 세대인 MI325X 대비 3.1배 높은 처리량을 보였다고 밝혔다. 또한 라마 2 70B 벤치마크에서 단일 노드 기준으로 엔비디아 B200 및 B300과 비교해 오프라인, 서버, 인터랙티브 시나리오 전반에서 경쟁력 있는 결과를 제시했다고 설명했다.

신규 워크로드 대응도 강조됐다. AMD는 이번 결과에 처음 포함된 GPT-OSS-120B에서 단일 노드 기준 경쟁력 있는 처리 성능을 기록했으며, 텍스트-투-비디오 모델인 Wan-2.2-t2v에서도 첫 제출 결과를 확보했다고 밝혔다. 이를 통해 AMD가 대규모언어모델(LLM)을 넘어 멀티모달 및 생성형 비디오 추론 영역으로 지원 범위를 확대하고 있음을 보여줬다고 덧붙였다.

멀티노드 확장성도 이번 발표의 핵심 중 하나다. AMD는 라마 2 70B에서 11노드, 87개 MI355X GPU 구성으로 오프라인 104만2110토큰, 서버 101만6380토큰, 인터랙티브 78만5522토큰을 기록했다고 밝혔다. GPT-OSS-120B에서도 12노드, 94개 GPU 구성으로 오프라인 103만1070토큰, 서버 90만54토큰을 달성했으며, 두 모델 모두 높은 수준의 확장 효율을 유지했다고 설명했다.

파트너 생태계 기반 재현성도 함께 제시됐다. AMD는 델, HPE, 시스코를 포함한 9개 파트너가 AMD 인스팅트 GPU 기반으로 MLPerf 추론 6.0 제출에 참여했으며, 일부 결과는 AMD 제출치와 4% 이내, 일부는 1% 이내 차이를 기록했다고 밝혔다. 이를 통해 특정 실험실 환경에 국한되지 않고 실제 파트너 시스템 전반에서 일관된 성능 재현이 가능하다는 점을 보여줬다고 설명했다.

AMD는 이러한 성과가 하드웨어뿐 아니라 ROCm 소프트웨어 최적화에 기반한다고 강조했다. ROCm은 FP4 실행 최적화, 멀티노드 GPU 간 통신, 이기종 GPU 환경 오케스트레이션, 신규 모델 초기 대응 등을 지원하며, 이번 MLPerf 결과 전반의 기반이 됐다는 설명이다.

또한, 이번 MLPerf 추론 6.0 결과를 통해 생성형 AI 추론 인프라에서 단일 GPU 경쟁력, 클러스터 단위 확장성, 신규 모델 대응력, 파트너 생태계 재현성을 모두 입증했다고 밝혔다.

100자평 쓰기