핵심 요약:
- 샤오미 MiMo-V2.5-Pro-UltraSpeed, 표준 GPU에서 초당 1,000토큰 초과 달성
- 속도는 FP4 양자화와 TileRT 기반 DFlash 추측 디코딩에서 비롯
- API 시험은 6월 9~23일, 표준 요금의 3배 수준에서 약 10배 생성 속도 제공
핵심 요약:

샤오미 MiMo-V2.5-Pro-UltraSpeed, 표준 GPU에서 초당 1,000토큰 돌파 — GPT-5.5보다 15배 빠른 속도, 소프트웨어만으로 달성
샤오미의 MiMo-V2.5-Pro-UltraSpeed는 단일 8-GPU 상용 노드에서 초당 1,000토큰 이상을 기록하며 GPT-5.5보다 15배 빠른 성능을 구현했다. 맞춤형 실리콘 없이 소프트웨어만으로 이룬 성과로, 추론 비용과 접근성에 대한 기존 가정을 재편하는 이정표다.
"극단적인 모델-시스템 공동 설계가 이를 가능하게 했다"고 샤오미는 발표에서 밝혔다. Artificial Analysis에 따르면 GPT-5.5는 초당 68토큰, Claude Opus 4.6은 초당 71토큰을 기록하는 반면, MiMo-V2.5-Pro는 코딩 벤치마크에서 Opus와 동등한 성능을 보인다.
이 속도는 두 가지 조율된 기술에서 비롯된다. FP4 양자화는 모델의 전문가 레이어(1조 파라미터의 대부분)를 4비트 정밀도로 축소해 메모리 사용량을 줄이면서도 품질 손실을 거의 제로 수준으로 유지한다. DFlash 추측 디코딩은 단일 순방향 패스에서 마스킹된 위치 전체 블록을 채우며, 코딩 작업에서 검증 라운드당 제안된 8개 토큰 중 6.3개를 모델이 수용한다. 추론 엔진인 TileRT는 전체 파이프라인을 GPU 내에 상주시켜 연산자별 실행 오버헤드를 제거한다.
Cerebras는 절반도 안 되는 크기의 모델인 메타 Llama 3.1 405B에서 초당 969토큰을 기록했으며, 이는 식판 크기의 웨이퍼 스케일 칩을 사용한 결과다. Groq의 맞춤형 LPU 아키텍처는 최대 초당 300~750토큰에 그친다. 두 경우 모두 표준 클라우드 제공업체에서 제공하는 하드웨어에서 실행되지 않는다. 반면 샤오미의 접근 방식은 가능하며, 표준 MiMo 요금의 3배 수준에서 약 10배의 생성 속도를 제공한다. API 시험은 6월 9일부터 23일까지 진행된다.
이 성과는 단순한 수치 이상의 의미를 지닌다. 초당 1,000토큰에서는 사기 탐지, 실시간 트레이딩 신호, 병렬 추론 체인, 라이브 에이전트 루프 등 엄격한 지연 시간 제약이 있는 애플리케이션이 초당 68토큰으로는 불가능했던 수준에서 현실화된다. MiMo-V2.5-Pro는 이미 대부분의 코딩 벤치마크에서 Claude Opus와 동등한 성능을 훨씬 낮은 비용(입력 기준 백만 토큰당 약 0.43달러, 출력 기준 약 0.87달러)으로 제공하며, Opus는 각각 5달러와 25달러 수준이다.
이 기술적 접근 방식이 주목할 만한 이유는 필요하지 않은 것에도 있다. Cerebras는 GPU 추론을 느리게 하는 대역폭 병목을 제거하기 위해 44GB 온칩 메모리를 탑재한 웨이퍼 스케일 칩을 설계했다. Groq는 맞춤형 LPU를 구축했다. 샤오미는 상용 GPU—AWS에서 사용 가능한 것과 동일한 하드웨어—를 사용했으며, 모델 수준 최적화와 목적에 맞게 설계된 추론 엔진을 통해 문제를 해결했다.
FP4 양자화는 정밀하게 적용된다: 전문가 레이어만 압축되고 나머지는 모두 전체 정밀도를 유지한다. DFlash는 표준 추측 디코딩에 사용되는 순차적 드래프팅 단계를 건너뛰고, 토큰 전체 블록을 한 번에 제안한다. TileRT는 컴퓨팅 파이프라인을 지속적으로 상주시켜 일반적으로 생성을 느리게 하는 실행 간격을 제거함으로써 이를 하나로 묶는다.
샤오미(01810.HK)는 업계의 주목을 크게 받지 않으면서 AI 역량을 구축해 왔다. MiMo-V2.5-Pro는 4월에 출시되어 극히 일부의 비용으로 벤치마크에서 최첨단 모델과 동등한 성능을 기록했다. UltraSpeed는 동일한 모델(경량화 버전이 아닌)을 가속화하며, FP4-DFlash 체크포인트는 이미 Hugging Face에 오픈소스로 공개되어 커뮤니티 테스트가 가능하다.
독립적인 벤치마크에서 속도 주장이 확인된다면, 샤오미는 Cerebras와 Groq가 수억 달러의 맞춤형 실리콘 투자로 달성한 것을 표준 하드웨어의 소프트웨어만으로 이뤄낸 셈이다. 이는 어떤 기업이 1조 파라미터 모델을 프로덕션에 배포할 수 있는지, 그리고 그 비용이 얼마인지에 대한 계산을 완전히 바꿔놓는다.
본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.