跳至产品信息
1 / 7

Kentino sro

K-AI 128 Rím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server

K-AI 128 Rím 5090 6704TOPS — 4× RTX 5090 Blackwell AI server

常规价格 EUR € 25.372,00
常规价格 促销价 EUR € 25.372,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 128 Rím 5090 6704TOPS

128 GB VRAM Blackwell Inference Server
4x RTX 5090 | EPYC Miláno | 6 704 TOPS INT8

6 704
INT8 VRCHY
128 GB
fond VRAM
Blackwell
natívny FP8
2.5x
vs 4090 TOPS

Štyri grafické karty Blackwell RTX 5090 s natívnymi tenzorovými cestami FP8/FP4. Zostavenie so 4 grafickými procesormi s najvyššou priepustnosťou na platforme Rome.

Rackový inferenčný server s výškou 4U, štyrmi grafickými kartami GeForce RTX 5090 spojenými so 128 GB VRAM, jedným procesorom AMD EPYC 7643 Milan (48C/96T), 512 GB pamäte DDR4 ECC (všetkých 8 slotov DIMM je obsadených pre maximálnu šírku pásma), 2 TB NVMe bootovaním a duálnym synchronizovaným 2 kW ATX zdrojom. Spúšťa vLLM, SGLang, llama.cpp, ComfyUI s natívnymi inferenčnými jadrami FP8 od Blackwell a MXFP4.

technické vybavenie

Zložka detail
GPU 4x NVIDIA GeForce RTX 5090 32 GB GDDR7 (Blackwell, 575 W, PCIe 5.0 x16)
fond VRAM Celkom 128 GB na 4 kartách (bez NVLink na spotrebiteľskej karte 5090)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 512 GB DDR4-2666 ECC RDIMM (8 x 64 GB — všetky sloty DIMM sú obsadené)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Duálny 2 kW ATX zdroj so synchronizačným káblom + sada adaptérov 12VHPWR
Podvozok 4U rackový držiak, 4x GPU, pasívne rozširujúce karty PCIe 4.0 x16
Chladenie Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 4 x 575 W = 2 300 W
  • Celkový výkon systému pri plnom zaťažení: ~2 650 W
  • Celkový výkon zdroja: 4 000 W (duálny 2 kW synchronizovaný) — 33.8 % rezerva
  • Duálny zdroj PSU pre rozdelené napájanie – každý zdroj napája časť systému

Topológia jazdných pruhov

ROMED8-2T rozdeľuje 128 liniek PCIe Gen4 z EPYC priamo do siedmich slotov x16; štyri sú obsadené grafickými kartami na úrovni Gen4 x16. Žiadny prepínač PCIe. Žiadny NVLink na spotrebiteľskej linke 5090 – peer-to-peer medzi grafickými kartami. Karty sú natívne pre Gen5; Rome má limity na Gen4.

Čo môžete spustiť

So 128 GB združenej VRAM a tenzorovými cestami FP8 s natívnym rozhraním Blackwell sa tento server posúva na úroveň Qwen3-235B-A22B Q4 a gpt-oss-120b MXFP4 so skutočnou rezervou KV – nad rámec toho, čo dokáže 4x RTX 4090.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q3-Q4 (~112-132 GB) sa hodí do 128 GB poolu s 8-16k ctx — konfigurácia Hero; Qwen3-32B hustý bf16 (~65 GB) s masívnym KV; Qwen3-Coder-30B-A3B agentický s 1M ctx; Qwen3.5-122B-A10B Q6/fp8 (~75-80 GB); uvažovanie QwQ-32B bf16
  • DeepSeek: DeepSeek-V3/R1/V3.1/V3.2 fp8-native Q2 (~215 GB) s RAM rozptýlenou na 512 GB hostiteľa – možné pre dávkové spracovanie; DeepSeek-R2 32B bf16 multistream (4 súbežné, jeden na kartu)
  • GLM / Z.ai: GLM-4.5-Air 106B/12B fp8 (~106 GB) alebo Q6 pohodlne; GLM-4.5/4.6/4.7 Q2_K_XL (~135 GB) bez problémov s odľahčením MoE
  • Tencent Hunyuan: Hunyuan-A13B fp8 natívny (~80 GB) — Blackwell spúšťa fp8 bez penalizácie pretypovania nahor; Hunyuan-Large Q2 s únikom RAM
  • ByteDance Seed-OSS-36B bf16 s natívnou 512k; ERNIE-4.5-424B Q2 (~150 GB únik)

Západná hranica

  • Meta lama: Llama 3.3 70B Q4 naprieč 4x 5090 (~30-40 tok/s jeden prúd, ~270+ tok/s dávkový-32 vLLM); Llama 4 Scout 109B/17B MoE fp8/Q6 (~90 GB); Llama 4 Maverick 400B/17B Q3 (~188 GB únik)
  • Mistral: Mistral Small 3 / Magistral / Devstral Small 2 (24B) bf16 viacstreamový; Pixtral Large / Mistral Large 2 (123B) Q6 (~88 GB)
  • OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (80 GB) so skutočnými KV a dlhým kontextom — pracovná záťaž Blackwell Hero; gpt-oss-20b MXFP4
  • Google Gemma 3: 27B multimodálny bf16 (~54 GB) dva súbežné streamy; 12B / 4B
  • Microsoft Phi-4 14B hustý bf16; destilovaná metódou Phi-4
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q3 (~119 GB) pevný; Super 49B bf16 (~98 GB)
  • Ostatné: Cohere Command R+ 104B Q6 (~85 GB); Molmo 72B Q6-bf16 VLM; OLMo 2 32B; IBM Granite 4.0 H-Small

Modely vizuálno-jazykového vnímania

Qwen3-VL-235B-A22B Q3-Q4; Qwen3-VL-32B bf16; InternVL3.5-241B-A28B Q4 (~135 GB kapacita); InternVL3 78B bf16; Llama 3.2 90B Vision Q6 (~74 GB); Pixtral Large 124B Q6 (~88 GB); Molmo 72B Q6/bf16; Gemma 3 27B multimodálny bf16; GLM-4.6V 106B fp8.

Generovanie obrazu

FLUX.1 [vývoj] bf16 a fp8 (~10-18 s/obrázok pri fp8); FLUX.1 Kontext [vývoj]; SD 3.5 Large bf16; HunyuanImage-2.1 bf16 a Q4; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16 (~80 GB, herná pamäť); HunyuanDiT; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 MoE dva experty bf16 (~54 GB, plný ctx); Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty (~60-80 GB); HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16 (~24 GB); Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Reč / TTS

  • ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • 200B MoE v 4. štvrťroku s dávkovou inferenciou (Qwen3-235B, GLM-4.5/4.6/4.7-Air) pre 8 – 16 súbežných používateľov
  • fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s Blackwellovými natívnymi cestami
  • Zmiešaný rezidentný stack: gpt-oss-120b MXFP4 + FLUX.1 + Whisper + Moshi na rozdelenej VRAM
  • Vysokokapacitný 70B — tenzorovo paralelný vLLM / SGLang s dávkovým agregátom viac ako 200 tokov/s

Cieľové pracovné zaťaženia

  • Produkcia MoE presahujúca 200 miliárd elektrární v 3. až 4. štvrťroku so skutočným KV (Qwen3-235B, GLM-4.5-Air 106B)
  • fp8-native frontian inference (DeepSeek V3/R1 fp8, Hunyuan fp8) — Blackwell beží bez pretypovania nahor
  • Vysokokapacitná 70B porcia – tenzorovo paralelná dávka cez vLLM alebo SGLang
  • Štúdio pre tvorbu videa v bf16 (Wan 2.2 dual-expert, HunyuanVideo 13B, Mochi-1)
  • Zmiešaná pracovná záťaž pre viacerých nájomcov – 120B MoE + generovanie obrazu + hlas v reálnom čase pre všetkých rezidentov

Meraný výkon

Publikované referencie | Technický list NVIDIA RTX 5090 + komunitné benchmarky

mierka Výsledok
INT8 TOPS na kartu (údajový list NVIDIA) 1 676 TOPOV
Agregát INT8 TOPS (4 karty) 6 704 TOPOV
Šírka pásma pamäte na kartu ~1 792 GB/s
Lama 3.3 70B Q6 cez vLLM (komunita) 60 – 90 tok/s jeden prúd, viac ako 300 tok/s dávka
Qwen3-235B-A22B Q3-Q4 Vhodné pre 128 GB bazén s 8-16k CTX
gpt-oss-120b natívny MXFP4 80 GB – pohodlne s rezervou KV

Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Frontier 400B+ v 4. štvrťroku (Kimi-K2, Mistral Large 3, Intern-S1-Pro — vyžadujú 8 GPU alebo 6x RTX Pro 6000)
  • Pracovné zaťaženia citlivé na prepojenie PCIe Gen5 – pre natívnu Gen5 x16 vyberte SKU Genoa
  • Školenie od začiatku (bez NVLink na spotrebiteľovi 5090)
  • Citlivá produkcia 24 hodín denne, 7 dní v týždni – spotrebiteľský model 5090 nemá ECC; uprednostňuje sa L40 alebo RTX Pro 6000 Server Edition

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Pre trvalý najhorší možný stav vylepšite zdroj na duálny 2.5 kW (FSP) – bf16 + video – odporúčané pre nepretržitú prevádzku 24 hodín denne, 7 dní v týždni
  • 4 TB NVMe pre knižnicu modelov + fázovanie váhy MoE
  • 24U otvorená skriňa pre nasadenie viacerých serverov
  • Na požiadanie zvážte variant platformy Genoa pre prepojenie Gen5 x16
查看完整详细信息