Kentino sro
K-AI 192 Rím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Miláno
K-AI 192 Rím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Miláno
无法加载取货服务可用情况
K-AI 192 Rím RTXPro6000 4000TOPS
192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Milan | 4 000 TOPS INT8
Dve pasívne grafické karty RTX Pro 6000 Blackwell Server Edition — každá s 96 GB ECC. Nižšia réžia tenzorového paralelného spracovania ako pri zostavách so 4 alebo 8 kartami. Vlajková loď pre dátové centrá.
4U rackový inferenčný server s dvoma pasívnymi kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a jedným 2 kW ATX zdrojom. Pre 70B hustý bf16 a stredne veľký MoE je menej veľkých kariet lepších ako viac malých kariet – tenzorový paralelizmus dvoch kariet má minimálnu komunikačnú réžiu a každá 96 GB karta obsahuje kompletnú kópiu väčšiny modelov.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasívna, 600 W, PCIe 5.0 x16, dvojslotová) |
| fond VRAM | 192 GB ECC (96 GB x 2) – každá karta pojme samostatný model 70B bf16 |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | 1x 2 kW ATX zdroj |
| Podvozok | 4U rackový systém s prúdením vzduchu smerom spredu dozadu |
| Chladenie | Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba grafického procesora: 2 x 600 W = 1 200 W
- Celkový výkon systému pri plnom zaťažení: ~1 525 W
- Celkový výkon zdroja: 2 000 W (jeden 2 kW) — 23.7 % priestoru pre výšku
- Postačuje jeden zdroj; voliteľné rozšírenie o dva zdroje pre redundanciu N+1
Topológia jazdných pruhov
PCIe Gen4 x16 na GPU (karta je natívna pre Gen5; doska Rome je obmedzená na Gen4). Priame pripojenie root-complex – bez prepínača PCIe. Bez NVLink – peer-to-peer medzi GPU. Päť slotov x16 zostáva voľných pre rozšírenie. Gen4 vs Gen5 je pri tejto hustote VRAM zanedbateľná pre inferenciu.
Čo môžete spustiť
So 192 GB ECC VRAM na iba dvoch kartách Blackwell s natívnym FP8/FP4 je to najčistejšia cesta k hustým 70B streamom pri bf16 a stredne veľkým MoE. Dva nezávislé 70B streamy – jeden na kartu – alebo 200B MoE v oboch s minimálnou réžiou obojsmerného TP.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlhým ctx (~15-25 tok/s jeden stream naprieč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým prebytkom RAM) — Blackwell natívne spúšťa FP8; DeepSeek-R2 32B bf16 dva súbežné streamy (jeden na kartu)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — konfigurácia hrdinu na tejto úrovni; GLM-4.5-Air FP8 alebo BF16 s obrovským KV
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 natívny (~80 GB) s obrovským KV
- Ostatné: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)
Západná hranica
- Meta lama: Llama 3.3 70B bf16 na jednej karte — dva nezávislé súbežné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo miesta); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta alebo bf16 v oboch; Mistral Small 3 viacero streamov
- OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (80 GB) — zmestí sa na JEDNU kartu, dva nezávislé súbežné streamy
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jednej karte
- Ostatné: Cohere Command R+ 104B Q6 (~85 GB) na jednej karte; Google Gemma 3 27B bf16 viacero súbežných streamov
Modely vizuálno-jazykového vnímania
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 alebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodálny x 2-3 súbežné streamy.
Generovanie obrazu
FLUX.1 [dev] bf16 viacero súbežných streamov; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 súbežné; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 súbežné; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16 — zmestí sa na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generovanie videa
Wan 2.2 MoE duálny expert bf16 plný kontext — zmestí sa na jednu kartu, dva súbežné generačné streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
- ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Poskytovanie viacerých modelov / viacerých nájomníkov
- Dva nezávislé 70B streamy – jeden na kartu, najjednoduchšia forma izolácie nájomníka
- Hustý 70B bf16 + podporný zásobník — LLM na karte 1, obraz/video/zvuk na karte 2
- 200B MoE naprieč oboma kartami — minimálna réžia tenzorovo-paralelného spracovania (obojsmerné rozdelenie)
- fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s Blackwellovými natívnymi cestami
Cieľové pracovné zaťaženia
- Hustá inferencia 70B bf16 — dve karty tenzorovo paralelné s minimálnou réžiou alebo jeden model na kartu pre streamovanie
- 100-150B MoE v Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
- FP8-natívna hraničná inferencia (rodina DeepSeek V3, Hunyuan, Llama 4) — Blackwell spúšťa FP8 natívne
- Štúdio pre generovanie obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
- Analýza dokumentov s dlhým kontextom (MiniMax-M1, Kimi-K2 1.58-bit UD s rozliatím)
Meraný výkon
Publikované referencie | Technický list NVIDIA RTX Pro 6000 Blackwell Server Edition + benchmarky komunity
| mierka | Výsledok |
|---|---|
| INT8 TOPS na kartu (údajový list NVIDIA) | 2 000 TOPOV |
| Agregát INT8 TOPS (2 karty) | 4 000 TOPOV |
| Šírka pásma pamäte na kartu | ~1 800 GB/s, 96 GB ECC GDDR7 |
| Llama 3.3 70B bf16 na kartu (komunitný model) | 15 – 25 tok/s jeden prúd, 60 – 90 tok/s dávka |
| Dvojkartový tenzorovo-paralelný 70B (komunitný) | Očakáva sa ~30-45 tok/s v jednom prúde |
| Blackwell FP8 natívny | DeepSeek-V3 fp8, Hunyuan-A13B fp8 bežia bez prenosu bf16 |
Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.
Nie ideálne pre
- Veľmi vysoká súbežnosť pri poskytovaní služieb pre viacerých nájomcov – 4x L40 alebo 6x L4 sa lepšie rozdeľuje medzi viacero kariet
- Veľká KV vyrovnávacia pamäť pri veľmi dlhom kontexte – prejdite na K-AI 384 RTXPro6000 8000TOPS
- Školenie — Kentino nepredáva látky NVLink triedy H
- Odhad rozpočtu pri 192 GB RAM – 8x RTX 4090 je lacnejšie (výmena ECC a pasívneho chladenia za cenu)
Záruka a dodacia lehota
3-ročná záruka NVIDIA OEM na grafickú kartu RTX Pro 6000 Server Edition + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, záťažové testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Predvojte sa na duálny synchronizovaný zdroj s výkonom 2 kW pre redundanciu N+1
- Rozšírte pamäť RAM na 512 GB (4 voľné sloty DIMM)
- 4 TB NVMe pre rozsiahle knižnice váh a staging modelov
- Rozšírenie na konfiguráciu so 4 kartami (K-AI 384 RTXPro6000 8000TOPS) – šasi má kapacitu slotov
- 24U rack skriňa + online UPS 5 kVA
zdieľam
