跳至产品信息
1 / 7

Kentino sro

K-AI 192 Rím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Miláno

K-AI 192 Rím RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Miláno

常规价格 EUR € 25.162,00
常规价格 促销价 EUR € 25.162,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 192 Rím RTXPro6000 4000TOPS

192 GB ECC Blackwell Flagship Pair
2x RTX Pro 6000 Server Edition | EPYC Milan | 4 000 TOPS INT8

4 000
INT8 VRCHY
192 GB
ECC VRAM
Blackwell
natívny FP8
2-karta
minimálny TP

Dve pasívne grafické karty RTX Pro 6000 Blackwell Server Edition — každá s 96 GB ECC. Nižšia réžia tenzorového paralelného spracovania ako pri zostavách so 4 alebo 8 kartami. Vlajková loď pre dátové centrá.

4U rackový inferenčný server s dvoma pasívnymi kartami RTX Pro 6000 Blackwell Server Edition (96 GB ECC GDDR7 na kartu), jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a jedným 2 kW ATX zdrojom. Pre 70B hustý bf16 a stredne veľký MoE je menej veľkých kariet lepších ako viac malých kariet – tenzorový paralelizmus dvoch kariet má minimálnu komunikačnú réžiu a každá 96 GB karta obsahuje kompletnú kópiu väčšiny modelov.

technické vybavenie

Zložka detail
GPU 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 GB ECC GDDR7 (pasívna, 600 W, PCIe 5.0 x16, dvojslotová)
fond VRAM 192 GB ECC (96 GB x 2) – každá karta pojme samostatný model 70B bf16
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 1x 2 kW ATX zdroj
Podvozok 4U rackový systém s prúdením vzduchu smerom spredu dozadu
Chladenie Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 2 x 600 W = 1 200 W
  • Celkový výkon systému pri plnom zaťažení: ~1 525 W
  • Celkový výkon zdroja: 2 000 W (jeden 2 kW) — 23.7 % priestoru pre výšku
  • Postačuje jeden zdroj; voliteľné rozšírenie o dva zdroje pre redundanciu N+1

Topológia jazdných pruhov

PCIe Gen4 x16 na GPU (karta je natívna pre Gen5; doska Rome je obmedzená na Gen4). Priame pripojenie root-complex – bez prepínača PCIe. Bez NVLink – peer-to-peer medzi GPU. Päť slotov x16 zostáva voľných pre rozšírenie. Gen4 vs Gen5 je pri tejto hustote VRAM zanedbateľná pre inferenciu.

Čo môžete spustiť

So 192 GB ECC VRAM na iba dvoch kartách Blackwell s natívnym FP8/FP4 je to najčistejšia cesta k hustým 70B streamom pri bf16 a stredne veľkým MoE. Dva nezávislé 70B streamy – jeden na kartu – alebo 200B MoE v oboch s minimálnou réžiou obojsmerného TP.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) pohodlný s dlhým ctx (~15-25 tok/s jeden stream naprieč 2 kartami); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB); Qwen3-32B hustý bf16 s obrovským KV; QwQ-32B bf16
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s malým prebytkom RAM) — Blackwell natívne spúšťa FP8; DeepSeek-R2 32B bf16 dva súbežné streamy (jeden na kartu)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB) — konfigurácia hrdinu na tejto úrovni; GLM-4.5-Air FP8 alebo BF16 s obrovským KV
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB) — 389B MoE s 256k ctx; Hunyuan-A13B fp8 natívny (~80 GB) s obrovským KV
  • Ostatné: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); MiniMax-M1 Q3 (~180 GB)

Západná hranica

  • Meta lama: Llama 3.3 70B bf16 na jednej karte — dva nezávislé súbežné 70B streamy (~20-30 tok/s na stream); Llama 4 Scout bf16 (~218 GB, málo miesta); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 GB) jedna karta alebo bf16 v oboch; Mistral Small 3 viacero streamov
  • OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (80 GB) — zmestí sa na JEDNU kartu, dva nezávislé súbežné streamy
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16 na jednej karte
  • Ostatné: Cohere Command R+ 104B Q6 (~85 GB) na jednej karte; Google Gemma 3 27B bf16 viacero súbežných streamov

Modely vizuálno-jazykového vnímania

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 jedna karta; Pixtral Large 124B bf16 alebo Q6; Llama 3.2 90B Vision bf16 (~180 GB); Molmo 72B bf16 (~144 GB); GLM-4.6V 106B fp8; Gemma 3 27B multimodálny x 2-3 súbežné streamy.

Generovanie obrazu

FLUX.1 [dev] bf16 viacero súbežných streamov; FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large bf16 súbežné; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 súbežné; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16 — zmestí sa na jednu kartu; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 MoE duálny expert bf16 plný kontext — zmestí sa na jednu kartu, dva súbežné generačné streamy; Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Dva nezávislé 70B streamy – jeden na kartu, najjednoduchšia forma izolácie nájomníka
  • Hustý 70B bf16 + podporný zásobník — LLM na karte 1, obraz/video/zvuk na karte 2
  • 200B MoE naprieč oboma kartami — minimálna réžia tenzorovo-paralelného spracovania (obojsmerné rozdelenie)
  • fp8-native frontier — rodina DeepSeek V3, Hunyuan-Large fp8 s Blackwellovými natívnymi cestami

Cieľové pracovné zaťaženia

  • Hustá inferencia 70B bf16 — dve karty tenzorovo paralelné s minimálnou réžiou alebo jeden model na kartu pre streamovanie
  • 100-150B MoE v Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • FP8-natívna hraničná inferencia (rodina DeepSeek V3, Hunyuan, Llama 4) — Blackwell spúšťa FP8 natívne
  • Štúdio pre generovanie obrazu a videa v bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
  • Analýza dokumentov s dlhým kontextom (MiniMax-M1, Kimi-K2 1.58-bit UD s rozliatím)

Meraný výkon

Publikované referencie | Technický list NVIDIA RTX Pro 6000 Blackwell Server Edition + benchmarky komunity

mierka Výsledok
INT8 TOPS na kartu (údajový list NVIDIA) 2 000 TOPOV
Agregát INT8 TOPS (2 karty) 4 000 TOPOV
Šírka pásma pamäte na kartu ~1 800 GB/s, 96 GB ECC GDDR7
Llama 3.3 70B bf16 na kartu (komunitný model) 15 – 25 tok/s jeden prúd, 60 – 90 tok/s dávka
Dvojkartový tenzorovo-paralelný 70B (komunitný) Očakáva sa ~30-45 tok/s v jednom prúde
Blackwell FP8 natívny DeepSeek-V3 fp8, Hunyuan-A13B fp8 bežia bez prenosu bf16

Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Veľmi vysoká súbežnosť pri poskytovaní služieb pre viacerých nájomcov – 4x L40 alebo 6x L4 sa lepšie rozdeľuje medzi viacero kariet
  • Veľká KV vyrovnávacia pamäť pri veľmi dlhom kontexte – prejdite na K-AI 384 RTXPro6000 8000TOPS
  • Školenie — Kentino nepredáva látky NVLink triedy H
  • Odhad rozpočtu pri 192 GB RAM – 8x RTX 4090 je lacnejšie (výmena ECC a pasívneho chladenia za cenu)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

3-ročná záruka NVIDIA OEM na grafickú kartu RTX Pro 6000 Server Edition + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, záťažové testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Predvojte sa na duálny synchronizovaný zdroj s výkonom 2 kW pre redundanciu N+1
  • Rozšírte pamäť RAM na 512 GB (4 voľné sloty DIMM)
  • 4 TB NVMe pre rozsiahle knižnice váh a staging modelov
  • Rozšírenie na konfiguráciu so 4 kartami (K-AI 384 RTXPro6000 8000TOPS) – šasi má kapacitu slotov
  • 24U rack skriňa + online UPS 5 kVA
查看完整详细信息