Preskočiť na informácie o produkte
1 of 7

Kentino sro

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Miláno

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Miláno

Normálna cena EUR € 32.280,00
Normálna cena Zľavnená cena EUR € 32.280,00
ZĽAVA Vypredané
Vrátane daní. Doprava vypočítané pri pokladni.

K-AI 192 RímDuálny 4090 5288TOPS

192 GB VRAM 8-GPU inferenčný server
8x RTX 4090 | Duálny EPYC Milan | 5 288 TOPS INT8

5 288
INT8 VRCHY
192 GB
fond VRAM
8-GPU
tenzorová rovnobežka
dvojaký
Procesor 96C/192T

Vlajková loď s 8x hernou grafickou kartou. 192 GB RAM za prijateľnú cenu na úrovni spotrebiteľskej karty na dvojsocketovej platforme EPYC Milan.

7U šasi s 8 grafickými procesormi postavené na dvoch procesoroch EPYC 7643 Milan (spolu 96 procesorov/192 technológií), základnej doske ASRock Rack ROME2D32GM-NL s dvoma SP3 procesormi, 512 GB pamäte DDR4 ECC, 2 TB bootovacej pamäte NVMe a 5 serverových zdrojoch s výkonom 1200 W. Osem grafických kariet GeForce RTX 4090 sa pripája cez aktívne rozširujúce karty PCIe Gen4 s plným rozlíšením x16. Najlacnejšia cesta k 192 GB hraničnej pamäti MoE na hardvéri Kentino.

technické vybavenie

Zložka detail
GPU 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16)
fond VRAM Celkom 192 GB na 8 kartách (bez NVLink na spotrebiteľskej RTX 4090)
CPU 2x AMD EPYC 7643 Milan (48C/96T každá — spolu 96C/192T, 225 W každá, 2x 128 PCIe 4.0 liniek)
Základná doska ASRock Rack ROME2D32GM-NL (duálny SP3, PCIe 4.0, 32x DDR4 ECC DIMM sloty)
Systémová RAM 512 GB DDR4-2666 ECC RDIMM (8 x 64 GB — 4 na zásuvku pre 8-kanálovú rovnováhu)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 5x 1200 W serverový zdroj (kompatibilný s HP, hot-swap) + kompletná sada adaptérov 12VHPWR
Podvozok 7U šasi s 8 GPU (až 10 PCIe kariet vrátane rozširujúcich kariet)
stúpačky 8x aktívnych rozširujúcich slotov PCIe Gen4 x16 (vyžaduje sa nad dĺžku kábla)
Chladenie 2x vežové chladiče Arctic Freezer 4U-M SP3 + rackové prúdenie vzduchu spredu dozadu (priemyselné ventilátory)
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 8 x 450 W = 3 600 W
  • Spotreba CPU: 2 x 225 W = 450 W
  • Celkový výkon systému pri plnom zaťažení: ~4 200 W
  • Celkový výkon zdroja: 6 000 W plne aktívny (5x 1 200 W) — 30.0 % rezerva

Topológia jazdných pruhov

ROME2D32GM-NL sprístupňuje 2x 128 liniek PCIe Gen4 – jeden 128-liniový pool na socket EPYC – priamo do slotov GPU. Aktívne rozširujúce obvody retimera Gen4 pre integritu signálu. Žiadny prepínač PCIe. Žiadny NVLink. Nameraná rýchlosť medzi GPU peer-to-peer na 4-GPU benchmarku 19-22 GB/s.

Čo môžete spustiť

So 192 GB na 8 kartách tento server v 4. štvrťroku zvláda viac ako 200B hraničných dátových operácií (MoE), 8-cestnú tenzorovo-paralelnú inferenciu, viacmodelové obsluhovanie izolované od nájomníka a vysokú dávkovú priepustnosť pri úrovni spotrebiteľských kariet.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlhým ctx — herná konfigurácia (~15-25 tok/s jeden stream na 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) viacero streamov; Qwen3-32B hustý bf16 x viacero súbežných
  • DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s 512 GB hostiteľského úložiska); DeepSeek-R2 32B bf16 — až 8 súbežných streamov, jeden na kartu (~30 – 40 tok/s na stream)
  • GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 alebo bf16; GLM-4.6V 106B
  • Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 je Ada – fp8 sa prenáša na bf16, použite kvantá GGUF)
  • Ostatné: Baidu ERNIE-4.5-424B Q3 ​​(~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)

Západná hranica

  • Meta lama: Llama 3.3 70B bf16 s masívnym KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino merané na 4-GPU benchmarku); Llama 4 Scout bf16 (~218 GB RAM); Llama 4 Maverick Q3 (~188 GB)
  • Mistral: Mistral Large 2 / Pixtral Large 123B Q6 comfort alebo bf16 (~248 GB úniku); Mistral Small 3 multistream
  • OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (80 GB) s obrovským KV
  • NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
  • Ostatné: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x viacero streamov

Modely vizuálno-jazykového vnímania

InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 viacprúdový; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodálny x viacero streamov.

Generovanie obrazu

FLUX.1 [vývoj] bf16 — až 8 súbežných generačných streamov (jeden na kartu, ~15-25 s/obrázok pri fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 súbežné; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 MoE dual-expert bf16 s plným ctx — viacero súbežných streamov; Wan 2.2 TI2V-5B x 8 súbežných; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 súbežných; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Reč / TTS

  • ASR: Whisper v3 large / turbo x 8 súbežných (~50x reálny čas na stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený
  • V reálnom čase / S2S: Kyutai Moshi 7B x 8 súbežných hlasových streamov; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • 8-cestná tenzorovo-paralelná inferencia 200-250B MoE v Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
  • 8-streamová služba izolovaná nájomníkom – jeden 24 GB model Q4 na kartu (napr. 8 agentov Qwen3-14B)
  • Veľká dávka 70B — tenzorovo paralelný agregát vLLM / SGLang dávky 64
  • Zmiešaná flotila: 235B MoE na 4 kartách (TP4) + FLUX + video + hlas v reálnom čase na zostávajúcich 4
  • Laboratórium dolaďovania — 7-34B LoRA / QLoRA s veľkou dávkou

Cieľové pracovné zaťaženia

  • 8-GPU tenzorovo-paralelná inferencia v 192 GB poole — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
  • Hustý 70B bf16 (Llama 3.3 70B) s masívnym KV priestorom pre dlhé CTX a vysokú dávku
  • Vysokokapacitná dávková inferenčná brána — vLLM / SGLang tenzorovo paralelný vo veľkej dávke
  • Jemné doladenie modelov triedy 7-34B s vysokodávkovým LoRA / QLoRA
  • Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 kompletný pracovný postup pre video a obrazové štúdio

Meraný výkon

Benchmark Kentino (referencia 4 GPU) | 10. 4. 2026 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR04 + ROMED8-2T

mierka Výsledok
Trvalý výpočtový výkon (fp16, 4-kartová referencia) 647 TFLOPS
vLLM – Llama 3.3 70B AWQ INT4 (single) 8.0 tok/s
vLLM – Llama 3.3 70B AWQ INT4 (šarža-32) 179 tok/s agregát
lama.cpp — Lama 3.3 70B Q4_K_M (single) Dekódovanie 20.3 tok/s
Agregovaný výpočet s 8 GPU (extrapolácia) Očakáva sa ~1 294 TFLOPS fp16 (takmer lineárne)
235B Q4 tenzorovo paralelný 8-cestný (komunitný) 15-25 tok/s jeden stream na 8x RTX 4090

Údaje zo 4 grafických kariet merané na hardvéri Kentino. Extrapolácia 8 grafických kariet je zverejnená ako externá referencia. Kentino zverejní údaje o 8 grafických kariet od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Zaťaženia generácie 5090 (natívny Blackwell FP8 + vyššie TOPS) – pozri K-AI 256 TurinDual 5090
  • Školenie od začiatku (bez NVLink na spotrebiteľskej RTX 4090)
  • Citlivá produkcia 24/7 – spotrebiteľská RTX 4090 nemá ECC; uprednostňujte 4x L40 alebo 2x RTX Pro 6000 Server Edition
  • Hunyuan / DeepSeek FP8 natívne — RTX 4090 je Ada, FP8 kontrolné body prevedené na bf16

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu s ladením NUMA pre dve pätice, inštaláciu ovládačov, zapálenie, memtest, kompletný záťažový test 8 GPU a nastavenie prostredia LLM. Dodacia lehota závisí od dostupnosti komponentov, ktorá bude potvrdená pri objednávke.

Odporúčané doplnky

  • 4 TB dodatočného NVMe na stupňovanie záťaže a odľahčenie MoE
  • NVIDIA ConnectX-5 100 GbE pre viacuzlové služby
  • Rozšírenie pamäte RAM na 1 TB (16 x 64 GB) alebo 2 TB (32 x 64 GB) – doska podporuje 32 slotov DIMM
  • Plná 24U racková skriňa + online UPS 5 kVA
Zobraziť všetky podrobnosti