Kentino sro
K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Miláno
K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Dual EPYC Miláno
Nepodarilo sa načítať dostupnosť vyzdvihnutia
K-AI 192 RímDuálny 4090 5288TOPS
192 GB VRAM 8-GPU inferenčný server
8x RTX 4090 | Duálny EPYC Milan | 5 288 TOPS INT8
Vlajková loď s 8x hernou grafickou kartou. 192 GB RAM za prijateľnú cenu na úrovni spotrebiteľskej karty na dvojsocketovej platforme EPYC Milan.
7U šasi s 8 grafickými procesormi postavené na dvoch procesoroch EPYC 7643 Milan (spolu 96 procesorov/192 technológií), základnej doske ASRock Rack ROME2D32GM-NL s dvoma SP3 procesormi, 512 GB pamäte DDR4 ECC, 2 TB bootovacej pamäte NVMe a 5 serverových zdrojoch s výkonom 1200 W. Osem grafických kariet GeForce RTX 4090 sa pripája cez aktívne rozširujúce karty PCIe Gen4 s plným rozlíšením x16. Najlacnejšia cesta k 192 GB hraničnej pamäti MoE na hardvéri Kentino.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 8x NVIDIA GeForce RTX 4090 24 GB GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16) |
| fond VRAM | Celkom 192 GB na 8 kartách (bez NVLink na spotrebiteľskej RTX 4090) |
| CPU | 2x AMD EPYC 7643 Milan (48C/96T každá — spolu 96C/192T, 225 W každá, 2x 128 PCIe 4.0 liniek) |
| Základná doska | ASRock Rack ROME2D32GM-NL (duálny SP3, PCIe 4.0, 32x DDR4 ECC DIMM sloty) |
| Systémová RAM | 512 GB DDR4-2666 ECC RDIMM (8 x 64 GB — 4 na zásuvku pre 8-kanálovú rovnováhu) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | 5x 1200 W serverový zdroj (kompatibilný s HP, hot-swap) + kompletná sada adaptérov 12VHPWR |
| Podvozok | 7U šasi s 8 GPU (až 10 PCIe kariet vrátane rozširujúcich kariet) |
| stúpačky | 8x aktívnych rozširujúcich slotov PCIe Gen4 x16 (vyžaduje sa nad dĺžku kábla) |
| Chladenie | 2x vežové chladiče Arctic Freezer 4U-M SP3 + rackové prúdenie vzduchu spredu dozadu (priemyselné ventilátory) |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba grafického procesora: 8 x 450 W = 3 600 W
- Spotreba CPU: 2 x 225 W = 450 W
- Celkový výkon systému pri plnom zaťažení: ~4 200 W
- Celkový výkon zdroja: 6 000 W plne aktívny (5x 1 200 W) — 30.0 % rezerva
Topológia jazdných pruhov
ROME2D32GM-NL sprístupňuje 2x 128 liniek PCIe Gen4 – jeden 128-liniový pool na socket EPYC – priamo do slotov GPU. Aktívne rozširujúce obvody retimera Gen4 pre integritu signálu. Žiadny prepínač PCIe. Žiadny NVLink. Nameraná rýchlosť medzi GPU peer-to-peer na 4-GPU benchmarku 19-22 GB/s.
Čo môžete spustiť
So 192 GB na 8 kartách tento server v 4. štvrťroku zvláda viac ako 200B hraničných dátových operácií (MoE), 8-cestnú tenzorovo-paralelnú inferenciu, viacmodelové obsluhovanie izolované od nájomníka a vysokú dávkovú priepustnosť pri úrovni spotrebiteľských kariet.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-235B-A22B Q4 (~132 GB) s dlhým ctx — herná konfigurácia (~15-25 tok/s jeden stream na 8x RTX 4090); Qwen3-Coder-480B-A35B Q2 (~160 GB); Qwen3.5-122B-A10B fp8 (~75 GB) viacero streamov; Qwen3-32B hustý bf16 x viacero súbežných
- DeepSeek: DeepSeek-V3/R1 Q2 (~215 GB s 512 GB hostiteľského úložiska); DeepSeek-R2 32B bf16 — až 8 súbežných streamov, jeden na kartu (~30 – 40 tok/s na stream)
- GLM / Z.ai: GLM-4.5 / 4.6 / 4.7 Q4 (~177 GB); GLM-4.5-Air fp8 alebo bf16; GLM-4.6V 106B
- Tencent Hunyuan: Hunyuan-Large Q3 (~160 GB); Hunyuan-A13B Q4/Q6 (RTX 4090 je Ada – fp8 sa prenáša na bf16, použite kvantá GGUF)
- Ostatné: Baidu ERNIE-4.5-424B Q3 (~180 GB); InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3.5-397B Q3 (~170 GB); MiniMax-M1 Q3 (~180 GB)
Západná hranica
- Meta lama: Llama 3.3 70B bf16 s masívnym KV (~20 tok/s single-stream Q4, ~179 tok/s batch-32 vLLM — Kentino merané na 4-GPU benchmarku); Llama 4 Scout bf16 (~218 GB RAM); Llama 4 Maverick Q3 (~188 GB)
- Mistral: Mistral Large 2 / Pixtral Large 123B Q6 comfort alebo bf16 (~248 GB úniku); Mistral Small 3 multistream
- OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (80 GB) s obrovským KV
- NVIDIA Nemotron: Llama-3.1-Nemotron Ultra 253B Q4 (~147 GB); Super 49B bf16
- Ostatné: Cohere Command R+ 104B Q6 (~85 GB); Google Gemma 3 27B bf16 x viacero streamov
Modely vizuálno-jazykového vnímania
InternVL3.5-241B-A28B Q4 (~135 GB); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 viacprúdový; Llama 3.2 90B Vision bf16 (~180 GB); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodálny x viacero streamov.
Generovanie obrazu
FLUX.1 [vývoj] bf16 — až 8 súbežných generačných streamov (jeden na kartu, ~15-25 s/obrázok pri fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large bf16 x 8; HunyuanImage-2.1 bf16 (~34 GB) x 2-4 súbežné; HunyuanImage-3.0 base (80B MoE, 13B aktívne) bf16; HunyuanDiT; Kolors / Kolors 2.0; AuraFlow; OmniGen v1; PixArt-Sigma.
Generovanie videa
Wan 2.2 MoE dual-expert bf16 s plným ctx — viacero súbežných streamov; Wan 2.2 TI2V-5B x 8 súbežných; HunyuanVideo 13B bf16 oba experty; HunyuanVideo 1.5; CogVideoX-5B bf16; Open-Sora 2.0 11B bf16; Genmo Mochi-1 bf16; LTX-Video x 8 súbežných; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.
Zvuk / Reč / TTS
- ASR: Whisper v3 large / turbo x 8 súbežných (~50x reálny čas na stream); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2/3; Kokoro 82M; XTTS v2; Stabilný zvuk otvorený
- V reálnom čase / S2S: Kyutai Moshi 7B x 8 súbežných hlasových streamov; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2
Poskytovanie viacerých modelov / viacerých nájomníkov
- 8-cestná tenzorovo-paralelná inferencia 200-250B MoE v Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
- 8-streamová služba izolovaná nájomníkom – jeden 24 GB model Q4 na kartu (napr. 8 agentov Qwen3-14B)
- Veľká dávka 70B — tenzorovo paralelný agregát vLLM / SGLang dávky 64
- Zmiešaná flotila: 235B MoE na 4 kartách (TP4) + FLUX + video + hlas v reálnom čase na zostávajúcich 4
- Laboratórium dolaďovania — 7-34B LoRA / QLoRA s veľkou dávkou
Cieľové pracovné zaťaženia
- 8-GPU tenzorovo-paralelná inferencia v 192 GB poole — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
- Hustý 70B bf16 (Llama 3.3 70B) s masívnym KV priestorom pre dlhé CTX a vysokú dávku
- Vysokokapacitná dávková inferenčná brána — vLLM / SGLang tenzorovo paralelný vo veľkej dávke
- Jemné doladenie modelov triedy 7-34B s vysokodávkovým LoRA / QLoRA
- Wan 2.2 dual-expert / HunyuanImage-3.0 / FLUX.1 kompletný pracovný postup pre video a obrazové štúdio
Meraný výkon
Benchmark Kentino (referencia 4 GPU) | 10. 4. 2026 | 4x RTX 4090 + EPYC 7542 + 512 GB DDR04 + ROMED8-2T
| mierka | Výsledok |
|---|---|
| Trvalý výpočtový výkon (fp16, 4-kartová referencia) | 647 TFLOPS |
| vLLM – Llama 3.3 70B AWQ INT4 (single) | 8.0 tok/s |
| vLLM – Llama 3.3 70B AWQ INT4 (šarža-32) | 179 tok/s agregát |
| lama.cpp — Lama 3.3 70B Q4_K_M (single) | Dekódovanie 20.3 tok/s |
| Agregovaný výpočet s 8 GPU (extrapolácia) | Očakáva sa ~1 294 TFLOPS fp16 (takmer lineárne) |
| 235B Q4 tenzorovo paralelný 8-cestný (komunitný) | 15-25 tok/s jeden stream na 8x RTX 4090 |
Údaje zo 4 grafických kariet merané na hardvéri Kentino. Extrapolácia 8 grafických kariet je zverejnená ako externá referencia. Kentino zverejní údaje o 8 grafických kariet od prvej strany po prvej zákazníckej zostave.
Nie ideálne pre
- Zaťaženia generácie 5090 (natívny Blackwell FP8 + vyššie TOPS) – pozri K-AI 256 TurinDual 5090
- Školenie od začiatku (bez NVLink na spotrebiteľskej RTX 4090)
- Citlivá produkcia 24/7 – spotrebiteľská RTX 4090 nemá ECC; uprednostňujte 4x L40 alebo 2x RTX Pro 6000 Server Edition
- Hunyuan / DeepSeek FP8 natívne — RTX 4090 je Ada, FP8 kontrolné body prevedené na bf16
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu s ladením NUMA pre dve pätice, inštaláciu ovládačov, zapálenie, memtest, kompletný záťažový test 8 GPU a nastavenie prostredia LLM. Dodacia lehota závisí od dostupnosti komponentov, ktorá bude potvrdená pri objednávke.
Odporúčané doplnky
- 4 TB dodatočného NVMe na stupňovanie záťaže a odľahčenie MoE
- NVIDIA ConnectX-5 100 GbE pre viacuzlové služby
- Rozšírenie pamäte RAM na 1 TB (16 x 64 GB) alebo 2 TB (32 x 64 GB) – doska podporuje 32 slotov DIMM
- Plná 24U racková skriňa + online UPS 5 kVA
zdieľam
