Kentino sro
K-AI 48 Rím 4090 1322TOPS — 2x RTX 4090 Základný AI server
K-AI 48 Rím 4090 1322TOPS — 2x RTX 4090 Základný AI server
Не може да се зареди възможността за взимане
K-AI 48 Rím 4090 1322TOPS
Základný server s 2 grafickými procesormi a 48 GB VRAM
2x RTX 4090 | EPYC Rím | 1 322 TOPS INT8
48 GB VRAM fond na dvoch RTX 4090 – cenová hranica pre tenzorovo-paralelnú inferenciu triedy 32B.
Dvojgpukový server s umelou inteligenciou Ada, postavený na platforme ROMED8-2T / EPYC Rome. Dve grafické karty RTX 4090 poskytujú 48 GB združenej VRAM pamäte, ktorá pohodlne zvláda 32B hustotu Q6-Q8, Hunyuan-A13B pri Q6, 14B video Wan 2.1 a 12B vision Pixtral – najlepší všestranný výber modelov za euro, ktorý ponúka rad Kentino, pred príchodom Blackwellu.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 2x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 W, PCIe 4.0 x16) |
| fond VRAM | 48 GB (bez NVLink — tenzorovo paralelné pripojenie cez PCIe) |
| CPU | AMD EPYC 7542 Rome (32C/64T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Bootovanie / úložisko | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackové, pasívne rozširujúce risery Gen4 x16 |
| Chladenie | Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 2 x 450 W = 900 W
- Celkový výkon systému pri plnom zaťažení: ~1 225 W
- Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 38.75 % rezervy
- Pohodlná rezerva pre jeden zdroj
Topológia jazdných pruhov
ROMED8-2T rozdeľuje 2x16 priamo z koreňového komplexu CPU – bez prepínača PLX. Spotrebiteľ 4090 nemá NVLink; tenzorovo paralelná komunikácia prebieha cez PCIe. PCIe Gen4 x16 na oboch GPU.
Čo môžete spustiť
Vďaka 48 GB zdieľanej VRAM na 2 kartách tento server zvláda husté LLM triedy 32B v 6. až 8. kvartáli, vlajkové lode MoE, generovanie obrázkov a videa, rečovú umelú inteligenciu a obsluhu viacerých klientov.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B hustý Q6-Q8 (~25-35 tok/s jeden prúd na 2x 4090, publikovaná referencia); QwQ-32B Otázka 6; Qwen3.5-27B Q6-Q8
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB tesný; použite Q6)
- Hunyuan-A13B Q6 alebo fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Seed-OSS-36B Q6 — 512k natívne ctx
- DeepSeek-R2 32B riedke MoE bf16 (~64 GB tesné — preferujem Q6 ~45 GB) (~30-40 tok/s jeden stream v Q4, publikovaná referencia)
- ERNIE-4.5-47B-A3B Q4 (~28 GB s rezervou) / Q6 (~42 GB)
Západná hranica
- Lama 3.3 70B Q4_K_M (~43 GB) tenzorovo-paralelný 2-cestný — ideálna hodnota v tejto triede (~14-17 tok/s jeden stream na 2x 4090, publikovaná referencia)
- Flame 4 Scout 109B/17B MoE Q3_K (~51 GB tesný)
- Mistral Malý 3 / Magistral Malý / Devstral Malý 2 (24B) bf16
- Mixtral 8x7B Q6
- Gemma 3 27B bf16; Phi-4 14B bf16
- Nemotron-Super 49B 4. štvrťrok (~28 GB)
- Ostatné: OLMo 2 32B; Reka Flash 3 21B bf16; Falcon H1R 7B
Vízia-Jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B MoE / Qwen3-Omni-30B-A3B; InternVL3-38B Q4-Q5; InternVL3.5-38B; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 27B multimodálny; PaliGemma 2 28B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Generovanie obrazu
FLUX.1 [dev] / [shnell] fp16 (24 GB) alebo fp8 (~12 GB) s veľkorysou dávkou (~15-25 sekúnd na obrázok 1024x1024 pri fp8 na kartu, publikovaná referencia); FLUX.1 Kontext [dev]; SD 3.5 Large (18 GB fp16); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB sa zmestí do skupiny); AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Generovanie videa
Wan 2.1 14B T2V/I2V Q6/fp8; Wan 2.2 TI2V-5B bf16 jedna karta; Wan 2.2 T2V-A14B / I2V-A14B Q4 (~32 GB); HunyuanVideo 13B Q4-Q5 (~30 GB); HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) Q8; CogVideoX-5B / 1.5 bf16; Mochi-1 Q4-Q8; LTX-Video 2B; Pyramid Flow 2B.
Zvuk / Reč / TTS
Plný 24 GB zásobník s dostatkom miesta pre súbežné použitie: Whisper v3 large + Parakeet-TDT + Canary 1B + Moshi + Step-Audio 2 mini + CosyVoice 3.0 + Kokoro 82M + Stable Audio Open, všetky sú dostupné súčasne. Whisper v3 turbo beží na jednej karte rýchlosťou ~50x v reálnom čase (publikovaná referencia).
Viacmodelový / viacnájomný
- 2 – 4 súbežní používatelia na 32B Q6 LLM triedy cez vLLM tenzorovo-paralelné spracovanie
- Zmiešaná záťaž: Qwen3-32B Q6 (~20 GB) + FLUX.1 fp8 (~12 GB) + Whisper-turbo (1.6 GB) + Moshi (8 GB) rezidentne na 2 kartách
- Jemné doladenie LoRA / QLoRA pre modely 7-14B pohodlné, 24-32B tesné
Cieľové pracovné zaťaženia
- Dvojoperátorská pracovná stanica s umelou inteligenciou so zmiešaným LLM + obrazovým + zvukovým zásobníkom
- Koncový bod triedy 32B pre vývojárske prostredie malých tímov (4 – 8 súbežných používateľov na Qwen3-32B / Gemma 3 27B)
- Dávková výroba kanála generovania obrazu (FLUX.1 + SD 3.5 + ControlNet)
- Vývojová jednotka Video-gen (Wan 2.1 / Wan 2.2 TI2V / HunyuanVideo 1.5)
- Výskumný box LoRA / QLoRA na jemné doladenie pre čínske a západné váhy 7-34B
Publikované referencie výkonnosti
Publikovaná referencia | 2x porovnateľný hardvér s RTX 4090
| mierka | Výsledok |
|---|---|
| Lama 3.3 70B Q4_K_M dekódovanie lamy.cpp | ~14-17 tok/s jeden prúd |
| Qwen3-32B Q6 vLLM jednoprúdový | ~35-45 tok/s dekódovanie |
| FLUX.1 [vývoj] fp8 | ~2.5 – 3.0 s na 1024 x 1024 pri 20 krokoch |
| Agregát vLLM šarže-32 (extrapolovaný zo 4x4090) | ~90 tok/s agregát |
Publikované referenčné body z porovnateľného hardvéru 2x4090. Neboli merané na hardvéri Kentino.
Nie ideálne pre
- 70B hustota pri Q6+ (vyžaduje 96 GB priestoru — možnosť zvýšenia na 4x RTX 4090 alebo 4x RTX 5090)
- Frontier 100B+ MoE na bf16 (GLM-4.5, Kimi K2, Mistral Large 3)
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 2 TB NVMe
- Rozšírte RAM na 256 GB (4x 64 GB) – viac priestoru pre vyrovnávaciu pamäť KV pre dlhodobé CTX MoE
- Rack PDU (C13/C19 s meračom) a 2 kVA online UPS
zdieľam
