Kentino sro
K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server
K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server
无法加载取货服务可用情况
K-AI 64 Rím 5080 3600TOPS
Lacný 4-GPU server Blackwell
4x RTX 5080 | EPYC Miláno | 3 600 TOPS INT8
Kentino lacný 4-GPU server Blackwell — 64 GB VRAM pool, agregát 3 600 TOPS INT8, najnižšia cena CZK za TOPS v zostave.
4-GPU Blackwell inferenčný server postavený na RTX 5080 — 360 W na kartu, kremík PCIe 5, 16 GB GDDR7 každá. Štyri karty poskytujú 64 GB združenej VRAM a agregát 3 600 INT8 TOPS za najlepší pomer CZK za TOPS, ktorý Kentino ponúka. Vstup do sveta multi-GPU Blackwell inferencie: ideálny pre vkladanie klastrov, 7-13B model obsluhujúci veľké množstvo, dávkové generovanie obrázkov/videa a 70B Q4 tenzorovo paralelný.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 5080 16 GB GDDR7 (360 W, PCIe 5.0 x16) |
| fond VRAM | 64 GB |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackový, 4x GPU, pasívne rozširujúce karty Gen4 x16, smerované prúdenie vzduchu spredu dozadu |
| Chladenie | Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie (priemyselné ventilátory) |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 4 x 360 W = 1 440 W
- Celkový výkon systému pri plnom zaťažení: ~1 765 W
- Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 11.75 % rezervy
- Nad hranicou 10 %, ale pevnejšia ako iné zostavy so 4 grafickými procesormi; pre vysoké pracovné zaťaženie sa odporúča upgrade na dva zdroje.
Topológia jazdných pruhov
ROMED8-2T rozširuje 4x16 Gen4 z koreňového komplexu CPU. 5080 je kremík PCIe Gen5 s Gen4 x16 bez úzkeho pásma pre inferenciu. Žiadny prepínač PCIe. Žiadny NVLink – tenzorový paralelný port cez PCIe.
Čo môžete spustiť
Vďaka 64 GB zdieľanej VRAM na 4 kartách Blackwell tento server spracováva 70B Q4 tenzorovo paralelné operácie, vkladá klastre vo veľkom meradle, dávkové spracovanie obrázkov a videa a 7-13B multi-tenant služby pre 64-128 súbežných používateľov.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B Q8 (hustý obraz s kvalitou takmer fp16); Qwen3.5-27B bf16
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB sa zmestí tesne)
- Qwen3.5-122B-A10B Q4 (~70-75 GB — tesne, prechod na DDR4 RAM)
- Hunyuan-A13B fp8 (~80 GB natívne — tesné, uprednostňujem Q6)
- Seed-OSS-36B bf16 (~72 GB tesný)
- DeepSeek-R2 32B riedky MoE bf16 (~64 GB) (~45-60 tok/s jeden stream v Q4 na Blackwell, publikovaná referencia)
- GLM-4.5-Air 106B/12B Q3_K (~55 GB) — malý priestor pre KV
- ERNIE-4.5-47B-A3B 4. štvrťrok (~28 GB s rezervou pre druhý model)
Západná hranica
- Lama 3.3 70B Q4_K_M (~43 GB) — ideálna hodnota pre tento pool (~30-36 tok/s jeden stream na 4x 5080, publikovaná referencia)
- Hermes 3 70B / Tulu 3 70B Q4 – otvorené deriváty Llama s plnou transparentnosťou po školení
- Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16
- Gemma 3 27B multimodálny bf16
- Phi-4 14B / Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 GB — 4 inštancie na 4 kartách pre paralelných nájomníkov); gpt-oss-120b MXFP4 (80 GB – odolný; odolný voči rozliatiu)
Vízia-Jazyk
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B; InternVL3.5-38B Q6-Q8; Llama 3.2 90B Vision Q4 (približne 52 GB); Pixtral 12B / Pixtral Large 124B Q2-Q3; Gemma 3 27B multimodálny bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB); Aya Vision 32B bf16.
Generovanie obrazu
FLUX.1 [dev] / [shnell] fp16 — dávkové spracovanie 4 paralelných procesov (~10-15 sekúnd na obrázok 1024x1024 pri fp8 na Blackwell, publikovaná referencia); FLUX.1 Kontext [dev] — kontextová úprava naprieč 4 nájomníkmi; SD 3.5 Large (18 GB fp16) — 4 paralelné generátory; SDXL 1.0 + ControlNet + AnimateDiff zásobníky x 4; HunyuanImage-2.1 bf16 na kartu; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.
Generovanie videa
Wan 2.2 TI2V-5B bf16 na jednej karte — 4 paralelní nájomníci; Wan 2.1 14B T2V/I2V Q4-Q6 na kartu; HunyuanVideo 13B Q4 (~30 GB) tenzorovo-paralelný 2-cestný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) Q8 na kartu — 4 paralelné generácie; CogVideoX-5B int8; Mochi-1 Q4 na kartu.
Zvuk / Reč / TTS
Na kartu sa zmestí kompletný západný a čínsky zvukový balík: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. So 4 kartami môže každá karta hostiť vyhradeného rečového nájomníka. Whisper v3 turbo beží rýchlosťou ~50x v reálnom čase na kartu (publikovaná referencia).
Viacmodelový / viacnájomný
Cieľový prípad použitia. 16 GB na kartu odmeňuje rozdelené pracovné zaťaženia:
- Vkladanie klastra: BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 nájomníci s vysokým RPS
- 7-13B servírovanie vo veľkom meradle: 16 – 32 súbežných používateľov na kartu cez vLLM / SGLang; celkovo 64 – 128 súbežných používateľov
- Zmiešané potrubie: Karta 1 = Qwen3-14B + reranker; Karta 2 = Whisper + Moshi; Karta 3 = FLUX.1; Karta 4 = Wan 2.2 TI2V
- 4-cestná tenzorová paralelnosť pre 70B Q4 — Llama 3.3 70B AWQ INT4 na 4 kartách, agregovaná dávka ~90-130 taktov/s (extrapolované z benchmarku gf-logic 4x4090)
Cieľové pracovné zaťaženia
- Cenovo dostupná multi-GPU platforma pre obsluhu umelej inteligencie pre startup alebo laboratórium s investičnými nákladmi
- Vstavaná + RAG infraštruktúra v 4-cestnej horizontálnej škále
- Dávková farma na generovanie obrázkov/videí (Stable Diffusion / FLUX / Wan 2.2)
- Malý model 7-13B obsluhujúci rozsiahle riešenia – 4 nezávislí nájomníci alebo 64-128 súbežných nájomníkov v združených službách
- Vývojový staging box pre 70B Q4 tenzorovo-paralelné pracovné postupy
Publikované referencie výkonnosti
Kentino merané (referencia 4x4090) + publikované odhady 5080
| mierka | Výsledok |
|---|---|
| Referencia 4x4090: trvalá fp16 | 647 TFLOPS |
| Referencia 4x4090: vLLM Llama 3.3 70B AWQ (šarža-32) | 179.3 tok/s agregát |
| 4x4090 referencia: llama.cpp 70B Q4_K_M (jednoduchý) | Dekódovanie 20.3 tok/s |
| Odhadovaný počet 5080: Llama 3.3 70B Q4 TP-4 single | ~15-20 tok/s |
| Odhadovaný 5080: FLUX.1 fp8 na kartu | ~2.2 – 2.8 s na 1024 x 1024 pri 20 krokoch |
Priepustnosť tenzora 5080 ~1.35x 4090 na INT8 TOPS; dekódovanie jedného streamu je obmedzené šírkou pásma pamäte (GDDR7 ~960 GB/s vs 4090 ~1 008 GB/s – zhruba parita).
Nie ideálne pre
- Hustota 70B v 6. štvrťroku+ (limit 16 GB na kartu na pamäťovú stopu; kapacita 64 GB je pre 6. štvrťrok obmedzená)
- Vlajkové lode MoE s dlhodobým kontextom (Qwen3-235B, GLM-4.5) – nedostatočná VRAM aj v 2. štvrťroku
- Práca s jedným streamom citlivá na latenciu na veľmi veľkých modeloch (TP režijné náklady zaberajú 16 GB karty)
Záruka a dodacia lehota
Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Vylepšený zdroj PSU na duálny 2 kW synchronizovaný ATX – zvyšuje priestor pre výšku až o 55 %
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Upgradujte bootovací disk na 4 TB NVMe
- Rozšírte RAM na 384 GB (6x 64 GB) – lepší priestor pre súbežné spracovanie viacerých modelov
- Rack PDU (C13/C19 s meračom) a 3 kVA online UPS
zdieľam
