跳至产品信息
1 / 7

Kentino sro

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server

K-AI 64 Rome 5080 3600TOPS — 4x RTX 5080 Budget AI Server

常规价格 EUR € 11.940,00
常规价格 促销价 EUR € 11.940,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 64 Rím 5080 3600TOPS

Lacný 4-GPU server Blackwell
4x RTX 5080 | EPYC Miláno | 3 600 TOPS INT8

3 600
TOPS INT8
64 GB
fond VRAM
4 GPU
Blackwell
stojan
pripravený

Kentino lacný 4-GPU server Blackwell — 64 GB VRAM pool, agregát 3 600 TOPS INT8, najnižšia cena CZK za TOPS v zostave.

4-GPU Blackwell inferenčný server postavený na RTX 5080 — 360 W na kartu, kremík PCIe 5, 16 GB GDDR7 každá. Štyri karty poskytujú 64 GB združenej VRAM a agregát 3 600 INT8 TOPS za najlepší pomer CZK za TOPS, ktorý Kentino ponúka. Vstup do sveta multi-GPU Blackwell inferencie: ideálny pre vkladanie klastrov, 7-13B model obsluhujúci veľké množstvo, dávkové generovanie obrázkov/videa a 70B Q4 tenzorovo paralelný.

technické vybavenie

Zložka detail
GPU 4x NVIDIA GeForce RTX 5080 16 GB GDDR7 (360 W, PCIe 5.0 x16)
fond VRAM 64 GB
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Jeden 2 kW ATX zdroj
Podvozok 4U rackový, 4x GPU, pasívne rozširujúce karty Gen4 x16, smerované prúdenie vzduchu spredu dozadu
Chladenie Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadné odsávanie (priemyselné ventilátory)
sieť Duálny integrovaný 10 GbE (Intel X550) + IPMI

Napájacia obálka

  • Spotreba grafického procesora: 4 x 360 W = 1 440 W
  • Celkový výkon systému pri plnom zaťažení: ~1 765 W
  • Celkový výkon zdroja: 2 000 W (jeden 2 kW ATX) — 11.75 % rezervy
  • Nad hranicou 10 %, ale pevnejšia ako iné zostavy so 4 grafickými procesormi; pre vysoké pracovné zaťaženie sa odporúča upgrade na dva zdroje.

Topológia jazdných pruhov

ROMED8-2T rozširuje 4x16 Gen4 z koreňového komplexu CPU. 5080 je kremík PCIe Gen5 s Gen4 x16 bez úzkeho pásma pre inferenciu. Žiadny prepínač PCIe. Žiadny NVLink – tenzorový paralelný port cez PCIe.

Čo môžete spustiť

Vďaka 64 GB zdieľanej VRAM na 4 kartách Blackwell tento server spracováva 70B Q4 tenzorovo paralelné operácie, vkladá klastre vo veľkom meradle, dávkové spracovanie obrázkov a videa a 7-13B multi-tenant služby pre 64-128 súbežných používateľov.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-32B Q8 (hustý obraz s kvalitou takmer fp16); Qwen3.5-27B bf16
  • Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB sa zmestí tesne)
  • Qwen3.5-122B-A10B Q4 (~70-75 GB — tesne, prechod na DDR4 RAM)
  • Hunyuan-A13B fp8 (~80 GB natívne — tesné, uprednostňujem Q6)
  • Seed-OSS-36B bf16 (~72 GB tesný)
  • DeepSeek-R2 32B riedky MoE bf16 (~64 GB) (~45-60 tok/s jeden stream v Q4 na Blackwell, publikovaná referencia)
  • GLM-4.5-Air 106B/12B Q3_K (~55 GB) — malý priestor pre KV
  • ERNIE-4.5-47B-A3B 4. štvrťrok (~28 GB s rezervou pre druhý model)

Západná hranica

  • Lama 3.3 70B Q4_K_M (~43 GB) — ideálna hodnota pre tento pool (~30-36 tok/s jeden stream na 4x 5080, publikovaná referencia)
  • Hermes 3 70B / Tulu 3 70B Q4 – otvorené deriváty Llama s plnou transparentnosťou po školení
  • Mistral Malý 3 / Magistrál / Devstral Malý 2 24B bf16
  • Gemma 3 27B multimodálny bf16
  • Phi-4 14B / Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 GB — 4 inštancie na 4 kartách pre paralelných nájomníkov); gpt-oss-120b MXFP4 (80 GB – odolný; odolný voči rozliatiu)

Vízia-Jazyk

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B; InternVL3.5-38B Q6-Q8; Llama 3.2 90B Vision Q4 (približne 52 GB); Pixtral 12B / Pixtral Large 124B Q2-Q3; Gemma 3 27B multimodálny bf16; PaliGemma 2 28B bf16; Molmo 72B Q4 (~45 GB); Aya Vision 32B bf16.

Generovanie obrazu

FLUX.1 [dev] / [shnell] fp16 — dávkové spracovanie 4 paralelných procesov (~10-15 sekúnd na obrázok 1024x1024 pri fp8 na Blackwell, publikovaná referencia); FLUX.1 Kontext [dev] — kontextová úprava naprieč 4 nájomníkmi; SD 3.5 Large (18 GB fp16) — 4 paralelné generátory; SDXL 1.0 + ControlNet + AnimateDiff zásobníky x 4; HunyuanImage-2.1 bf16 na kartu; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.

Generovanie videa

Wan 2.2 TI2V-5B bf16 na jednej karte — 4 paralelní nájomníci; Wan 2.1 14B T2V/I2V Q4-Q6 na kartu; HunyuanVideo 13B Q4 (~30 GB) tenzorovo-paralelný 2-cestný; HunyuanVideo 1.5 (8.3B) bf16 na kartu; Open-Sora 2.0 (11B) Q8 na kartu — 4 paralelné generácie; CogVideoX-5B int8; Mochi-1 Q4 na kartu.

Zvuk / Reč / TTS

Na kartu sa zmestí kompletný západný a čínsky zvukový balík: Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2 / R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. So 4 kartami môže každá karta hostiť vyhradeného rečového nájomníka. Whisper v3 turbo beží rýchlosťou ~50x v reálnom čase na kartu (publikovaná referencia).

Viacmodelový / viacnájomný

Cieľový prípad použitia. 16 GB na kartu odmeňuje rozdelené pracovné zaťaženia:

  • Vkladanie klastra: BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 nájomníci s vysokým RPS
  • 7-13B servírovanie vo veľkom meradle: 16 – 32 súbežných používateľov na kartu cez vLLM / SGLang; celkovo 64 – 128 súbežných používateľov
  • Zmiešané potrubie: Karta 1 = Qwen3-14B + reranker; Karta 2 = Whisper + Moshi; Karta 3 = FLUX.1; Karta 4 = Wan 2.2 TI2V
  • 4-cestná tenzorová paralelnosť pre 70B Q4 — Llama 3.3 70B AWQ INT4 na 4 kartách, agregovaná dávka ~90-130 taktov/s (extrapolované z benchmarku gf-logic 4x4090)

Cieľové pracovné zaťaženia

  • Cenovo dostupná multi-GPU platforma pre obsluhu umelej inteligencie pre startup alebo laboratórium s investičnými nákladmi
  • Vstavaná + RAG infraštruktúra v 4-cestnej horizontálnej škále
  • Dávková farma na generovanie obrázkov/videí (Stable Diffusion / FLUX / Wan 2.2)
  • Malý model 7-13B obsluhujúci rozsiahle riešenia – 4 nezávislí nájomníci alebo 64-128 súbežných nájomníkov v združených službách
  • Vývojový staging box pre 70B Q4 tenzorovo-paralelné pracovné postupy

Publikované referencie výkonnosti

Kentino merané (referencia 4x4090) + publikované odhady 5080

mierka Výsledok
Referencia 4x4090: trvalá fp16 647 TFLOPS
Referencia 4x4090: vLLM Llama 3.3 70B AWQ (šarža-32) 179.3 tok/s agregát
4x4090 referencia: llama.cpp 70B Q4_K_M (jednoduchý) Dekódovanie 20.3 tok/s
Odhadovaný počet 5080: Llama 3.3 70B Q4 TP-4 single ~15-20 tok/s
Odhadovaný 5080: FLUX.1 fp8 na kartu ~2.2 – 2.8 s na 1024 x 1024 pri 20 krokoch

Priepustnosť tenzora 5080 ~1.35x 4090 na INT8 TOPS; dekódovanie jedného streamu je obmedzené šírkou pásma pamäte (GDDR7 ~960 GB/s vs 4090 ~1 008 GB/s – zhruba parita).

Nie ideálne pre

  • Hustota 70B v 6. štvrťroku+ (limit 16 GB na kartu na pamäťovú stopu; kapacita 64 GB je pre 6. štvrťrok obmedzená)
  • Vlajkové lode MoE s dlhodobým kontextom (Qwen3-235B, GLM-4.5) – nedostatočná VRAM aj v 2. štvrťroku
  • Práca s jedným streamom citlivá na latenciu na veľmi veľkých modeloch (TP režijné náklady zaberajú 16 GB karty)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Vylepšený zdroj PSU na duálny 2 kW synchronizovaný ATX – zvyšuje priestor pre výšku až o 55 %
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Upgradujte bootovací disk na 4 TB NVMe
  • Rozšírte RAM na 384 GB (6x 64 GB) – lepší priestor pre súbežné spracovanie viacerých modelov
  • Rack PDU (C13/C19 s meračom) a 3 kVA online UPS
查看完整详细信息