Kentino sro
K-AI 96 Rím L40 724TOPS — 2x NVIDIA L40 ECC produkčný inferenčný server
K-AI 96 Rím L40 724TOPS — 2x NVIDIA L40 ECC produkčný inferenčný server
无法加载取货服务可用情况
K-AI 96 Rím L40 724TOPS
2x produkčný server L40 ECC
96 GB ECC VRAM | EPYC Miláno | 724 TOPS INT8
Základný podnikový ECC box s nonstop zabezpečením – 2x pasívny L40, 96 GB ECC VRAM pool, alternatíva k úrovni 4090 na úrovni dátového centra pre regulované nasadenia.
Dvoj-GPU inferenčný server produkčnej triedy postavený na platforme ROMED8-2T / EPYC Milan s dvoma pasívnymi kartami NVIDIA L40. 96 GB ECC GDDR6 fond s rovnakou obálkou VRAM ako 4x RTX 4090, ale s plnou certifikáciou pre dátové centrá, ECC pamäťou na každej karte a tepelným dizajnom navrhnutým pre nepretržitý pracovný cyklus. Správne rozhodnutie tam, kde by RTX 4090 vyvolala obavy zo záruky, spoľahlivosti alebo súladu s predpismi – financie, zdravotníctvo, formálne overovanie a akékoľvek poskytovanie LLM / VLM s trvalou produkciou.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, pasívna, 300 W, dvojslotová, PCIe 4.0 x16) |
| fond VRAM | 96 GB ECC (bez NVLink) |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Bootovanie / úložisko | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackové, pasívne rozširujúce risery Gen4 x16 |
| Chladenie | Vežový chladič SP3 (Arctic Freezer 4U-M), 3x 120 mm predný prívod + 1x 120 mm zadný výfuk |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 2 x 300 W = 600 W
- Celkový výkon systému pri plnom zaťažení: ~925 W
- Celkový výkon zdroja: 2 000 W — 53.8 % priestoru pre výšku
- Pohodlná rezerva pre jeden zdroj, tichá prevádzka
Topológia jazdných pruhov
PCIe Gen4 x16 na oboch GPU (L40 je natívna Gen4 x16). 16 liniek priamo z koreňového komplexu CPU — bez prepínača PCIe. NVLink nie je prítomný na L40 — komunikácia medzi GPU cez PCIe P2P. Šírka pásma pamäte 864 GB/s na kartu.
Čo môžete spustiť
S 96 GB pamäte ECC VRAM na 2 pasívnych kartách L40 tento server zvláda nepretržité podnikové služby LLM, regulované nasadenia, generovanie obrázkov a videa a inferenciu pre viacerých nájomcov, kde je dôležitá spoľahlivosť ECC a záruka dátového centra.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B bf16 s jednou grafickou kartou GPU na jednej L40 s kapacitou 32k ctx (~18-22 tok/s jeden stream na L40, publikovaná referencia)
- Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB) 256k ctx
- Qwen3.5-122B-A10B Q4 (~70 GB) – vlajková loď MoE, dlhý ctx
- QwQ-32B bf16; Hunyuan-A13B 6. štvrťrok (~48 GB)
- DeepSeek-R2 32B riedke MoE bf16 – podpora jednej GPU, dva paralelné streamy
- GLM-4.5-Air 106B/12B Q4-Q5 (pohodlne 60-70 GB)
- Seed-OSS-36B bf16 — 512k natívne ctx; ERNIE-4.5-47B-A3B Q6-Q8
- Baichuan-M2-32B bf16 (medicínske uvažovanie – výhoda ECC)
Západná hranica
- Lama 3.3 70B Q6 (~58 GB) s KV rezervou; Q4_K_M (~43 GB) veľmi dlhý ctx (~15-18 tok/s jeden stream na 2x L40, publikovaná referencia)
- Hermes 3 70B / Tulu 3 70B Q4-Q6; Flame 4 Scout 109B/17B MoE Q4 (~63 GB)
- Mistral Malý 3 / Magistral Malý 1.2 / Devstral Malý 2 (24B) bf16; Mixtral 8x22B Q3-Q4
- gpt-oss-120b MXFP4 (~80 GB) s priestorom pre KV
- Gemma 3 27B multimodálny bf16 so 128k ctx
- Phi-4 14B / Úvaha Fí-4 / Phi-4-multimodálny bf16
- Nemotron-Super 49B Q6-Q8; IBM Granite 4.0 H-Small 32B/9B – súlad podnikov s predpismi
- Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Mysli bf16
Modely vizuálno-jazykového vnímania
Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 až do 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodálny; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.
Generovanie obrazu
L40 má tenzorové jadrá Ada a pamäťovú šírku pásma 864 GB/s na kartu – solídne pre produkčné obrazové kanály: FLUX.1 [dev] / [schnell] fp16 (~24 GB) alebo fp8 (~12 GB) (~15 – 25 sekúnd na obrázok 1024x1024 pri fp8, publikovaná referencia); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generovanie videa
HunyuanVideo 13B bf16 sa zmestí na jeden L40 pri 720p krátky klip; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tenzorovo-paralelný 2-cestný; Wan 2.2 TI2V-5B bf16 na kartu; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
- ASR: Whisper v3 large / turbo (~50x realtime na jednej GPU, publikovaná referencia); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi (200 ms latencia plne duplexný); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
- Hudba / SFX / preklad: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS
Poskytovanie viacerých modelov / viacerých nájomníkov
- 4 – 8 súbežných používateľov na LLM triedy 32-70B prostredníctvom tenzorovo paralelného rozhrania vLLM alebo rozdelenia na kartu
- Zmiešaný stack: Qwen3-32B + FLUX.1 + Whisper-turbo + rezidentná pamäť Moshi s rozdelenou VRAM
- Inferencia LoRA + jemné doladenie 7-14B; na menších modeloch možná plná parameter
- RAG kanály s vloženými komponentmi Command R / Qwen3 + BGE-M3 / E5 / Jina
Cieľové pracovné zaťaženia
- Podnikové služby LLM 24/7 — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
- Regulované nasadenie vyžadujúce pamäť ECC (financie, zdravotníctvo, formálne overenie)
- Poskytovanie v dlhom kontexte — Seed-OSS-36B 512k ctx sa pohodlne zmestí do 96 GB poolu
- Stredne tierené lietadlá MoE slúžiace — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
- Spracovanie dokumentov VLM — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B
Publikované referencie výkonnosti
Publikovaná referencia | 2x porovnateľný hardvér NVIDIA L40
| mierka | Výsledok |
|---|---|
| Lama 3.3 70B Q4_K_M cez 2x L40 tenzorové rozdelenie | ~15-18 tok/s jeden prúd |
| Qwen3-32B bf16 s jednou grafickou kartou na jednom L40 | ~18-22 tok/s jeden prúd |
| vLLM Hunyuan-A13B Q6 na 2x L40 bazén | ~28-34 tok/s jeden prúd |
| HunyuanVideo 13B bf16 na jednom L40 | Krátky klip v rozlíšení 720p – zmestí sa na 48 GB |
| Metriky na kartu | 362 TOPS INT8, 864 GB/s, 300 W TDP |
Publikované, nie merané na kovaní Kentino.
Nie ideálne pre
- Optimalizácia nákladov na TFLOPS — 4x RTX 4090 poskytuje súhrnný výkon 2 644 TFLOPS pri ~40 % ceny komponentu (bez záruky ECC / dátového centra)
- Modely Frontier s hustotou 200B+ – platí limit 96 GB pre fond (potrebný skladový model s kapacitou 192+ GB)
- Generovanie videa v plnom rozlíšení s dlhým formátom v bf16 (dvojexpert z Wan 2.2 MoE chce viac VRAM)
- Školenie od nuly – L40 je certifikovaný pre inferenciu; na školenie použite RTX Pro 6000 / pracovnú stanicu Blackwell
Záruka a dodacia lehota
3-ročná záruka NVIDIA OEM pre dátové centrum na L40 + záruka na integráciu Kentino (2 roky na súčiastky, 1 rok na prácu). Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, zážihové testovanie a overenie funkčnosti.
Odporúčané doplnky
- Upgradujte na 4x L40 (K-AI 192 Rome L40 1448TOPS) pre 192 GB ECC pool a služby na hraničnej úrovni
- Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4) pre väčšie vkladacie/rerankerové zásobníky
- Aktualizácia NVMe na 4 TB pre knižnicu modelov + prípravu dátových súborov
- Redundantný zdroj napájania (duálny synchronizovaný 2 kW) k dispozícii na požiadanie
- Rack PDU + 3 kVA online UPS pre výrobné prostredie
zdieľam
