跳至产品信息
1 / 7

Kentino sro

K-AI 96 Rím L40 724TOPS — 2x NVIDIA L40 ECC produkčný inferenčný server

K-AI 96 Rím L40 724TOPS — 2x NVIDIA L40 ECC produkčný inferenčný server

常规价格 EUR € 23.144,00
常规价格 促销价 EUR € 23.144,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 96 Rím L40 724TOPS

2x produkčný server L40 ECC
96 GB ECC VRAM | EPYC Miláno | 724 TOPS INT8

724
TOPS INT8
96 GB
ECC VRAM
ECC
úroveň dátového centra
24/7
výroba

Základný podnikový ECC box s nonstop zabezpečením – 2x pasívny L40, 96 GB ECC VRAM pool, alternatíva k úrovni 4090 na úrovni dátového centra pre regulované nasadenia.

Dvoj-GPU inferenčný server produkčnej triedy postavený na platforme ROMED8-2T / EPYC Milan s dvoma pasívnymi kartami NVIDIA L40. 96 GB ECC GDDR6 fond s rovnakou obálkou VRAM ako 4x RTX 4090, ale s plnou certifikáciou pre dátové centrá, ECC pamäťou na každej karte a tepelným dizajnom navrhnutým pre nepretržitý pracovný cyklus. Správne rozhodnutie tam, kde by RTX 4090 vyvolala obavy zo záruky, spoľahlivosti alebo súladu s predpismi – financie, zdravotníctvo, formálne overovanie a akékoľvek poskytovanie LLM / VLM s trvalou produkciou.

technické vybavenie

Zložka detail
GPU 2x NVIDIA L40 48 GB GDDR6 ECC (Ada Lovelace, pasívna, 300 W, dvojslotová, PCIe 4.0 x16)
fond VRAM 96 GB ECC (bez NVLink)
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Bootovanie / úložisko 1 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj Jeden 2 kW ATX zdroj
Podvozok 4U rackové, pasívne rozširujúce risery Gen4 x16
Chladenie Vežový chladič SP3 (Arctic Freezer 4U-M), 3x 120 mm predný prívod + 1x 120 mm zadný výfuk
sieť Duálny integrovaný 10 GbE (Intel X550) + IPMI

Napájacia obálka

  • Spotreba grafického procesora: 2 x 300 W = 600 W
  • Celkový výkon systému pri plnom zaťažení: ~925 W
  • Celkový výkon zdroja: 2 000 W — 53.8 % priestoru pre výšku
  • Pohodlná rezerva pre jeden zdroj, tichá prevádzka

Topológia jazdných pruhov

PCIe Gen4 x16 na oboch GPU (L40 je natívna Gen4 x16). 16 liniek priamo z koreňového komplexu CPU — bez prepínača PCIe. NVLink nie je prítomný na L40 — komunikácia medzi GPU cez PCIe P2P. Šírka pásma pamäte 864 GB/s na kartu.

Čo môžete spustiť

S 96 GB pamäte ECC VRAM na 2 pasívnych kartách L40 tento server zvláda nepretržité podnikové služby LLM, regulované nasadenia, generovanie obrázkov a videa a inferenciu pre viacerých nájomcov, kde je dôležitá spoľahlivosť ECC a záruka dátového centra.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3-32B bf16 s jednou grafickou kartou GPU na jednej L40 s kapacitou 32k ctx (~18-22 tok/s jeden stream na L40, publikovaná referencia)
  • Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 GB) 256k ctx
  • Qwen3.5-122B-A10B Q4 (~70 GB) – vlajková loď MoE, dlhý ctx
  • QwQ-32B bf16; Hunyuan-A13B 6. štvrťrok (~48 GB)
  • DeepSeek-R2 32B riedke MoE bf16 – podpora jednej GPU, dva paralelné streamy
  • GLM-4.5-Air 106B/12B Q4-Q5 (pohodlne 60-70 GB)
  • Seed-OSS-36B bf16 — 512k natívne ctx; ERNIE-4.5-47B-A3B Q6-Q8
  • Baichuan-M2-32B bf16 (medicínske uvažovanie – výhoda ECC)

Západná hranica

  • Lama 3.3 70B Q6 (~58 GB) s KV rezervou; Q4_K_M (~43 GB) veľmi dlhý ctx (~15-18 tok/s jeden stream na 2x L40, publikovaná referencia)
  • Hermes 3 70B / Tulu 3 70B Q4-Q6; Flame 4 Scout 109B/17B MoE Q4 (~63 GB)
  • Mistral Malý 3 / Magistral Malý 1.2 / Devstral Malý 2 (24B) bf16; Mixtral 8x22B Q3-Q4
  • gpt-oss-120b MXFP4 (~80 GB) s priestorom pre KV
  • Gemma 3 27B multimodálny bf16 so 128k ctx
  • Phi-4 14B / Úvaha Fí-4 / Phi-4-multimodálny bf16
  • Nemotron-Super 49B Q6-Q8; IBM Granite 4.0 H-Small 32B/9B – súlad podnikov s predpismi
  • Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Mysli bf16

Modely vizuálno-jazykového vnímania

Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B; InternVL3 až do 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 12B / 27B multimodálny; PaliGemma 2 (3/10/28B); MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V-Flash; Molmo 72B Q4; Aya Vision 32B.

Generovanie obrazu

L40 má tenzorové jadrá Ada a pamäťovú šírku pásma 864 GB/s na kartu – solídne pre produkčné obrazové kanály: FLUX.1 [dev] / [schnell] fp16 (~24 GB) alebo fp8 (~12 GB) (~15 – 25 sekúnd na obrázok 1024x1024 pri fp8, publikovaná referencia); FLUX.1 Kontext [dev]; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0 + ControlNet + AnimateDiff; HunyuanImage-2.1 bf16 (~34 GB); Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generovanie videa

HunyuanVideo 13B bf16 sa zmestí na jeden L40 pri 720p krátky klip; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 GB) tenzorovo-paralelný 2-cestný; Wan 2.2 TI2V-5B bf16 na kartu; Wan 2.1 14B fp8 / bf16; HunyuanVideo 1.5 (8.3B) bf16; Open-Sora 2.0 (11B) bf16; CogVideoX-5B / 1.5 bf16; Mochi-1 bf16 (~42 GB); LTX-Video 2B; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 large / turbo (~50x realtime na jednej GPU, publikovaná referencia); Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi (200 ms latencia plne duplexný); Step-Audio 2 mini / R1 / R1.1; Qwen2.5-Omni-7B
  • Hudba / SFX / preklad: MusicGen; AudioGen; Suno Bark; SeamlessM4T v2; MMS

Poskytovanie viacerých modelov / viacerých nájomníkov

  • 4 – 8 súbežných používateľov na LLM triedy 32-70B prostredníctvom tenzorovo paralelného rozhrania vLLM alebo rozdelenia na kartu
  • Zmiešaný stack: Qwen3-32B + FLUX.1 + Whisper-turbo + rezidentná pamäť Moshi s rozdelenou VRAM
  • Inferencia LoRA + jemné doladenie 7-14B; na menších modeloch možná plná parameter
  • RAG kanály s vloženými komponentmi Command R / Qwen3 + BGE-M3 / E5 / Jina

Cieľové pracovné zaťaženia

  • Podnikové služby LLM 24/7 — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
  • Regulované nasadenie vyžadujúce pamäť ECC (financie, zdravotníctvo, formálne overenie)
  • Poskytovanie v dlhom kontexte — Seed-OSS-36B 512k ctx sa pohodlne zmestí do 96 GB poolu
  • Stredne tierené lietadlá MoE slúžiace — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
  • Spracovanie dokumentov VLM — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B

Publikované referencie výkonnosti

Publikovaná referencia | 2x porovnateľný hardvér NVIDIA L40

mierka Výsledok
Lama 3.3 70B Q4_K_M cez 2x L40 tenzorové rozdelenie ~15-18 tok/s jeden prúd
Qwen3-32B bf16 s jednou grafickou kartou na jednom L40 ~18-22 tok/s jeden prúd
vLLM Hunyuan-A13B Q6 na 2x L40 bazén ~28-34 tok/s jeden prúd
HunyuanVideo 13B bf16 na jednom L40 Krátky klip v rozlíšení 720p – zmestí sa na 48 GB
Metriky na kartu 362 TOPS INT8, 864 GB/s, 300 W TDP

Publikované, nie merané na kovaní Kentino.

Nie ideálne pre

  • Optimalizácia nákladov na TFLOPS — 4x RTX 4090 poskytuje súhrnný výkon 2 644 TFLOPS pri ~40 % ceny komponentu (bez záruky ECC / dátového centra)
  • Modely Frontier s hustotou 200B+ – platí limit 96 GB pre fond (potrebný skladový model s kapacitou 192+ GB)
  • Generovanie videa v plnom rozlíšení s dlhým formátom v bf16 (dvojexpert z Wan 2.2 MoE chce viac VRAM)
  • Školenie od nuly – L40 je certifikovaný pre inferenciu; na školenie použite RTX Pro 6000 / pracovnú stanicu Blackwell

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

3-ročná záruka NVIDIA OEM pre dátové centrum na L40 + záruka na integráciu Kentino (2 roky na súčiastky, 1 rok na prácu). Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, zážihové testovanie a overenie funkčnosti.

Odporúčané doplnky

  • Upgradujte na 4x L40 (K-AI 192 Rome L40 1448TOPS) pre 192 GB ECC pool a služby na hraničnej úrovni
  • Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4) pre väčšie vkladacie/rerankerové zásobníky
  • Aktualizácia NVMe na 4 TB pre knižnicu modelov + prípravu dátových súborov
  • Redundantný zdroj napájania (duálny synchronizovaný 2 kW) k dispozícii na požiadanie
  • Rack PDU + 3 kVA online UPS pre výrobné prostredie
查看完整详细信息