跳至产品信息
1 / 7

Kentino sro

K-AI 144 Rím L4 1452TOPS — 6× NVIDIA L4 — EPYC Miláno

K-AI 144 Rím L4 1452TOPS — 6× NVIDIA L4 — EPYC Miláno

常规价格 EUR € 28.681,00
常规价格 促销价 EUR € 28.681,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 144 Rím L4 1452TOPS

144 GB VRAM Silent Edge Inference Server
6x NVIDIA L4 pasívny | EPYC Milan | 1 452 TOPS INT8

1 452
INT8 VRCHY
144 GB
fond VRAM
432 W
Obálka GPU
tichý
pasívne grafické karty

Šesť pasívnych L4 kariet pre dátové centrá. Najtichší AI server v rade Kentino – prijateľný pre nasadenie na okraji kancelárie.

4U jednosocketový inferenčný server so šiestimi pasívnymi kartami NVIDIA L4 (každá po 24 GB, 144 GB RAM), jedným procesorom AMD EPYC 7643 Milan (48C/96T), 384 GB DDR4 ECC, 2 TB NVMe bootovaním a jedným 2 kW ATX zdrojom s 62 % rezervou. Hustý inferenčný server pre integrované flotily, viacnájomné malé/stredne veľké LLM a nasadenia s výkonom wattov na dotaz v blízkosti kancelárskych priestorov.

technické vybavenie

Zložka detail
GPU 6x NVIDIA L4 24 GB (Ada Lovelace, pasívna, 72 W, jednoslotová LP, PCIe Gen4 x8)
fond VRAM Celkovo 144 GB na 6 kartách
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 384 GB DDR4-2666 ECC RDIMM (6x 64 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 1x 2 kW ATX zdroj
Podvozok Montáž do racku 4U (rozloženie so 6 kartami)
Chladenie Vežový chladič SP3 + smerové prúdenie vzduchu spredu dozadu (priemyselné ventilátory)
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 6 x 72 W = 432 W
  • Celkový výkon systému pri plnom zaťažení: ~757 W
  • Celkový výkon zdroja: 2 000 W — 62 % priestoru pre výšku
  • Tichá prevádzka, masívna tepelná rezerva

Topológia jazdných pruhov

L4 je natívna PCIe Gen4 x8 – bez straty šírky pásma v porovnaní s hostiteľom. ROMED8-2T poskytuje 7x x16 slotov; jeden slot zostáva voľný pre doplnkové sieťové karty. Nie je potrebný žiadny prepínač PCIe. Žiadny NVLink.

Čo môžete spustiť

Pri agregácii 144 GB na 6 fyzických kartách je ideálnou voľbou súbežné poskytovanie viacerých modelov: súbežne spúšťajte 70B hustotu v 4. štvrťroku, 30B MoE, 14B kodér, VLM a embeddingový model a stále zachovajte KV rezervu.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-30B-A3B Q4-Q6; QwQ-32B Q6; Qwen3-32B hustý Q6; Qwen3.5-122B-A10B Q4-Q5 (~75 GB pohodlný); Qwen3-235B-A22B Q3 (~112 GB) tesný, krátky ctx
  • DeepSeek: DeepSeek-R2 32B riedke MoE Q4-Q6 (schopné spracovať jednu kartu, 6 súbežných streamov, ~15-20 tok/s na stream); Seed-OSS-36B Q4-Q6 s 512k natívnym kontextom
  • GLM / Z.ai: GLM-4.5-Air Q4-Q5 (60-70 GB pohodlné); Hunyuan-A13B Q4-Q6 (~48 GB)
  • Baidu ERNIE-4.5-47B-A3B Q4; Step-3.5-Flash Q3-Q4 s určitým únikom RAM

Západná hranica

  • Meta lama: Llama 3.3 70B Q4-Q6 (43-58 GB) s veľkorysým KV (~10-17 tok/s jeden prúd cez 6x L4 tenzorovo paralelný); Llama 4 Scout 109B/17B MoE Q4 (~63 GB) pohodlná
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) na bf16 (~50-65 tok/s na kartu L4); Mixtral 8x22B Q4
  • OpenAI (otvorené váhy): gpt-oss-120b MXFP4 natívny (~80 GB s voľnou pamäťou); gpt-oss-20b MXFP4
  • Google Gemma 3: 27B bf16; Phi-4 14B bf16
  • NVIDIA Nemotron: Llama-3.1-Nemotron Super 49B Q4-Q6; Pixtral 12B / Pixtral Large Q4 (~72 GB)

Modely vizuálno-jazykového vnímania

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 až 78B Q4 (~48 GB), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 GB), Molmo 72B Q4, Gemma 3 12B/27B multimodálny, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.

Generovanie obrazu

FLUX.1 [vývoj] / [rýchlo] fp8 (~20-35 s/obrázok na jednom L4 pri fp8); FLUX.1 Kontext [vývoj]; FLUX Tools; SD 3.5 Large (18 GB fp16 / 11 GB fp8); SDXL 1.0; HunyuanImage-2.1 (~34 GB bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B MoE (tesné pri bf16 ~ 54 GB); rýchla cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B Q4-Q8 (~30 GB); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 Q8 (~16 GB); Mochi-1 Q4 (~18 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos.

Zvuk / Reč / TTS

  • ASR: Whisper v3 veľký / turbo (~50x v reálnom čase); Parakeet-TDT; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2/3; Kokoro 82M; Stable Audio Open; XTTS v2; StyleTTS 2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi 7B; Step-Audio 2 mini/R1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: MusicGen / AudioGen / Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • 6 súbežných streamov modelu Q4 s kapacitou 24 GB (jeden na kartu): napr. 6 agentov Qwen3-14B Q4
  • Zmiešaná flotila: Llama 3.3 70B Q4 (tenzorovo-paralelné spojenie cez 2 karty) + FLUX.1 (1 karta) + Whisper-turbo (1 karta) + Moshi (1 karta) + BGE-M3 embedder (1 karta)
  • Vkladacia služba s vysokým QPS — 6 paralelných vkladacích streamov BGE-M3 / E5 / Nomic / Cohere Embed
  • Farma na transkódovanie videa — 6 paralelných streamov NVENC/NVDEC

Cieľové pracovné zaťaženia

  • SaaS multi-tenant LLM API – obsluha 20 – 40 súbežných používateľov v rámci modelu 24B/32B s priestorom pre image a ASR popri tom
  • RAG backend — embedder na strane dotazu + 70B Q4 čítačka + reranker, latencia menšia ako sekunda, 50 QPS
  • Video-AI kanál — živé prekódovanie + titulky + moderovanie na 6 paralelných streamoch
  • Zariadenie Edge AI v blízkosti kancelárie – nízky akustický profil, nulová závislosť od dátového centra
  • Výskumná a vývojová laboratórna stanica pre stredne pokročilé modely – rýchla iterácia s jemnými doladeniami 30 – 70 B, jedna karta na experiment

Meraný výkon

Publikované referencie | Technický list NVIDIA L4 + komunitné benchmarky

mierka Výsledok
INT8 TOPS na kartu (údajový list NVIDIA) 242 TOPS
Agregát INT8 TOPS (6 karty) 1 452 TOPOV
Lama 3.1 8B Q4 na jednej L4 (komunitnej) ~35-45 tok/s jeden prúd
BGE-M3 s vloženým QPS na L4 (komunita) ~800 QPS pri vstupe s 512 tokenmi
Faktor Whisper v3 turbo v reálnom čase ~1.5-2x reálny čas na kartu

Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Frontier 200B+ MoE v Q4+ s dlhým kontextom — 4x L40 alebo 8x RTX 4090 (192 GB pool, súvislé TP) je tou správnou voľbou
  • Tréningové zaťaženie – L4 chýba FP8 a šírka pásma pre efektívny tréning
  • Špičková priepustnosť pri jednej úlohe – výpočtový výkon na kartu je nízky v porovnaní s L40 / RTX Pro 6000

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

3-ročná záruka NVIDIA OEM na L4 + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Aktualizácia 4 TB NVMe pre prípravu knižnice modelov
  • 24U otvorená racková skriňa s riadeným PDU
查看完整详细信息