Kentino sro
K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI Server
K-AI 48 Rome L4 484TOPS — 2x NVIDIA L4 Passive Edge AI Server
Не може да се зареди възможността за взимане
K-AI 48 Rím L4 484TOPS
Tichý 2x L4 pasívny edge server
48 GB ECC VRAM | EPYC Miláno | 484 TOPS INT8
Tichý pasívny inferenčný box 2x L4 – záručná cesta na úrovni dátového centra, 72 W na kartu, 48 GB ECC VRAM pre neustále nasadenie na okraji siete.
2-GPU inferenčný server na okraji siete postavený na pasívnych kartách NVIDIA L4 – tichá možnosť triedy dátových centier v rade Kentino. Celková ECC VRAM 48 GB, celková spotreba GPU 144 W, rozmery karty s jedným slotom a prúdenie vzduchu riadené výlučne šasi. Pre pobočky, vysielacie zariadenia, nepretržitú transkripciu a akékoľvek nasadenie, kde akustický profil a záručná cesta dátového centra znamenajú viac ako hrubú tenzorovú priepustnosť.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 2x NVIDIA L4 24 GB GDDR6 pasívna (72 W, PCIe 4.0 x16, Ada Lovelace, ECC) |
| fond VRAM | 48 GB ECC |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 128 GB DDR4-2666 ECC RDIMM (2x 64 GB) |
| Bootovanie / úložisko | 1 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | Jeden 2 kW ATX zdroj |
| Podvozok | 4U rackové, pasívne rozširujúce risery Gen4 x16 |
| Chladenie | Vežový chladič SP3, 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk (nízkootáčkové PWM) |
| sieť | Duálny integrovaný 10 GbE (Intel X550) + IPMI |
Napájacia obálka
- Spotreba grafického procesora: 2 x 72 W = 144 W
- Celkový výkon systému pri plnom zaťažení: ~469 W
- Celkový výkon zdroja: 2 000 W — 76.55 % priestoru pre výšku
- Poháňa ventilátory pri nízkych otáčkach pri voľnobehu (~35 dBA pri voľnobehu, <45 dBA trvalého signálu)
Topológia jazdných pruhov
PCIe Gen4 x16 na oboch GPU. L4 je natívna Gen4 x16; ROMED8-2T odvádza 2x16 priamo z CPU. Žiadny prepínač, žiadny NVLink. Udržiavaná teplota GPU 55-65 °C – pasívne karty sa úplne spoliehajú na prúdenie vzduchu zo šasi.
Čo môžete spustiť
Vďaka 48 GB pamäte ECC VRAM na 2 pasívnych kartách L4 tento server zvláda trvalo zapnutú inferenciu LLM, nepretržité kanály ASR + TTS, spracovanie dokumentov VLM a nasadenia na okraji siete, kde záleží na tichu a záruke dátového centra.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3-32B hustý Q6 s 32k ctx (~15-20 tok/s jeden prúd na L4, publikovaná referencia)
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B 4. – 6. štvrťrok (Ministerstvo financií, 256 000 ctx)
- QwQ-32B Otázka 6; DeepSeek-R2 32B riedke MoE Q4-Q6 (~18-24 tok/s jeden prúd v Q4 na L4, publikovaná referencia)
- Hunyuan-A13B Q6 alebo fp8 (~48 GB) — 80B/13B MoE, 256k ctx
- Seed-OSS-36B Q4-Q6 — 512k natívnych ctx
- ERNIE-4.5-47B-A3B 4. – 6. štvrťrok (~28 – 42 GB)
Západná hranica
- Lama 3.3 70B Q4_K_M (~43 GB) tenzorovo paralelný 2-cestný (~8-12 tok/s jeden prúd na 2x L4, publikovaná referencia)
- Mistral Malý 3 / Magistrál / Devstral Malý 2 (24B) bf16
- Gemma 3 27B multimodálny bf16
- Phi-4 14B / Úvaha Fí-4 bf16
- Nemotron-Super 49B 4. štvrťrok (~28 GB)
- OLMo 2 32B / OLMo 3.1-32B-Mysli — výskum plne otvoreného uvažovania
Vízia-Jazyk
Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 GB); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodálny; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B pre 23-jazyčný VLM.
Generovanie obrazu
L4 je ladený na inferenciu – použiteľný pre ustálené obrazové kanály, nie pre dávkové generovanie: FLUX.1 [dev] fp8 / Q4 – jeden obrázok za 8 – 12 s; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium; HunyuanImage-2.1 NF4 (~14 GB); Kolors 2.0 fp8.
Generovanie videa
Neodporúča sa pre nové video projekty na L4 — uprednostňujte zostavenie 4090/5090. Pre ľahké T2V kanály: Wan 2.2 TI2V-5B na bf16 — 5 s 720p za ~6-10 minút; optimalizačná cesta HunyuanVideo 1.5 (8.3B) Wan2GP.
Zvuk / Reč / TTS
Skutočná sila L4 – 24/7 ASR + TTS + hlasové zásobníky v reálnom čase.
- ASR: Whisper v3 large / turbo (~30x realtime na L4, publikovaná referencia); NVIDIA Parakeet-TDT 1.1B; Canary 1B
- TTS: CosyVoice 2.0 / Fun-CosyVoice 3.0; Kokoro 82M; Stabilný zvuk Otvorené
- V reálnom čase / S2S: Kyutai Moshi (7B, latencia 200 ms, plný duplex); Step-Audio 2 mini / R1
- Preklad: Meta SeamlessM4T v2 (~100 jazykov)
Viacmodelový / viacnájomný
- Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6 všetci obyvatelia na karte 1 (~18-20 GB); karta 2 rezervovaná pre druhého nájomníka alebo VLM
- 8 – 16 súbežných relácií ASR na jednom L4 v reálnom čase s technológiou Whisper-turbo
- Koncový bod RAG: Qwen3-14B / Llama 3.1 8B (~48-72 tok/s jeden stream na L4, publikovaná referencia) + vnorenia BGE-M3 + reranker
Cieľové pracovné zaťaženia
- Tichý inferenčný box pobočky alebo vysielacieho zariadenia
- Vždy zapnutý ASR + prekladateľský kanál (call centrá, prepis prednášok, titulky médií)
- Koncový bod Edge RAG pre firemné dokumenty s cestou záruky pre dátové centrum
- Multimodálny asistent 24/7 (Qwen3-VL-8B + MiniCPM-o 2.6) pre malú kanceláriu
- Vývojový staging box pre nasadenia na úrovni dátových centier – rovnaký kremík L4 ako hyperscale edge
Publikované referencie výkonnosti
Publikovaná referencia | 2x porovnateľný hardvér NVIDIA L4
| mierka | Výsledok |
|---|---|
| Lama 3.1 8B Q4_K_M dekódovanie lamy.cpp | ~30-40 tok/s jeden prúd |
| Dekódovanie Qwen3-14B Q6 vLLM | ~20-28 tok/s |
| Veľký faktor v reálnom čase pre Whisper v3 | ~15-20x na L4 |
| Parakeet-TDT 1.1B Angličtina ASR | ~40-60x v reálnom čase |
| Moshi 7B plne duplexný hlas | Latencia 200 ms, pasuje na jeden L4 |
Publikované, nie merané na kovaní Kentino.
Nie ideálne pre
- Hustota 70B pri Q6+ (aj 48 GB pool je obmedzený – použite 4x4090 alebo 2x5090)
- Dávková práca s generovaním obrázkov/videí vo veľkom meradle (priepustnosť tenzora L4 je ladená inferenciou)
- LoRA / doladenie pracovných postupov – namiesto toho použite zostavenia 4090/5090
Záruka a dodacia lehota
L4 zahŕňa záruku NVIDIA pre dátové centrá – čo je oproti spotrebiteľským kartám významná výhoda pri nasadení SLA 24 hodín denne, 7 dní v týždni. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, záťažové testovanie a overenie funkčnosti.
Odporúčané doplnky
- Pre dvojnásobnú priepustnosť prejdite na K-AI 96 Rome L4 968TOPS (4x L4, 96 GB pool)
- Upgradujte bootovací disk na 2 TB NVMe
- Rozšírte pamäť RAM na 256 GB (4x 64 GB) pre súbežné poskytovanie viacerých modelov
- Rack PDU + 2 kVA online UPS pre nasadenie v pobočke
zdieľam
