Kentino sro
K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovná stanica Blackwell s jednou grafickou kartou a 96 GB pamäťou
K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovná stanica Blackwell s jednou grafickou kartou a 96 GB pamäťou
无法加载取货服务可用情况
K-AI 96 Rím RTXPro6000 2000TOPS
96 GB ECC serverová pracovná stanica s jednou kartou
1x RTX Pro 6000 Blackwell | EPYC Milan | 2 000 TOPS INT8
Jedna karta, 96 GB ECC VRAM, celý tenzorový pipeline Blackwell. 70B hustý bf16 na jednom GPU – žiadna réžia paralelného tenzorového spracovania.
Racková pracovná stanica s výškou 4U, jednou grafickou kartou NVIDIA RTX Pro 6000 Blackwell Workstation (96 GB ECC GDDR7), jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a jedným 2 kW ATX zdrojom s 54 % rezervou. Najjednoduchšia softvérová cesta, ktorú Kentino ponúka – žiadna tenzorovo-paralelná konfigurácia, žiadne ladenie viacerých GPU. vLLM, SGLang, llama.cpp a ComfyUI bežia na jednom zariadení a jednoducho fungujú.
technické vybavenie
| Zložka | detail |
|---|---|
| GPU | 1x grafická karta NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16) |
| VRAM | 96 GB ECC na jednej karte – žiadne združovanie dát, žiadne réžia tenzorového paralelného spracovania |
| CPU | AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0) |
| Základná doska | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| Systémová RAM | 256 GB DDR4-2666 ECC RDIMM (4x 64 GB) |
| Bootovanie / úložisko | 2 TB NVMe M.2 (PCIe 4.0 x4) |
| Zdroj | 1x 2 kW ATX zdroj |
| Podvozok | Montáž do racku 4U (kapacita 4 slotov, 1 obsadený – priestor na rozšírenie) |
| Chladenie | Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk |
| sieť | Duálny 10 GbE integrovaný (Intel X550) |
Napájacia obálka
- Spotreba grafického procesora: 1 x 600 W = 600 W
- Celkový výkon systému pri plnom zaťažení: ~925 W
- Celkový výkon zdroja: 2 000 W — 53.8 % priestoru pre výšku
- Jeden zdroj, jednoduchá kabeláž – veľkorysý priestor pre zostavenie jednej karty
Topológia jazdných pruhov
PCIe Gen4 x16 na GPU (karta je natívna pre Gen5; doska Rome je obmedzená na Gen4). Priame pripojenie typu root-complex – žiadny prepínač PCIe. Nie je potrebný žiadny NVLink – jedna karta, žiadne prepojenie medzi GPU. Šesť slotov x16 zostáva voľných pre sieťovú kartu / úložisko / rozšírenie.
Čo môžete spustiť
S 96 GB ECC VRAM na jednej karte Blackwell tento server spracováva 70B hustotu bf16 na jednom GPU, LLM s otvorenou váhou, modely videnia, generovanie obrázkov a videa, rečovú umelú inteligenciu a produkčnú inferenciu – nie je potrebná žiadna tenzorovo-paralelná koordinácia.
LLM – text / uvažovanie / kódovanie
Čínska hranica
- Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B hustý bf16 (~65 GB) s veľkorysým KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s jeden stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentický s 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) s tesným KV; uvažovanie QwQ-32B bf16
- DeepSeek: DeepSeek-R2 32B riedky MoE bf16 (~64 GB, 92.7 % AIME 2025 jedna karta); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B plná presnosť
- GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
- Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) s 256k ctx a duálnym uvažovaním
- ByteDance Seed-OSS-36B bf16 (~72 GB obmedzené) alebo fp8 (~36 GB) s plným 512k natívnym kontextom
- Baidu ERNIE-4.5-47B-A3B Q4-FP8 s dlhým kontextom
Západná hranica
- Meta lama: Llama 3.3 70B pri bf16 (~70 GB) na jednej karte s 8-16k ctx — konfigurácia pre hrdinov; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s jeden stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) všetky na úrovni bf16 s 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
- OpenAI (otvorené váhy): gpt-oss-20b MXFP4 natívny (16 GB); gpt-oss-120b MXFP4 natívny (80 GB) – jedna karta, jeden stream
- Google Gemma 3: 27B multimodálny bf16 (~54 GB) so 128k ctx; 12B / 4B bf16
- Microsoft Phi-4 14B hustá bf16; Phi-4-uvažovanie; Phi-4-multimodálna
- NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
- Ostatné: IBM Granite 4.0 H-Small 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B
Modely vizuálno-jazykového vnímania
Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 až do 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 plný rozsah; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodálny; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.
Generovanie obrazu
FLUX.1 [dev] / [shnell] bf16 (~24 GB) a kvantizovaný (~15-25 s/obrázok pri fp8); FLUX.1 Kontext [dev] úprava v kontexte; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) pri natívnom rozlíšení 2K; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.
Generovanie videa
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, obaja experti); rýchla cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 (~ 60-80 GB, pevné pri 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.
Zvuk / Reč / TTS
- ASR: Whisper v3 large / turbo (~50x v reálnom čase); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
- TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
- V reálnom čase / S2S: Kyutai Moshi (200 ms plný duplex); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
- Hudba / Zvukové efekty: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2
Poskytovanie viacerých modelov / viacerých nájomníkov
- Asistent streamovania pre jedného nájomcu — 70B hustota bf16, nízka latencia, žiadne penalizácie TP
- Zmiešaný rezidentný stack: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi na jednej karte s rozdelenou VRAM
- Jemné doladenie: LoRA / QLoRA na modeloch 13-34B; plné parametre na modeloch 7B
- Vkladacia služba: BGE-M3 / E5 / Jina rezident vedľa generátora LLM
Cieľové pracovné zaťaženia
- Asistent streamovania kódu pre jedného nájomcu s Llama 3.3 70B bf16 alebo Qwen3-Coder-30B-A3B – bez réžie koordinácie TP
- Vývojárska pracovná stanica pre jedného inžiniera alebo úzky tím, ktorá potrebuje model triedy 70B s kontextom 32 – 128 kB
- Laboratórium generovania videa alebo obrazu — HunyuanVideo 13B, Wan 2.2 duálny expert, HunyuanImage-2.1, všetci na úrovni bf16 rezident
- Pracovný stôl VLM / OCR — Qwen3-VL-32B bf16 alebo InternVL3.5-38B s dlhými dokumentovými kanálmi
- Čisté zariadenie pre malú bránu LLM API – jeden model, jedna karta, jednoduchá prevádzka
Meraný výkon
Publikované referencie | Technický list NVIDIA RTX Pro 6000 Blackwell + komunitné benchmarky
| mierka | Výsledok |
|---|---|
| INT8 TOPS na kartu (údajový list NVIDIA) | 2 000 TOPOV |
| VRAM na kartu | 96 GB ECC GDDR7 |
| Šírka pásma pamäte | ~1 800 GB/s |
| Llama 3.3 70B Q6 s jednou grafickou kartou (komunitný) | 40 – 55 tok/s jeden prúd |
| Llama 3.3 70B bf16 s jednou grafickou kartou (komunitný) | 15 – 25 tok/s jeden prúd |
| Blackwell FP8 natívny | DeepSeek-V3 fp8, Hunyuan-A13B fp8 bežia bez prenosu bf16 |
Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.
Nie ideálne pre
- Trénovanie veľkých modelov od začiatku (jeden GPU — bez paralelizmu tenzorov/pipeline)
- Frontier 200B+ MoE pri reálnych kvantizáciách (Qwen3-235B Q4, GLM-4.5/4.6 — použite K-AI 192 RTXPro6000 alebo väčší)
- Vysokokonkurenčná multi-tenant inferencia (jedna karta obmedzuje celkovú priepustnosť; 4x RTX 4090 alebo 4x L40 sa lepšie škálujú)
Záruka a dodacia lehota
3-ročná záruka NVIDIA OEM na RTX Pro 6000 + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.
Odporúčané doplnky
- Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4 – štyri sloty DIMM sú stále voľné)
- 4 TB NVMe sekundárny disk pre knižnicu modelov / prípravu dátových súborov
- 24U otvorená skriňa pre montáž do produkčného racku
- Pre rýchlosť pripojenia Gen5 x16 zvážte variant platformy Genoa na požiadanie.
zdieľam
