跳至产品信息
1 / 7

Kentino sro

K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovná stanica Blackwell s jednou grafickou kartou a 96 GB pamäťou

K-AI 96 Rome RTXPro6000 2000TOPS — serverová pracovná stanica Blackwell s jednou grafickou kartou a 96 GB pamäťou

常规价格 EUR € 15.847,00
常规价格 促销价 EUR € 15.847,00
promočné Vypredané
已含税费。 结账时计算的运费.

K-AI 96 Rím RTXPro6000 2000TOPS

96 GB ECC serverová pracovná stanica s jednou kartou
1x RTX Pro 6000 Blackwell | EPYC Milan | 2 000 TOPS INT8

2 000
INT8 VRCHY
96 GB
ECC VRAM
jediný
dizajn karty
fp8
rodák z Blackwellu

Jedna karta, 96 GB ECC VRAM, celý tenzorový pipeline Blackwell. 70B hustý bf16 na jednom GPU – žiadna réžia paralelného tenzorového spracovania.

Racková pracovná stanica s výškou 4U, jednou grafickou kartou NVIDIA RTX Pro 6000 Blackwell Workstation (96 GB ECC GDDR7), jedným procesorom AMD EPYC 7643 Milan (48C/96T), 256 GB DDR4 ECC, 2 TB NVMe bootovaním a jedným 2 kW ATX zdrojom s 54 % rezervou. Najjednoduchšia softvérová cesta, ktorú Kentino ponúka – žiadna tenzorovo-paralelná konfigurácia, žiadne ladenie viacerých GPU. vLLM, SGLang, llama.cpp a ComfyUI bežia na jednom zariadení a jednoducho fungujú.

technické vybavenie

Zložka detail
GPU 1x grafická karta NVIDIA RTX Pro 6000 Blackwell Workstation 96 GB ECC GDDR7 (600 W, PCIe 5.0 x16)
VRAM 96 GB ECC na jednej karte – žiadne združovanie dát, žiadne réžia tenzorového paralelného spracovania
CPU AMD EPYC 7643 Milan (48C/96T, 225 W, 128 liniek PCIe 4.0)
Základná doska ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
Systémová RAM 256 GB DDR4-2666 ECC RDIMM (4x 64 GB)
Bootovanie / úložisko 2 TB NVMe M.2 (PCIe 4.0 x4)
Zdroj 1x 2 kW ATX zdroj
Podvozok Montáž do racku 4U (kapacita 4 slotov, 1 obsadený – priestor na rozšírenie)
Chladenie Vežová skrinka Arctic Freezer 4U-M SP3 + 3x 120 mm predné nasávanie + 1x 120 mm zadný výfuk
sieť Duálny 10 GbE integrovaný (Intel X550)

Napájacia obálka

  • Spotreba grafického procesora: 1 x 600 W = 600 W
  • Celkový výkon systému pri plnom zaťažení: ~925 W
  • Celkový výkon zdroja: 2 000 W — 53.8 % priestoru pre výšku
  • Jeden zdroj, jednoduchá kabeláž – veľkorysý priestor pre zostavenie jednej karty

Topológia jazdných pruhov

PCIe Gen4 x16 na GPU (karta je natívna pre Gen5; doska Rome je obmedzená na Gen4). Priame pripojenie typu root-complex – žiadny prepínač PCIe. Nie je potrebný žiadny NVLink – jedna karta, žiadne prepojenie medzi GPU. Šesť slotov x16 zostáva voľných pre sieťovú kartu / úložisko / rozšírenie.

Čo môžete spustiť

S 96 GB ECC VRAM na jednej karte Blackwell tento server spracováva 70B hustotu bf16 na jednom GPU, LLM s otvorenou váhou, modely videnia, generovanie obrázkov a videa, rečovú umelú inteligenciu a produkčnú inferenciu – nie je potrebná žiadna tenzorovo-paralelná koordinácia.

LLM – text / uvažovanie / kódovanie

Čínska hranica

  • Qwen3 / Qwen3.5 (Alibaba): Qwen3-32B hustý bf16 (~65 GB) s veľkorysým KV; Qwen3-72B Q6 (~58 GB, ~25-35 tok/s jeden stream); Qwen3-30B-A3B MoE bf16; Qwen3-Coder-30B-A3B agentický s 256k ctx; Qwen3.5-122B-A10B Q4 (~70 GB) s tesným KV; uvažovanie QwQ-32B bf16
  • DeepSeek: DeepSeek-R2 32B riedky MoE bf16 (~64 GB, 92.7 % AIME 2025 jedna karta); DeepSeek-R1-Distill-Qwen-32B bf16; DeepSeek-V2-Lite 16B plná presnosť
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5 (60-70 GB); GLM-4.6V 106B Q4
  • Tencent Hunyuan: Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 GB) s 256k ctx a duálnym uvažovaním
  • ByteDance Seed-OSS-36B bf16 (~72 GB obmedzené) alebo fp8 (~36 GB) s plným 512k natívnym kontextom
  • Baidu ERNIE-4.5-47B-A3B Q4-FP8 s dlhým kontextom

Západná hranica

  • Meta lama: Llama 3.3 70B pri bf16 (~70 GB) na jednej karte s 8-16k ctx — konfigurácia pre hrdinov; Llama 3.3 70B Q6 (~58 GB, ~35-50 tok/s jeden stream); Llama 3.1 8B bf16 (~80-120 tok/s); Llama 3.2 90B Vision Q4 (~52 GB); Llama 4 Scout 109B/17B MoE Q4 (~63 GB)
  • Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) všetky na úrovni bf16 s 256k ctx; Mixtral 8x7B Q6; Codestral Mamba 7B; Pixtral 12B bf16
  • OpenAI (otvorené váhy): gpt-oss-20b MXFP4 natívny (16 GB); gpt-oss-120b MXFP4 natívny (80 GB) – jedna karta, jeden stream
  • Google Gemma 3: 27B multimodálny bf16 (~54 GB) so 128k ctx; 12B / 4B bf16
  • Microsoft Phi-4 14B hustá bf16; Phi-4-uvažovanie; Phi-4-multimodálna
  • NVIDIA Nemotron: Llama-3.1-Nemotron-Super 49B Q6 (~40 GB); Nemotron-Nano 8B
  • Ostatné: IBM Granite 4.0 H-Small 32B/9B; OLMo 2 32B; Reka Flash 3 21B; Falcon H1R 7B; Command R 35B

Modely vizuálno-jazykového vnímania

Qwen3-VL-8B / 32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B; InternVL3 až do 78B Q4 (~48 GB); InternVL3.5-38B bf16; DeepSeek-VL2 plný rozsah; Llama 3.2 11B Vision bf16; Llama 3.2 90B Vision Q4 (~52 GB); Pixtral 12B bf16; Molmo 72B Q4; Molmo 7B bf16; Gemma 3 12B / 27B multimodálny; PaliGemma 2 28B; Phi-3.5-Vision; Aya Vision 8B / 32B; MiniCPM-V 2.6 / MiniCPM-o 2.6; GLM-4.6V.

Generovanie obrazu

FLUX.1 [dev] / [shnell] bf16 (~24 GB) a kvantizovaný (~15-25 s/obrázok pri fp8); FLUX.1 Kontext [dev] úprava v kontexte; FLUX Tools (Fill / Depth / Canny / Redux); SD 3.5 Large bf16 (~18 GB); SDXL 1.0; HunyuanImage-2.1 bf16 (~34 GB) pri natívnom rozlíšení 2K; HunyuanDiT 1.5B; Kolors / Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Generovanie videa

Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~54 GB, obaja experti); rýchla cesta Wan 2.2 TI2V-5B; HunyuanVideo 13B bf16 (~ 60-80 GB, pevné pri 720p); HunyuanVideo 1.5 (8.3B); CogVideoX-5B; Open-Sora 2.0 (11B) bf16; Genmo Mochi-1 bf16 (~42 GB); LTX-Video; Pyramid Flow; SVD / SV3D / SV4D; NVIDIA Cosmos Predict 2.

Zvuk / Reč / TTS

  • ASR: Whisper v3 large / turbo (~50x v reálnom čase); NVIDIA Parakeet-TDT 1.1B; Canary 1B; Qwen3-ASR; SenseVoice
  • TTS: CosyVoice 2 / Fun-CosyVoice 3.0; Kokoro 82M; Stable Audio Open; Coqui XTTS v2; StyleTTS 2; Step-Audio-EditX
  • V reálnom čase / S2S: Kyutai Moshi (200 ms plný duplex); Step-Audio 2 mini; Step-Audio-R1 / R1.1; Qwen2.5-Omni-7B
  • Hudba / Zvukové efekty: Meta MusicGen; AudioGen; Suno Bark; SeamlessM4T v2

Poskytovanie viacerých modelov / viacerých nájomníkov

  • Asistent streamovania pre jedného nájomcu — 70B hustota bf16, nízka latencia, žiadne penalizácie TP
  • Zmiešaný rezidentný stack: Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi na jednej karte s rozdelenou VRAM
  • Jemné doladenie: LoRA / QLoRA na modeloch 13-34B; plné parametre na modeloch 7B
  • Vkladacia služba: BGE-M3 / E5 / Jina rezident vedľa generátora LLM

Cieľové pracovné zaťaženia

  • Asistent streamovania kódu pre jedného nájomcu s Llama 3.3 70B bf16 alebo Qwen3-Coder-30B-A3B – bez réžie koordinácie TP
  • Vývojárska pracovná stanica pre jedného inžiniera alebo úzky tím, ktorá potrebuje model triedy 70B s kontextom 32 – 128 kB
  • Laboratórium generovania videa alebo obrazu — HunyuanVideo 13B, Wan 2.2 duálny expert, HunyuanImage-2.1, všetci na úrovni bf16 rezident
  • Pracovný stôl VLM / OCR — Qwen3-VL-32B bf16 alebo InternVL3.5-38B s dlhými dokumentovými kanálmi
  • Čisté zariadenie pre malú bránu LLM API – jeden model, jedna karta, jednoduchá prevádzka

Meraný výkon

Publikované referencie | Technický list NVIDIA RTX Pro 6000 Blackwell + komunitné benchmarky

mierka Výsledok
INT8 TOPS na kartu (údajový list NVIDIA) 2 000 TOPOV
VRAM na kartu 96 GB ECC GDDR7
Šírka pásma pamäte ~1 800 GB/s
Llama 3.3 70B Q6 s jednou grafickou kartou (komunitný) 40 – 55 tok/s jeden prúd
Llama 3.3 70B bf16 s jednou grafickou kartou (komunitný) 15 – 25 tok/s jeden prúd
Blackwell FP8 natívny DeepSeek-V3 fp8, Hunyuan-A13B fp8 bežia bez prenosu bf16

Zverejnené externé referencie, nemerané na hardvéri Kentino. Kentino zverejní čísla od prvej strany po prvej zákazníckej zostave.

Nie ideálne pre

  • Trénovanie veľkých modelov od začiatku (jeden GPU — bez paralelizmu tenzorov/pipeline)
  • Frontier 200B+ MoE pri reálnych kvantizáciách (Qwen3-235B Q4, GLM-4.5/4.6 — použite K-AI 192 RTXPro6000 alebo väčší)
  • Vysokokonkurenčná multi-tenant inferencia (jedna karta obmedzuje celkovú priepustnosť; 4x RTX 4090 alebo 4x L40 sa lepšie škálujú)

Záruka a dodacia lehota

2 rokov
záruka na diely
1 rok
záruka na prácu
10-28 dni
Čas prípravy

3-ročná záruka NVIDIA OEM na RTX Pro 6000 + záruka na integráciu Kentino. Zostavenie zahŕňa montáž, konfiguráciu BIOSu, inštaláciu ovládačov, testovanie a overenie funkčnosti. Dodacia lehota závisí od dostupnosti komponentov, ktorá sa potvrdí pri objednávke.

Odporúčané doplnky

  • Rozšírte RAM na 512 GB (pridajte 4x 64 GB DDR4 – štyri sloty DIMM sú stále voľné)
  • 4 TB NVMe sekundárny disk pre knižnicu modelov / prípravu dátových súborov
  • 24U otvorená skriňa pre montáž do produkčného racku
  • Pre rýchlosť pripojenia Gen5 x16 zvážte variant platformy Genoa na požiadanie.
查看完整详细信息