Vytvorenie vlastného systému umelej inteligencie: Kompletný sprievodca spotrebiteľským hardvérom GPU pre lokálne LLM z roku 2026
zdieľam
Hlboký pohľad na obmedzenia VRAM, združovanie viacerých GPU, obmedzenia PCIe a výkon s pohyblivou rádovou čiarkou
Technický tím Kentino.com | január 2026
Úvod: Prečo si vytvoriť vlastný systém umelej inteligencie?
Revolúcia v oblasti umelej inteligencie sa už nedeje len v dátových centrách. Vďaka modelom s otvoreným zdrojovým kódom, ako sú DeepSeek R1, Qwen 3, Llama 4 a Gemma, ktoré dosahujú nebývalé možnosti, sa prevádzkovanie výkonnej umelej inteligencie lokálne stalo nielen možným, ale aj praktickým.
Ale tu je háčik, ktorý vám nikto nepovie: VRAM je kráľ a všetko ostatné je kompromis.
Táto príručka vás prevedie od zmäteného kupujúceho grafických kariet (GPU) k informovanému architektovi systémov s umelou inteligenciou. Pokryjeme všetko od konfigurácií s jednou grafickou kartou s modelmi s 8 miliardami parametrov až po konfigurácie s viacerými grafickými kartami schopnými spracovať giganty s viac ako 70 miliardami parametrov. Či už staviate asistenta kódovania, výskumnú pracovnú stanicu alebo súkromný server s umelou inteligenciou, táto príručka vás bude sprevádzať.
Časť 1: Pochopenie VRAM – aktuálnosť umelej inteligencie
Prečo je VRAM dôležitejšia ako čokoľvek iné
Pri spúšťaní modelov s veľkým jazykom (LLM) je najdôležitejšou špecifikáciou VRAM (video pamäť s náhodným prístupom) vášho grafického procesora. Na rozdiel od hier, kde VRAM primárne ukladá textúry a vyrovnávacie pamäte snímok, pracovné zaťaženie umelou inteligenciou vyžaduje VRAM na:
- Váhy modelovMiliardy parametrov, ktoré definujú znalosti umelej inteligencie
- KV vyrovnávacia pamäťPamäť, ktorá rastie s dĺžkou konverzácie (kontextové okno)
- Aktivačná pamäťDočasné výpočty počas inferencie
- Systémová réžiaCUDA jadrá, správa pamäte, runtime buffery
Zlatý vzorec:
Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2
Examples:
- 8B model @ FP16 (2 bytes): 8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes): 8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes): 70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes): 70 × 0.5 × 1.2 = ~42 GB
Kvantizačná revolúcia
Kvantizácia je technika, ktorá umožňuje spúšťanie rozsiahlych modelov na spotrebiteľskom hardvéri. Znížením presnosti váh modelu zo 16 bitov (FP16) na 4 bity (Q4) môžete spúšťať modely, ktoré by inak vyžadovali podnikový hardvér.
| kvantování | Bity na parameter | Zníženie pamäte | Vplyv na kvalitu |
|---|---|---|---|
| FP16 | 16 bitov (2 bajtov) | Baseline | 100% |
| Q8_0 | 8 bit (1 bajt) | 50% | ~ 99% |
| Q5_K_M | 5 bitov (0.625 bajtov) | 68% | ~ 97% |
| Q4_K_M | 4 bitov (0.5 bajtov) | 75% | ~ 95% |
| Q3_K_M | 3 bitov (0.375 bajtov) | 81% | ~ 90% |
Ideálna hodnota: Kvantizácia Q4_K_M poskytuje 75 % úsporu pamäte s iba ~5 % stratou kvality – vďaka čomu sa v roku 2026 stáva zlatým štandardom pre spotrebiteľské nasadenie.
Časť 2: Situácia s grafickými procesormi v roku 2026
Rad NVIDIA RTX 50 – nový štandard
Architektúra Blackwell od spoločnosti NVIDIA prináša významné vylepšenia pre úlohy umelej inteligencie:
RTX 5090 — Vlajková loď
| špecifikácia | RTX 5090 | RTX 4090 (predchádzajúca generácia) |
|---|---|---|
| VRAM | 32 CZ GDDR7 | 24 GB GDDR6X |
| Šírka pamäte | 1,792 GB / s | 1,008 GB / s |
| CUDA Cores | 21,760 | 16,384 |
| Tenzorové jadrá | 680 (5. generácia) | 512 (4. generácia) |
| AI TOPS (INT8) | ~ 3,400 | ~ 1,300 |
| TDP | 575 W | 450 W |
| PCIe | 5.0 x16 | 4.0 x16 |
| Obvyklá cena | $1,999 | $1,599 |
Čo vám prinesie 32 GB VRAM:
- Qwen3-32B @ Q4_K_M — pohodlne
- DeepSeek R1 32B @ Q4_K_M — s priestorom pre kontext
- Lama 4 8B @ FP16 — plná presnosť
- 70 miliárd modelov v 4. štvrťroku 2018 – s agresívnymi kontextovými limitmi
78% zlepšenie šírky pásma RTX 5090 oproti 4090 znamená rýchlejšie generovanie tokenov, čo je obzvlášť dôležité pre väčšie modely, kde sa šírka pásma pamäte stáva úzkym hrdlom.
RTX 5080 — Praktická voľba
| špecifikácia | RTX 5080 |
|---|---|
| VRAM | 16 CZ GDDR7 |
| Šírka pamäte | 960 GB / s |
| CUDA Cores | 10,752 |
| Tenzorové jadrá | 336 (5. generácia) |
| AI TOPS (INT8) | ~ 1,801 |
| TDP | 360 W |
| Obvyklá cena | $999 |
Čo vám prinesie 16 GB VRAM:
- Qwen3-14B @ Q4_K_M — skvelý výkon
- DeepSeek R1 14B @ Q4_K_M — vynikajúci na kódovanie
- Lama 4 8B @ Q8_0 — vysoká kvalita
- 32B modely s agresívnou kvantizáciou – možné, ale tesné
RTX 5070 Ti — Budget AI Workhorse
| špecifikácia | RTX 5070 Ti |
|---|---|
| VRAM | 16 CZ GDDR7 |
| Šírka pamäte | 896 GB / s |
| CUDA Cores | 8,960 |
| Tenzorové jadrá | 280 (5. generácia) |
| AI TOPS (INT8) | ~ 1,406 |
| TDP | 300 W |
| Obvyklá cena | $749 |
RTX 5070 Ti ponúka rovnakých 16 GB VRAM ako 5080 za o 25 % nižšiu cenu – vďaka čomu je pravdepodobne najlepšou hodnotou pre dedikované úlohy s umelou inteligenciou, keď rýchlosť tokenu nie je kritická.
RTX 5070 — Vstupný bod
| špecifikácia | RTX 5070 |
|---|---|
| VRAM | 12 CZ GDDR7 |
| Šírka pamäte | 672 GB / s |
| CUDA Cores | 6,144 |
| TDP | 250 W |
| Obvyklá cena | $549 |
Problém s 12 GB: Hoci je cena RTX 5070 atraktívna, 12 GB VRAM predstavuje značné obmedzenia. S modelmi s výkonom 14 GB a viac a dlhšími kontextovými oknami narazíte na steny. Dodatočných 4 GB u 5070 Ti považujte za nevyhnutnú poistku.
Predchádzajúca generácia je stále životaschopná
RTX 4090 — Stále uchádzač o titul
RTX 4090 s 24 GB VRAM zostáva vynikajúcou grafickou kartou pre umelú inteligenciu. Ak ju nájdete za dobrú cenu, zvládne:
- 14B modely s vysokou kvantizáciou
- 32B modelov v Q4_K_M (tesné)
- Viacero modelov 8B súčasne
RTX 3090 / 3090 Ti — Králi rozpočtu
S 24 GB VRAM (rovnako ako 4090) sú tieto staršie karty neuveriteľne cenné pre umelú inteligenciu:
- Pomalšia šírka pásma (936 GB/s)
- Staršie tenzorové jadrá (3. generácia)
- Ale rovnaká kapacita 24 GB
Ak je čistá VRAM dôležitejšia ako rýchlosť (napr. pre dávkové spracovanie alebo vývoj), použitá 3090 za 700 – 900 dolárov prekoná novú 5070 za 549 dolárov pri úlohách s umelou inteligenciou.
Časť 3: Pochopenie obmedzení PCIe
Realita šírky pásma PCIe
PCIe (Peripheral Component Interconnect Express) je diaľnica medzi vašou grafickou kartou a zvyškom systému. Tu je to, čo potrebujete vedieť:
| Verzia PCIe | Šírka pásma na pruh | Celkom x16 | Celkom x8 | Celkom x4 |
|---|---|---|---|---|
| PCIe 3.0 | ~ 1 GB / s | ~ 16 GB / s | ~ 8 GB / s | ~ 4 GB / s |
| PCIe 4.0 | ~ 2 GB / s | ~ 32 GB / s | ~ 16 GB / s | ~ 8 GB / s |
| PCIe 5.0 | ~ 4 GB / s | ~ 64 GB / s | ~ 32 GB / s | ~ 16 GB / s |
Kedy na PCIe záleží (a kedy nie)
PCIe je dôležité pre:
- Počiatočné načítanie modelu (ušetrené minúty na veľkých modeloch)
- Komunikácia medzi viacerými GPU (kritická pre tenzorový paralelizmus)
- Zmiešaná inferencia CPU/GPU (keď model preniká do RAM)
PCIe nemá veľký význam pre:
- Inferencia pre jeden GPU po načítaní modelu
- Inferencia malého modelu
- Dlhotrvajúce relácie, kde je čas načítania zanedbateľný
Praktický návod:
- Jedna grafická karta: PCIe 4.0 x8 zvyčajne postačuje
- Duálna grafická karta: odporúča sa PCIe 4.0 x16/x16 alebo x8/x8
- Štvornásobná grafická karta: odporúča sa PCIe 5.0 alebo podnikové platformy
Limity CPU liniek podľa platformy
| Plošina | Celkový počet PCIe liniek | Typická konfigurácia |
|---|---|---|
| Intel 14. generácie (stolný počítač) | 20 z CPU + 4 z čipsetu | 1 grafická karta x16 + NVMe |
| AMD Ryzen 9000 | 24 z procesora | 1 grafická karta x16 + NVMe |
| AMD Threadripper PRO | 128 pruhov | 4 grafické karty x16 v každej |
| Intel Xeon W | 64-112 pruhy | 2 – 4 grafické karty x16 v každej |
Úzke miesto na spotrebiteľskej platforme: Väčšina spotrebiteľských procesorov (Intel Core, AMD Ryzen) poskytuje z procesora iba 16 – 24 PCIe liniek. To znamená:
- Prvá grafická karta dostane plnú x16
- Pridanie druhej grafickej karty často núti obe systémy pracovať na x8/x8
- Tretia a štvrtá grafická karta môžu bežať na frekvencii x4
Pre serióznu prácu s umelou inteligenciou na viacerých grafických procesoroch zvážte platformy Threadripper PRO alebo HEDT.
Časť 4: Konfigurácie s viacerými grafickými procesormi – Združovanie VRAM
Sen verzus realita
Sen: Skombinujte 4× RTX 5090 pre 128 GB unifikovanej VRAM a spúšťajte najväčšie modely, akoby boli na H100.
Realita: Je to zložité, ale čoraz viac možné.
Ako funguje Multi-GPU pre LLM
Existujú dva hlavné prístupy:
Tenzorový rovnobežný systém (TP)
Rozdeľuje jednotlivé operácie (ako napríklad násobenie matíc) medzi viacero grafických procesorov (GPU). Vyžaduje si vysokorýchlostnú komunikáciu medzi grafickými procesormi.
Najlepšie pre: Vysokokapacitná inferencia, aplikácie citlivé na latenciu Požiadavky: NVLink je preferovaný, minimálne PCIe 4.0 x8 na GPU Podporovaný: vLLM, TensorRT-LLM, DeepSpeed
Paralelizmus potrubia (PP)
Rozdelí model do postupných fáz, pričom každá GPU spracováva rôzne vrstvy.
Najlepšie pre: Montáž veľkých modelov, dávkové spracovanie Požiadavky: Stredná šírka pásma medzi GPU Podporovaný: llama.cpp, Ollama, väčšina frameworkov
NVLink vs. PCIe – Tvrdá pravda
NVLink poskytuje priamu komunikáciu medzi grafickými procesormi (GPU) s rýchlosťou ~900 GB/s (pre NVLink 4.0). Umožňuje skutočné združovanie pamäte, kde môžu grafické procesory priamo pristupovať k pamäti VRAM ostatných grafických procesorov.
Problém: Spotrebiteľské grafické karty RTX už nepodporujú NVLink. Poslednými spotrebiteľskými grafickými kartami s podporou NVLink boli RTX 3090/3090 Ti (NVLink 3.0 pri 112.5 GB/s obojsmerne).
Bez NVLinku používa komunikácia medzi viacerými GPU rozhranie PCIe:
- Oveľa pomalší (~32 – 64 GB/s oproti 900 GB/s)
- Vyššia latencia
- Nemožno priamo zdieľať VRAM
Praktický dopad:
| konfigurácia | Očakávaný výkon |
|---|---|
| 1× RTX 5090 (32 GB) | Baseline |
| 2× RTX 5090 cez PCIe | ~1.6-1.8x (nie 2x) |
| 2× RTX 3090 cez NVLink | ~1.8-1.9x |
| Podnik s NVLink | ~1.95x+ |
Ako zabezpečiť fungovanie viacerých grafických kariet bez NVLinku
Napriek obmedzeniam sú nastavenia viacerých grafických procesorov na spotrebiteľskom hardvéri čoraz praktickejšie:
Odporúčaný softvér:
- call.cppVynikajúca podpora viacerých GPU, rozdeľuje vrstvy medzi kartami
- OllamaJednoduché nastavenie, automatické rozloženie vrstiev
- vLLMVysokovýkonné obsluhovanie, podpora tenzorového paralelizmu
- exllama2Optimalizované pre inferenciu s viacerými GPU
Tipy na konfiguráciu:
- Uistite sa, že obe grafické karty sú na rovnakom uzle NUMA (overte si to pomocou
nvidia-smi topo -m) - Pre duálnu grafickú kartu použite minimálne x8/x8 PCIe
- Sada
CUDA_VISIBLE_DEVICESsprávne - Ak je to možné, porovnávajte modely GPU (miešanie generácií funguje, ale môže byť neefektívne)
Príklady konfigurácie viacerých GPU
Duálna RTX 5090 (spolu 64 GB)
Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓
Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)
Štvornásobná grafická karta RTX 5090 (celkom 128 GB)
Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓
Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)
Budgetová zostava: Použité dve grafické karty RTX 3090 (spolu 48 GB)
Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)
Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!
Časť 5: Hĺbkový pohľad na výkonnosť výpočtov s pohyblivou rádovou čiarkou
Vysvetlenie presných formátov
Moderná umelá inteligencia používa rôzne formáty numerickej presnosti:
| tvoril | bity | Rozsah | Použite prípad |
|---|---|---|---|
| FP32 | 32 | ±3.4 × 10^38 | Tréning, vysoká presnosť |
| FP16 | 16 | ± 65,504 | Inferencia, vyvážená |
| BF16 | 16 | ±3.4 × 10^38 | Tréning, moderné grafické karty |
| FP8 | 8 | ±448 (E4M3) | Rýchla inferencia |
| INT8 | 8 | -128 na 127 | Kvantovaná inferencia |
| INT4 | 4 | -8 na 7 | Agresívna kvantizácia |
Výhoda Blackwellových FP4 a FP8
Séria RTX 50 prináša natívnu podporu FP4 v jadrách Tensor:
| Presnosť | RTX 4090 TOPS | RTX 5090 TOPS | zrýchlenie |
|---|---|---|---|
| FP16 | 330 | 418 | 1.27x |
| FP8 | 660 | ~ 1,700 | 2.6x |
| FP4 | N / A | ~ 3,400 | Nový |
| INT8 | 660 | ~ 3,400 | 5.1x |
Čo to znamená:
- Inferencia FP8 a FP4 je na grafických kartách série RTX 50 dramaticky rýchlejšia.
- Modely optimalizované pre FP8 dosahujú masívne zrýchlenia
- Generácie Tensor Core sú rovnako dôležité ako CUDA jadrá
Šírka pásma pamäte – ďalšie úzke miesto
Pri veľkých modeloch je šírka pásma pamäte často dôležitejšia ako výpočet:
Tokeny/sekunda sú obmedzené:
Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter
RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum
RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum
78% zlepšenie šírky pásma v RTX 5090 sa priamo premieta do rýchlejšej generácie vo veľkých modeloch.
Časť 6: Krajina modelu s otvoreným zdrojovým kódom – Čo spustiť
Úroveň 1: Vlajkové modely (odporúča sa 32 GB alebo viac VRAM)
Qwen3-235B-A22B (Ministerstvo životného prostredia)
- Aktívne parametre: 22B (spolu 235B)
- VRAM v 4. štvrťroku: ~ 28 GB
- kontext: 32 000 natívnych, 131 000 s YaRN
- silné stránky: Matematika, kódovanie, viacjazyčnosť (119 jazykov)
- Najlepšie pre: Všeobecné použitie, kódovanie, výskum
DeepSeek R1 70B
- Parametre: 70B
- VRAM v 4. štvrťroku: ~ 42 GB
- kontext: 128K
- silné stránky: Zdôvodňovanie, myšlienkový reťazec, kódovanie
- Najlepšie pre: Riešenie komplexných problémov, výskum
Lama 4 70B
- Parametre: 70B
- VRAM v 4. štvrťroku: ~ 42 GB
- kontext: 128K
- silné stránky: Všeobecné schopnosti, dodržiavanie pokynov
- Najlepšie pre: Všestranné aplikácie
Úroveň 2: Profesionálne modely (16 – 24 GB VRAM)
Qwen3-32B
- Parametre: 32B
- VRAM v 4. štvrťroku: ~ 19 GB
- kontext: 128K
- silné stránky: Kódovanie (zodpovedá GPT-4o), uvažovanie
- Najlepšie pre: Jedna RTX 5090/4090, vývoj
DeepSeek R1 Distill 32B
- Parametre: 32B
- VRAM v 4. štvrťroku: ~ 19 GB
- silné stránky: Úvaha odvodená zo širšieho modelu
- Najlepšie pre: Nákladovo efektívne uvažovanie
Gemma 3 27B
- Parametre: 27B
- VRAM v 4. štvrťroku: ~ 16 GB
- kontext: 128K
- silné stránky: Efektívne, kvalita od Googlu, multimodálne
- Najlepšie pre: Zostavy RTX 5080/5070 Ti
Úroveň 3: Spotrebiteľské modely (8 – 16 GB VRAM)
Qwen3-14B
- Parametre: 14B
- VRAM v 4. štvrťroku: ~ 8.4 GB
- kontext: 128K
- silné stránky: Vynikajúca rovnováha medzi veľkosťou a kapacitou
- Najlepšie pre: RTX 5070 Ti, 4070 Ti, všeobecné použitie
Qwen3-8B
- Parametre: 8B
- VRAM v 4. štvrťroku: ~ 4.8 GB
- kontext: 32K natívnych, 131K rozšírených
- silné stránky: Rýchly, schopný, zmestí sa kamkoľvek
- Najlepšie pre: Základné zostavy, aplikácie pracujúce v reálnom čase
DeepSeek R1 Distill 14B (základňa Qwen)
- Parametre: 14B
- VRAM v 4. štvrťroku: ~ 8.4 GB
- silné stránky: Silné zdôvodnenie z destilácie
- Najlepšie pre: Asistenti kódovania, riešenie problémov
Lama 4 8B
- Parametre: 8B
- VRAM v 4. štvrťroku: ~ 4.8 GB
- silné stránky: Rýchly, všestranný
- Najlepšie pre: Každodenné úlohy, chatovacie aplikácie
Úroveň 4: Edge/Embedded (4 – 8 GB VRAM)
Qwen3-4B
- Parametre: 4B
- VRAM v 4. štvrťroku: ~ 2.4 GB
- silné stránky: Výkonnosť rivalov Qwen2.5-7B
- Najlepšie pre: Notebooky, integrovaná grafika, edge zariadenia
Phi-4 (Microsoft)
- Parametre: 14B
- VRAM v 4. štvrťroku: ~ 8.4 GB
- silné stránky: Výnimočná veľkosť, zameranie na STEM
- Najlepšie pre: Vzdelávacie, technické aplikácie
Qwen3-0.6B
- Parametre: 0.6B
- VRAM v 4. štvrťroku: <1 GB
- silné stránky: Beží kdekoľvek
- Najlepšie pre: IoT, mobilné zariadenia, prostredia s veľmi nízkou spotrebou zdrojov
Vývojový diagram výberu modelu
What's your primary VRAM capacity?
├─ 32GB+ (RTX 5090, Dual 3090s)
│ └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
│
├─ 24GB (RTX 4090, 3090)
│ └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
│
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│ └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
│
├─ 12GB (RTX 5070, 4070 Ti)
│ └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
│
└─ 8GB (RTX 4070, 3070)
└─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant
Časť 7: Kompletné odporúčania pre zostavenie systému
Zostavenie 1: Vstupný bod (1 200 – 1 500 USD)
Prípad použitia: Osobný asistent s umelou inteligenciou, pomoc s kódovaním, experimentovanie
| Zložka | Odporúčania | Poznámky |
|---|---|---|
| GPU | RTX 5070 Ti (16 GB) | Najlepšia hodnota za 16 GB |
| CPU | AMD Ryzen 7 9700X | 8 jadier, PCIe 5.0 |
| RAM | 32GB DDR5-6000 | Vyrovnávacia pamäť načítavania modelu |
| Uskladnenie | 2TB NVMe PCIe 4.0 | Rýchle načítanie modelu |
| PSU | 750W 80+ Zlatá | Dostatočný priestor nad hlavou |
| Základná doska | B650 s PCIe 5.0 | pre budúcnosť |
Môže bežať:
- Qwen3-14B @ 4. štvrťrok (~8.4 GB) — vynikajúce
- DeepSeek R1 14B @ Q4 – vynikajúce
- Qwen3-32B @ Q3 (agresívne) — možné, ale tesné
- Viacero modelov 8B súčasne
Odhadovaný výkon: 35 – 50 žetónov/sekundu s modelmi 14B
Zostavenie 2: Ideálna voľba pre spotrebiteľov (3 500 – 4 500 USD)
Prípad použitia: Profesionálny rozvoj, výskum, tvorba obsahu
| Zložka | Odporúčania | Poznámky |
|---|---|---|
| GPU | RTX 5090 (32 GB) | Maximálna pamäť VRAM pre jeden GPU |
| CPU | AMD Ryzen 9 9950X | 16 jadier, vysoký výkon v jednom vlákne |
| RAM | 64GB DDR5-6400 | Veľké kontextové okná |
| Uskladnenie | 4TB NVMe Gen4 | Knižnica modelov |
| PSU | 1000W 80+ Zlatá | Vyžaduje sa pre 575W grafickú kartu |
| Základná doska | X670E | Kompletná sada funkcií |
Môže bežať:
- Qwen3-32B v 4. štvrťroku – pohodlná 13 GB pamäte
- DeepSeek R1 32B @ Q6 — vyššia kvalita
- Qwen3-235B-A22B @ Q4 — tesné, ale funguje
- Akýkoľvek model s kvalitou nižšou ako 32B vo vysokej kvalite
Odhadovaný výkon: 50 – 80 žetónov/sekundu s modelmi 32B
Zostavenie 3: Lokálny server s umelou inteligenciou (7 000 – 10 000 USD)
Prípad použitia: Server tímovej inferencie, experimentovanie s modelmi, produkčné pracovné zaťaženia
| Zložka | Odporúčania | Poznámky |
|---|---|---|
| GPU | 2× RTX 5090 (spolu 64 GB) | Pripravený tenzorový paralelizmus |
| CPU | AMD Threadripper 7960X | 24 jadier, 48 dráh |
| RAM | 128 GB DDR5-5600 ECC | Korekcia chýb pre spoľahlivosť |
| Uskladnenie | 8TB NVMe RAID 0 | Rýchle prepínanie modelov |
| PSU | 1600W 80+ titán | Duálny grafický procesor |
| Základná doska | TRX50 | Plná podpora PCIe liniek |
| Chladenie | Vlastná slučka | Teplotné riadenie |
Môže bežať:
- DeepSeek R1 70B v 4. štvrťroku – plný výkon
- Qwen3-235B-A22B @ 4. štvrťrok – vynikajúce
- Akýkoľvek model s parametrami pod 120B
- Viacero 32B modelov pre A/B testovanie
Odhadovaný výkon: 40 – 50 žetónov/sekundu s modelmi 70B
Zostavenie 4: Budget Lab (trh s použitým vozidlom za 2 000 – 2 500 USD)
Prípad použitia: Nadšenec pre vzdelávanie, rozvoj a uvedomelosť si nákladov
| Zložka | Odporúčania | Poznámky |
|---|---|---|
| GPU | 2× RTX 3090 (spolu 48 GB) | Podporuje NVLink! |
| CPU | AMD Ryzen 9 5950X | Hodnota predchádzajúcej generácie |
| RAM | 64GB DDR4-3600 | Stále schopný |
| Uskladnenie | 2 TB NVMe | Úložisko modelu |
| PSU | 1200W 80+ Zlatá | Dve 350W grafické karty |
| Základná doska | X570 s 2× x16 | Podpora NVLink |
| Most NVLink | RTX 3090 NVLink | Použité ~80 dolárov |
Výhoda NVLinku: Toto je jediná spotrebiteľská konfigurácia s podporou NVLink, ktorá poskytuje skutočné združovanie VRAM s rýchlosťou 112.5 GB/s v porovnaní s PCIe s ~32 GB/s.
Môže bežať:
- Qwen3-32B @ Q8 (vyššia kvalita) – pohodlné
- DeepSeek R1 32B @ FP16 – s dôkladnou správou kontextu
- Modely 70B v agresívnom 3. štvrťroku – možné
Odhadovaný výkon: 25 – 35 tokenov/s s modelmi 32B (rýchlejšie ako očakávané vďaka NVLink)
Zostavenie 5: Prenosný výkonný počítač (notebook)
Prípad použitia: Vývoj mobilnej umelej inteligencie, inferencia na cestách
| spec | Odporúčania |
|---|---|
| GPU | Mobilná grafická karta RTX 5090 (24 GB) |
| CPU | Intel Core Ultra 9 / AMD Ryzen 9 |
| RAM | 64GB |
| Uskladnenie | 2 TB NVMe |
| zobraziť | 16 "2560 × 1600 |
Pozoruhodné modely:
- ASUS ROG Strix SCAR 18 (2026)
- Razer Blade 18 (2026)
- MSI Titan GT78 (2026)
Môže bežať:
- Qwen3-14B @ Q4 – vynikajúce
- DeepSeek R1 14B @ Q4 – vynikajúce
- Qwen3-32B @ Q4 – tesné, ale funguje
Poznámka: Mobilná RTX 5090 má 24 GB (nie 32 GB) a nižšie TDP. Očakávajte ~70 % výkonu desktopu.
Časť 8: Odporúčania pre softvérový stack
Základné nástroje
Ollama — Jednoduché tlačidlo
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Run Qwen3 8B
ollama run qwen3:8b
# Run with specific quantization
ollama run qwen3:14b-q4_K_M
# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b
Najlepšie pre: Začíname, jednoduché nasadenie, poskytovanie API
LM Studio — zážitok z grafického rozhrania
- Prehliadač vizuálnych modelov
- Stiahnutia jedným kliknutím
- Vstavané rozhranie chatu
- Výber kvantizácie
Najlepšie pre: Netechnickí používatelia, prieskum modelov
llama.cpp — Maximálna kontrola
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
-ngl 99 \
--tensor-split 0.5,0.5 \
-c 8192
Najlepšie pre: Pokročilí používatelia, vlastné nasadenia, maximálny výkon
vLLM — Produkčné služby
# Install
pip install vllm
# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-32B \
--tensor-parallel-size 2 \
--dtype auto
Najlepšie pre: Vysokokapacitné poskytovanie, koncové body API, produkcia
Zdroje modelov
| zdroj | URL | Poznámky |
|---|---|---|
| Objímajúca tvár | huggingface.co | Oficiálne vydania |
| Knižnica Ollama | ollama.com/knižnica | Predkvantizované, jednoduché |
| Chlapík (HF) | huggingface.co/TheBloke | Kvantizácie GGUF |
| Štúdio LM Hub | lmstudio.ai | Vybraný výber |
Časť 9: Tipy na optimalizáciu
Optimalizácia VRAM
- Použite kvantizáciu Q4_K_M — Najlepšia rovnováha medzi veľkosťou a kvalitou
- Obmedziť dĺžku kontextu — 8K namiesto 32K šetrí ~40 % VRAM
- Zakázať vyrovnávaciu pamäť KV pre jednorazové výzvy
- Použite bleskovú pozornosť 2 — Znižuje pamäť pre dlhé kontexty
- Povoliť pamäťovo efektívnu inferenciu vo vLLM
Optimalizácia rýchlosti
- Maximalizácia šírky pásma pamäte GPU — Rýchlejšia RAM = rýchlejšie tokeny
- Použite FP8, ak je k dispozícii — 2-3x zrýchlenie na grafických kartách série RTX 50
- Povoliť špekulatívne dekódovanie — Použite malý model na urýchlenie veľkých
- Dávkové požiadavky — Vyššia priepustnosť pre obsluhu
- Používajte kontinuálne dávkovanie (vLLM) – Dynamické spracovanie požiadaviek
Optimalizácia pre viacero GPU
- Zhoda modelov GPU — Vyhnite sa miešaniu generácií
- Skontrolujte topológiu NUMA — Rovnaký uzol = nižšia latencia
- Použite minimálne 8 jazdných pruhov — x4 vytvára úzke miesta
- Monitor s grafickou kartou nvidia-smi — Dávajte si pozor na nevyvážené využitie
- Otestujte rôzne konfigurácie TP/PP — Optimálna hodnota sa líši v závislosti od modelu
Časť 10: Riešenie bežných problémov
„CUDA nemá dostatok pamäte“
príčiny:
- Model je príliš veľký pre VRAM
- Kontextové okno je príliš dlhé
- Rast vyrovnávacej pamäte KV
Riešenie:
- Použite agresívnejšiu kvantizáciu (Q4 → Q3)
- Skrátiť dĺžku kontextu
- Znížte veľkosť dávky
- Povoliť bleskovú pozornosť
- Rozdelené medzi viacero GPU
Pomalé generovanie tokenov
príčiny:
- Obmedzená šírka pásma pamäte
- Odľahčenie CPU je aktívne
- Thermal škrtenia
Riešenie:
- Uistite sa, že model sa celý zmestí do VRAM
- Skontrolujte teplotu GPU (cieľ <85 °C)
- Použite menší model
- Povoliť režim výkonu GPU
- Zlepšite prúdenie vzduchu v skrini
Viacero GPU sa neškáluje
príčiny:
- Úzke miesto pri šírke pásma PCIe
- Nesprávne rozdelenie vrstiev
- Problémy so vzdialenosťou NUMA
Riešenie:
- Kontrola
nvidia-smi topo -mpre topológiu - Úprava pomerov rozdelenia tenzorov
- Zabezpečenie x8+ PCIe na GPU
- Zvážte NVLink (RTX 3090)
- Použite paralelizmus pipeline namiesto tenzora
Záver: Správna voľba
Budovanie lokálneho systému umelej inteligencie v roku 2026 je dostupnejšie ako kedykoľvek predtým. Tu je zhrnutie:
Rýchle odporúčania:
| rozpočet | Najlepšia voľba | Kľúčová výhoda |
|---|---|---|
| $ 500 800- | Použitá RTX 3090 | 24 GB VRAM, podpora NVLink |
| $ 750 1000- | RTX 5070 Ti | Nový, 16 GB, efektívny |
| $ 1000 1500- | RTX 5080 | 16 GB, rýchlejší |
| $ 2000 + | RTX 5090 | 32 GB, vlajková loď |
| $ 4000 + | Duálna RTX 5090 | Modely s kapacitou 64 GB a 70 GB |
Zlaté pravidlá:
- VRAM > Všetko ostatné — Viac pamäte = viac možností modelu
- Kvantizácia je váš priateľ — Q4_K_M je ideálna voľba
- Multi-GPU má klesajúce výnosy — Bez NVLinku očakávajte ~1.6x z 2 GPU
- Šírka pásma pamäte je dôležitá — Obzvlášť pre veľké modely
- Začnite v malom, rozširujte sa — Pred investovaním si otestujte svoje pracovné zaťaženie
Ekosystém umelej inteligencie s otvoreným zdrojovým kódom sa rýchlo rozvíja. Modely, ktoré pred dvoma rokmi vyžadovali hardvér za 100 000 dolárov, teraz fungujú na systémoch za 2 000 dolárov. Čokoľvek, čo dnes postavíte, bude s rastúcou efektivitou modelov len efektívnejšie.
Vitajte vo veku osobnej umelej inteligencie.
Odporúčania a dostupnosť hardvéru nájdete na stránke Kentino.com
Dodatok: Stručné referenčné tabuľky
Požiadavky na modelovú VRAM (Q4_K_M)
| Modelka | parametre | VRAM v 4. štvrťroku | Minimálna grafická karta |
|---|---|---|---|
| Qwen3-0.6B | 0.6B | ~ 0.5 GB | Každý |
| Qwen3-4B | 4B | ~ 2.4 GB | GTX 1650 |
| Qwen3-8B | 8B | ~ 4.8 GB | RTX 3060 |
| Qwen3-14B | 14B | ~ 8.4 GB | RTX 4070 |
| Qwen3-32B | 32B | ~ 19 GB | RTX 4090 |
| Qwen3-235B-A22B | 235B (22B aktívne) | ~ 28 GB | RTX 5090 |
| DeepSeek R1 70B | 70B | ~ 42 GB | 2× RTX 5090 |
| Lama 4 405B | 405B | ~ 243 GB | 8× RTX 5090 |
Porovnanie GPU pre AI
| GPU | VRAM | Bandwidth | AI TOPS | TDP | Obvyklá cena |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 1,792 GB / s | ~ 3,400 | 575 W | $1,999 |
| RTX 5080 | 16GB | 960 GB / s | ~ 1,801 | 360 W | $999 |
| RTX 5070 Ti | 16GB | 896 GB / s | ~ 1,406 | 300 W | $749 |
| RTX 5070 | 12GB | 672 GB / s | ~ 988 | 250 W | $549 |
| RTX 4090 | 24GB | 1,008 GB / s | ~ 1,300 | 450 W | $1,599 |
| RTX 3090 | 24GB | 936 GB / s | ~ 285 | 350 W | Použité ~800 dolárov |
Posledná aktualizácia: január 2026 Článok pripravil technický tím Kentino