Vytvorenie vlastného systému umelej inteligencie: Kompletný sprievodca spotrebiteľským hardvérom GPU pre lokálne LLM z roku 2026

Vytvorenie vlastného systému umelej inteligencie: Kompletný sprievodca spotrebiteľským hardvérom GPU pre lokálne LLM z roku 2026

Hlboký pohľad na obmedzenia VRAM, združovanie viacerých GPU, obmedzenia PCIe a výkon s pohyblivou rádovou čiarkou

Technický tím Kentino.com | január 2026


Úvod: Prečo si vytvoriť vlastný systém umelej inteligencie?

Revolúcia v oblasti umelej inteligencie sa už nedeje len v dátových centrách. Vďaka modelom s otvoreným zdrojovým kódom, ako sú DeepSeek R1, Qwen 3, Llama 4 a Gemma, ktoré dosahujú nebývalé možnosti, sa prevádzkovanie výkonnej umelej inteligencie lokálne stalo nielen možným, ale aj praktickým.

Ale tu je háčik, ktorý vám nikto nepovie: VRAM je kráľ a všetko ostatné je kompromis.

Táto príručka vás prevedie od zmäteného kupujúceho grafických kariet (GPU) k informovanému architektovi systémov s umelou inteligenciou. Pokryjeme všetko od konfigurácií s jednou grafickou kartou s modelmi s 8 miliardami parametrov až po konfigurácie s viacerými grafickými kartami schopnými spracovať giganty s viac ako 70 miliardami parametrov. Či už staviate asistenta kódovania, výskumnú pracovnú stanicu alebo súkromný server s umelou inteligenciou, táto príručka vás bude sprevádzať.


Časť 1: Pochopenie VRAM – aktuálnosť umelej inteligencie

Prečo je VRAM dôležitejšia ako čokoľvek iné

Pri spúšťaní modelov s veľkým jazykom (LLM) je najdôležitejšou špecifikáciou VRAM (video pamäť s náhodným prístupom) vášho grafického procesora. Na rozdiel od hier, kde VRAM primárne ukladá textúry a vyrovnávacie pamäte snímok, pracovné zaťaženie umelou inteligenciou vyžaduje VRAM na:

  1. Váhy modelovMiliardy parametrov, ktoré definujú znalosti umelej inteligencie
  2. KV vyrovnávacia pamäťPamäť, ktorá rastie s dĺžkou konverzácie (kontextové okno)
  3. Aktivačná pamäťDočasné výpočty počas inferencie
  4. Systémová réžiaCUDA jadrá, správa pamäte, runtime buffery

Zlatý vzorec:

Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2

Examples:
- 8B model @ FP16 (2 bytes):   8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes):   8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes):  70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes):  70 × 0.5 × 1.2 = ~42 GB

Kvantizačná revolúcia

Kvantizácia je technika, ktorá umožňuje spúšťanie rozsiahlych modelov na spotrebiteľskom hardvéri. Znížením presnosti váh modelu zo 16 bitov (FP16) na 4 bity (Q4) môžete spúšťať modely, ktoré by inak vyžadovali podnikový hardvér.

kvantování Bity na parameter Zníženie pamäte Vplyv na kvalitu
FP16 16 bitov (2 bajtov) Baseline 100%
Q8_0 8 bit (1 bajt) 50% ~ 99%
Q5_K_M 5 bitov (0.625 bajtov) 68% ~ 97%
Q4_K_M 4 bitov (0.5 bajtov) 75% ~ 95%
Q3_K_M 3 bitov (0.375 bajtov) 81% ~ 90%

Ideálna hodnota: Kvantizácia Q4_K_M poskytuje 75 % úsporu pamäte s iba ~5 % stratou kvality – vďaka čomu sa v roku 2026 stáva zlatým štandardom pre spotrebiteľské nasadenie.


Časť 2: Situácia s grafickými procesormi v roku 2026

Rad NVIDIA RTX 50 – nový štandard

Architektúra Blackwell od spoločnosti NVIDIA prináša významné vylepšenia pre úlohy umelej inteligencie:

RTX 5090 — Vlajková loď

špecifikácia RTX 5090 RTX 4090 (predchádzajúca generácia)
VRAM 32 CZ GDDR7 24 GB GDDR6X
Šírka pamäte 1,792 GB / s 1,008 GB / s
CUDA Cores 21,760 16,384
Tenzorové jadrá 680 (5. generácia) 512 (4. generácia)
AI TOPS (INT8) ~ 3,400 ~ 1,300
TDP 575 W 450 W
PCIe 5.0 x16 4.0 x16
Obvyklá cena $1,999 $1,599

Čo vám prinesie 32 GB VRAM:

  • Qwen3-32B @ Q4_K_M — pohodlne
  • DeepSeek R1 32B @ Q4_K_M — s priestorom pre kontext
  • Lama 4 8B @ FP16 — plná presnosť
  • 70 miliárd modelov v 4. štvrťroku 2018 – s agresívnymi kontextovými limitmi

78% zlepšenie šírky pásma RTX 5090 oproti 4090 znamená rýchlejšie generovanie tokenov, čo je obzvlášť dôležité pre väčšie modely, kde sa šírka pásma pamäte stáva úzkym hrdlom.

RTX 5080 — Praktická voľba

špecifikácia RTX 5080
VRAM 16 CZ GDDR7
Šírka pamäte 960 GB / s
CUDA Cores 10,752
Tenzorové jadrá 336 (5. generácia)
AI TOPS (INT8) ~ 1,801
TDP 360 W
Obvyklá cena $999

Čo vám prinesie 16 GB VRAM:

  • Qwen3-14B @ Q4_K_M — skvelý výkon
  • DeepSeek R1 14B @ Q4_K_M — vynikajúci na kódovanie
  • Lama 4 8B @ Q8_0 — vysoká kvalita
  • 32B modely s agresívnou kvantizáciou – možné, ale tesné

RTX 5070 Ti — Budget AI Workhorse

špecifikácia RTX 5070 Ti
VRAM 16 CZ GDDR7
Šírka pamäte 896 GB / s
CUDA Cores 8,960
Tenzorové jadrá 280 (5. generácia)
AI TOPS (INT8) ~ 1,406
TDP 300 W
Obvyklá cena $749

RTX 5070 Ti ponúka rovnakých 16 GB VRAM ako 5080 za o 25 % nižšiu cenu – vďaka čomu je pravdepodobne najlepšou hodnotou pre dedikované úlohy s umelou inteligenciou, keď rýchlosť tokenu nie je kritická.

RTX 5070 — Vstupný bod

špecifikácia RTX 5070
VRAM 12 CZ GDDR7
Šírka pamäte 672 GB / s
CUDA Cores 6,144
TDP 250 W
Obvyklá cena $549

Problém s 12 GB: Hoci je cena RTX 5070 atraktívna, 12 GB VRAM predstavuje značné obmedzenia. S modelmi s výkonom 14 GB a viac a dlhšími kontextovými oknami narazíte na steny. Dodatočných 4 GB u 5070 Ti považujte za nevyhnutnú poistku.

Predchádzajúca generácia je stále životaschopná

RTX 4090 — Stále uchádzač o titul

RTX 4090 s 24 GB VRAM zostáva vynikajúcou grafickou kartou pre umelú inteligenciu. Ak ju nájdete za dobrú cenu, zvládne:

  • 14B modely s vysokou kvantizáciou
  • 32B modelov v Q4_K_M (tesné)
  • Viacero modelov 8B súčasne

RTX 3090 / 3090 Ti — Králi rozpočtu

S 24 GB VRAM (rovnako ako 4090) sú tieto staršie karty neuveriteľne cenné pre umelú inteligenciu:

  • Pomalšia šírka pásma (936 GB/s)
  • Staršie tenzorové jadrá (3. generácia)
  • Ale rovnaká kapacita 24 GB

Ak je čistá VRAM dôležitejšia ako rýchlosť (napr. pre dávkové spracovanie alebo vývoj), použitá 3090 za 700 – 900 dolárov prekoná novú 5070 za 549 dolárov pri úlohách s umelou inteligenciou.


Časť 3: Pochopenie obmedzení PCIe

Realita šírky pásma PCIe

PCIe (Peripheral Component Interconnect Express) je diaľnica medzi vašou grafickou kartou a zvyškom systému. Tu je to, čo potrebujete vedieť:

Verzia PCIe Šírka pásma na pruh Celkom x16 Celkom x8 Celkom x4
PCIe 3.0 ~ 1 GB / s ~ 16 GB / s ~ 8 GB / s ~ 4 GB / s
PCIe 4.0 ~ 2 GB / s ~ 32 GB / s ~ 16 GB / s ~ 8 GB / s
PCIe 5.0 ~ 4 GB / s ~ 64 GB / s ~ 32 GB / s ~ 16 GB / s

Kedy na PCIe záleží (a kedy nie)

PCIe je dôležité pre:

  • Počiatočné načítanie modelu (ušetrené minúty na veľkých modeloch)
  • Komunikácia medzi viacerými GPU (kritická pre tenzorový paralelizmus)
  • Zmiešaná inferencia CPU/GPU (keď model preniká do RAM)

PCIe nemá veľký význam pre:

  • Inferencia pre jeden GPU po načítaní modelu
  • Inferencia malého modelu
  • Dlhotrvajúce relácie, kde je čas načítania zanedbateľný

Praktický návod:

  • Jedna grafická karta: PCIe 4.0 x8 zvyčajne postačuje
  • Duálna grafická karta: odporúča sa PCIe 4.0 x16/x16 alebo x8/x8
  • Štvornásobná grafická karta: odporúča sa PCIe 5.0 alebo podnikové platformy

Limity CPU liniek podľa platformy

Plošina Celkový počet PCIe liniek Typická konfigurácia
Intel 14. generácie (stolný počítač) 20 z CPU + 4 z čipsetu 1 grafická karta x16 + NVMe
AMD Ryzen 9000 24 z procesora 1 grafická karta x16 + NVMe
AMD Threadripper PRO 128 pruhov 4 grafické karty x16 v každej
Intel Xeon W 64-112 pruhy 2 – 4 grafické karty x16 v každej

Úzke miesto na spotrebiteľskej platforme: Väčšina spotrebiteľských procesorov (Intel Core, AMD Ryzen) poskytuje z procesora iba 16 – 24 PCIe liniek. To znamená:

  • Prvá grafická karta dostane plnú x16
  • Pridanie druhej grafickej karty často núti obe systémy pracovať na x8/x8
  • Tretia a štvrtá grafická karta môžu bežať na frekvencii x4

Pre serióznu prácu s umelou inteligenciou na viacerých grafických procesoroch zvážte platformy Threadripper PRO alebo HEDT.


Časť 4: Konfigurácie s viacerými grafickými procesormi – Združovanie VRAM

Sen verzus realita

Sen: Skombinujte 4× RTX 5090 pre 128 GB unifikovanej VRAM a spúšťajte najväčšie modely, akoby boli na H100.

Realita: Je to zložité, ale čoraz viac možné.

Ako funguje Multi-GPU pre LLM

Existujú dva hlavné prístupy:

Tenzorový rovnobežný systém (TP)

Rozdeľuje jednotlivé operácie (ako napríklad násobenie matíc) medzi viacero grafických procesorov (GPU). Vyžaduje si vysokorýchlostnú komunikáciu medzi grafickými procesormi.

Najlepšie pre: Vysokokapacitná inferencia, aplikácie citlivé na latenciu Požiadavky: NVLink je preferovaný, minimálne PCIe 4.0 x8 na GPU Podporovaný: vLLM, TensorRT-LLM, DeepSpeed

Paralelizmus potrubia (PP)

Rozdelí model do postupných fáz, pričom každá GPU spracováva rôzne vrstvy.

Najlepšie pre: Montáž veľkých modelov, dávkové spracovanie Požiadavky: Stredná šírka pásma medzi GPU Podporovaný: llama.cpp, Ollama, väčšina frameworkov

NVLink vs. PCIe – Tvrdá pravda

NVLink poskytuje priamu komunikáciu medzi grafickými procesormi (GPU) s rýchlosťou ~900 GB/s (pre NVLink 4.0). Umožňuje skutočné združovanie pamäte, kde môžu grafické procesory priamo pristupovať k pamäti VRAM ostatných grafických procesorov.

Problém: Spotrebiteľské grafické karty RTX už nepodporujú NVLink. Poslednými spotrebiteľskými grafickými kartami s podporou NVLink boli RTX 3090/3090 Ti (NVLink 3.0 pri 112.5 GB/s obojsmerne).

Bez NVLinku používa komunikácia medzi viacerými GPU rozhranie PCIe:

  • Oveľa pomalší (~32 – 64 GB/s oproti 900 GB/s)
  • Vyššia latencia
  • Nemožno priamo zdieľať VRAM

Praktický dopad:

konfigurácia Očakávaný výkon
1× RTX 5090 (32 GB) Baseline
2× RTX 5090 cez PCIe ~1.6-1.8x (nie 2x)
2× RTX 3090 cez NVLink ~1.8-1.9x
Podnik s NVLink ~1.95x+

Ako zabezpečiť fungovanie viacerých grafických kariet bez NVLinku

Napriek obmedzeniam sú nastavenia viacerých grafických procesorov na spotrebiteľskom hardvéri čoraz praktickejšie:

Odporúčaný softvér:

  • call.cppVynikajúca podpora viacerých GPU, rozdeľuje vrstvy medzi kartami
  • OllamaJednoduché nastavenie, automatické rozloženie vrstiev
  • vLLMVysokovýkonné obsluhovanie, podpora tenzorového paralelizmu
  • exllama2Optimalizované pre inferenciu s viacerými GPU

Tipy na konfiguráciu:

  1. Uistite sa, že obe grafické karty sú na rovnakom uzle NUMA (overte si to pomocou nvidia-smi topo -m)
  2. Pre duálnu grafickú kartu použite minimálne x8/x8 PCIe
  3. Sada CUDA_VISIBLE_DEVICES správne
  4. Ak je to možné, porovnávajte modely GPU (miešanie generácií funguje, ale môže byť neefektívne)

Príklady konfigurácie viacerých GPU

Duálna RTX 5090 (spolu 64 GB)

Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓

Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)

Štvornásobná grafická karta RTX 5090 (celkom 128 GB)

Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓

Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)

Budgetová zostava: Použité dve grafické karty RTX 3090 (spolu 48 GB)

Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)

Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!

Časť 5: Hĺbkový pohľad na výkonnosť výpočtov s pohyblivou rádovou čiarkou

Vysvetlenie presných formátov

Moderná umelá inteligencia používa rôzne formáty numerickej presnosti:

tvoril bity Rozsah Použite prípad
FP32 32 ±3.4 × 10^38 Tréning, vysoká presnosť
FP16 16 ± 65,504 Inferencia, vyvážená
BF16 16 ±3.4 × 10^38 Tréning, moderné grafické karty
FP8 8 ±448 (E4M3) Rýchla inferencia
INT8 8 -128 na 127 Kvantovaná inferencia
INT4 4 -8 na 7 Agresívna kvantizácia

Výhoda Blackwellových FP4 a FP8

Séria RTX 50 prináša natívnu podporu FP4 v jadrách Tensor:

Presnosť RTX 4090 TOPS RTX 5090 TOPS zrýchlenie
FP16 330 418 1.27x
FP8 660 ~ 1,700 2.6x
FP4 N / A ~ 3,400 Nový
INT8 660 ~ 3,400 5.1x

Čo to znamená:

  • Inferencia FP8 a FP4 je na grafických kartách série RTX 50 dramaticky rýchlejšia.
  • Modely optimalizované pre FP8 dosahujú masívne zrýchlenia
  • Generácie Tensor Core sú rovnako dôležité ako CUDA jadrá

Šírka pásma pamäte – ďalšie úzke miesto

Pri veľkých modeloch je šírka pásma pamäte často dôležitejšia ako výpočet:

Tokeny/sekunda sú obmedzené:

Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter

RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum

RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum

78% zlepšenie šírky pásma v RTX 5090 sa priamo premieta do rýchlejšej generácie vo veľkých modeloch.


Časť 6: Krajina modelu s otvoreným zdrojovým kódom – Čo spustiť

Úroveň 1: Vlajkové modely (odporúča sa 32 GB alebo viac VRAM)

Qwen3-235B-A22B (Ministerstvo životného prostredia)

  • Aktívne parametre: 22B (spolu 235B)
  • VRAM v 4. štvrťroku: ~ 28 GB
  • kontext: 32 000 natívnych, 131 000 s YaRN
  • silné stránky: Matematika, kódovanie, viacjazyčnosť (119 jazykov)
  • Najlepšie pre: Všeobecné použitie, kódovanie, výskum

DeepSeek R1 70B

  • Parametre: 70B
  • VRAM v 4. štvrťroku: ~ 42 GB
  • kontext: 128K
  • silné stránky: Zdôvodňovanie, myšlienkový reťazec, kódovanie
  • Najlepšie pre: Riešenie komplexných problémov, výskum

Lama 4 70B

  • Parametre: 70B
  • VRAM v 4. štvrťroku: ~ 42 GB
  • kontext: 128K
  • silné stránky: Všeobecné schopnosti, dodržiavanie pokynov
  • Najlepšie pre: Všestranné aplikácie

Úroveň 2: Profesionálne modely (16 – 24 GB VRAM)

Qwen3-32B

  • Parametre: 32B
  • VRAM v 4. štvrťroku: ~ 19 GB
  • kontext: 128K
  • silné stránky: Kódovanie (zodpovedá GPT-4o), uvažovanie
  • Najlepšie pre: Jedna RTX 5090/4090, vývoj

DeepSeek R1 Distill 32B

  • Parametre: 32B
  • VRAM v 4. štvrťroku: ~ 19 GB
  • silné stránky: Úvaha odvodená zo širšieho modelu
  • Najlepšie pre: Nákladovo efektívne uvažovanie

Gemma 3 27B

  • Parametre: 27B
  • VRAM v 4. štvrťroku: ~ 16 GB
  • kontext: 128K
  • silné stránky: Efektívne, kvalita od Googlu, multimodálne
  • Najlepšie pre: Zostavy RTX 5080/5070 Ti

Úroveň 3: Spotrebiteľské modely (8 – 16 GB VRAM)

Qwen3-14B

  • Parametre: 14B
  • VRAM v 4. štvrťroku: ~ 8.4 GB
  • kontext: 128K
  • silné stránky: Vynikajúca rovnováha medzi veľkosťou a kapacitou
  • Najlepšie pre: RTX 5070 Ti, 4070 Ti, všeobecné použitie

Qwen3-8B

  • Parametre: 8B
  • VRAM v 4. štvrťroku: ~ 4.8 GB
  • kontext: 32K natívnych, 131K rozšírených
  • silné stránky: Rýchly, schopný, zmestí sa kamkoľvek
  • Najlepšie pre: Základné zostavy, aplikácie pracujúce v reálnom čase

DeepSeek R1 Distill 14B (základňa Qwen)

  • Parametre: 14B
  • VRAM v 4. štvrťroku: ~ 8.4 GB
  • silné stránky: Silné zdôvodnenie z destilácie
  • Najlepšie pre: Asistenti kódovania, riešenie problémov

Lama 4 8B

  • Parametre: 8B
  • VRAM v 4. štvrťroku: ~ 4.8 GB
  • silné stránky: Rýchly, všestranný
  • Najlepšie pre: Každodenné úlohy, chatovacie aplikácie

Úroveň 4: Edge/Embedded (4 – 8 GB VRAM)

Qwen3-4B

  • Parametre: 4B
  • VRAM v 4. štvrťroku: ~ 2.4 GB
  • silné stránky: Výkonnosť rivalov Qwen2.5-7B
  • Najlepšie pre: Notebooky, integrovaná grafika, edge zariadenia

Phi-4 (Microsoft)

  • Parametre: 14B
  • VRAM v 4. štvrťroku: ~ 8.4 GB
  • silné stránky: Výnimočná veľkosť, zameranie na STEM
  • Najlepšie pre: Vzdelávacie, technické aplikácie

Qwen3-0.6B

  • Parametre: 0.6B
  • VRAM v 4. štvrťroku: <1 GB
  • silné stránky: Beží kdekoľvek
  • Najlepšie pre: IoT, mobilné zariadenia, prostredia s veľmi nízkou spotrebou zdrojov

Vývojový diagram výberu modelu

What's your primary VRAM capacity?

├─ 32GB+ (RTX 5090, Dual 3090s)
│   └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
├─ 24GB (RTX 4090, 3090)
│   └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│   └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
├─ 12GB (RTX 5070, 4070 Ti)
│   └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
└─ 8GB (RTX 4070, 3070)
    └─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant

Časť 7: Kompletné odporúčania pre zostavenie systému

Zostavenie 1: Vstupný bod (1 200 – 1 500 USD)

Prípad použitia: Osobný asistent s umelou inteligenciou, pomoc s kódovaním, experimentovanie

Zložka Odporúčania Poznámky
GPU RTX 5070 Ti (16 GB) Najlepšia hodnota za 16 GB
CPU AMD Ryzen 7 9700X 8 jadier, PCIe 5.0
RAM 32GB DDR5-6000 Vyrovnávacia pamäť načítavania modelu
Uskladnenie 2TB NVMe PCIe 4.0 Rýchle načítanie modelu
PSU 750W 80+ Zlatá Dostatočný priestor nad hlavou
Základná doska B650 s PCIe 5.0 pre budúcnosť

Môže bežať:

  • Qwen3-14B @ 4. štvrťrok (~8.4 GB) — vynikajúce
  • DeepSeek R1 14B @ Q4 – vynikajúce
  • Qwen3-32B @ Q3 (agresívne) — možné, ale tesné
  • Viacero modelov 8B súčasne

Odhadovaný výkon: 35 – 50 žetónov/sekundu s modelmi 14B


Zostavenie 2: Ideálna voľba pre spotrebiteľov (3 500 – 4 500 USD)

Prípad použitia: Profesionálny rozvoj, výskum, tvorba obsahu

Zložka Odporúčania Poznámky
GPU RTX 5090 (32 GB) Maximálna pamäť VRAM pre jeden GPU
CPU AMD Ryzen 9 9950X 16 jadier, vysoký výkon v jednom vlákne
RAM 64GB DDR5-6400 Veľké kontextové okná
Uskladnenie 4TB NVMe Gen4 Knižnica modelov
PSU 1000W 80+ Zlatá Vyžaduje sa pre 575W grafickú kartu
Základná doska X670E Kompletná sada funkcií

Môže bežať:

  • Qwen3-32B v 4. štvrťroku – pohodlná 13 GB pamäte
  • DeepSeek R1 32B @ Q6 — vyššia kvalita
  • Qwen3-235B-A22B @ Q4 — tesné, ale funguje
  • Akýkoľvek model s kvalitou nižšou ako 32B vo vysokej kvalite

Odhadovaný výkon: 50 – 80 žetónov/sekundu s modelmi 32B


Zostavenie 3: Lokálny server s umelou inteligenciou (7 000 – 10 000 USD)

Prípad použitia: Server tímovej inferencie, experimentovanie s modelmi, produkčné pracovné zaťaženia

Zložka Odporúčania Poznámky
GPU 2× RTX 5090 (spolu 64 GB) Pripravený tenzorový paralelizmus
CPU AMD Threadripper 7960X 24 jadier, 48 dráh
RAM 128 GB DDR5-5600 ECC Korekcia chýb pre spoľahlivosť
Uskladnenie 8TB NVMe RAID 0 Rýchle prepínanie modelov
PSU 1600W 80+ titán Duálny grafický procesor
Základná doska TRX50 Plná podpora PCIe liniek
Chladenie Vlastná slučka Teplotné riadenie

Môže bežať:

  • DeepSeek R1 70B v 4. štvrťroku – plný výkon
  • Qwen3-235B-A22B @ 4. štvrťrok – vynikajúce
  • Akýkoľvek model s parametrami pod 120B
  • Viacero 32B modelov pre A/B testovanie

Odhadovaný výkon: 40 – 50 žetónov/sekundu s modelmi 70B


Zostavenie 4: Budget Lab (trh s použitým vozidlom za 2 000 – 2 500 USD)

Prípad použitia: Nadšenec pre vzdelávanie, rozvoj a uvedomelosť si nákladov

Zložka Odporúčania Poznámky
GPU 2× RTX 3090 (spolu 48 GB) Podporuje NVLink!
CPU AMD Ryzen 9 5950X Hodnota predchádzajúcej generácie
RAM 64GB DDR4-3600 Stále schopný
Uskladnenie 2 TB NVMe Úložisko modelu
PSU 1200W 80+ Zlatá Dve 350W grafické karty
Základná doska X570 s 2× x16 Podpora NVLink
Most NVLink RTX 3090 NVLink Použité ~80 dolárov

Výhoda NVLinku: Toto je jediná spotrebiteľská konfigurácia s podporou NVLink, ktorá poskytuje skutočné združovanie VRAM s rýchlosťou 112.5 GB/s v porovnaní s PCIe s ~32 GB/s.

Môže bežať:

  • Qwen3-32B @ Q8 (vyššia kvalita) – pohodlné
  • DeepSeek R1 32B @ FP16 – s dôkladnou správou kontextu
  • Modely 70B v agresívnom 3. štvrťroku – možné

Odhadovaný výkon: 25 – 35 tokenov/s s modelmi 32B (rýchlejšie ako očakávané vďaka NVLink)


Zostavenie 5: Prenosný výkonný počítač (notebook)

Prípad použitia: Vývoj mobilnej umelej inteligencie, inferencia na cestách

spec Odporúčania
GPU Mobilná grafická karta RTX 5090 (24 GB)
CPU Intel Core Ultra 9 / AMD Ryzen 9
RAM 64GB
Uskladnenie 2 TB NVMe
zobraziť 16 "2560 × 1600

Pozoruhodné modely:

  • ASUS ROG Strix SCAR 18 (2026)
  • Razer Blade 18 (2026)
  • MSI Titan GT78 (2026)

Môže bežať:

  • Qwen3-14B @ Q4 – vynikajúce
  • DeepSeek R1 14B @ Q4 – vynikajúce
  • Qwen3-32B @ Q4 – tesné, ale funguje

Poznámka: Mobilná RTX 5090 má 24 GB (nie 32 GB) a nižšie TDP. Očakávajte ~70 % výkonu desktopu.


Časť 8: Odporúčania pre softvérový stack

Základné nástroje

Ollama — Jednoduché tlačidlo

tresnúť
# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Run Qwen3 8B
ollama run qwen3:8b

# Run with specific quantization
ollama run qwen3:14b-q4_K_M

# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b

Najlepšie pre: Začíname, jednoduché nasadenie, poskytovanie API

LM Studio — zážitok z grafického rozhrania

  • Prehliadač vizuálnych modelov
  • Stiahnutia jedným kliknutím
  • Vstavané rozhranie chatu
  • Výber kvantizácie

Najlepšie pre: Netechnickí používatelia, prieskum modelov

llama.cpp — Maximálna kontrola

tresnúť
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
  -ngl 99 \
  --tensor-split 0.5,0.5 \
  -c 8192

Najlepšie pre: Pokročilí používatelia, vlastné nasadenia, maximálny výkon

vLLM — Produkčné služby

tresnúť
# Install
pip install vllm

# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3-32B \
  --tensor-parallel-size 2 \
  --dtype auto

Najlepšie pre: Vysokokapacitné poskytovanie, koncové body API, produkcia

Zdroje modelov

zdroj URL Poznámky
Objímajúca tvár huggingface.co Oficiálne vydania
Knižnica Ollama ollama.com/knižnica Predkvantizované, jednoduché
Chlapík (HF) huggingface.co/TheBloke Kvantizácie GGUF
Štúdio LM Hub lmstudio.ai Vybraný výber

Časť 9: Tipy na optimalizáciu

Optimalizácia VRAM

  1. Použite kvantizáciu Q4_K_M — Najlepšia rovnováha medzi veľkosťou a kvalitou
  2. Obmedziť dĺžku kontextu — 8K namiesto 32K šetrí ~40 % VRAM
  3. Zakázať vyrovnávaciu pamäť KV pre jednorazové výzvy
  4. Použite bleskovú pozornosť 2 — Znižuje pamäť pre dlhé kontexty
  5. Povoliť pamäťovo efektívnu inferenciu vo vLLM

Optimalizácia rýchlosti

  1. Maximalizácia šírky pásma pamäte GPU — Rýchlejšia RAM = rýchlejšie tokeny
  2. Použite FP8, ak je k dispozícii — 2-3x zrýchlenie na grafických kartách série RTX 50
  3. Povoliť špekulatívne dekódovanie — Použite malý model na urýchlenie veľkých
  4. Dávkové požiadavky — Vyššia priepustnosť pre obsluhu
  5. Používajte kontinuálne dávkovanie (vLLM) – Dynamické spracovanie požiadaviek

Optimalizácia pre viacero GPU

  1. Zhoda modelov GPU — Vyhnite sa miešaniu generácií
  2. Skontrolujte topológiu NUMA — Rovnaký uzol = nižšia latencia
  3. Použite minimálne 8 jazdných pruhov — x4 vytvára úzke miesta
  4. Monitor s grafickou kartou nvidia-smi — Dávajte si pozor na nevyvážené využitie
  5. Otestujte rôzne konfigurácie TP/PP — Optimálna hodnota sa líši v závislosti od modelu

Časť 10: Riešenie bežných problémov

„CUDA nemá dostatok pamäte“

príčiny:

  • Model je príliš veľký pre VRAM
  • Kontextové okno je príliš dlhé
  • Rast vyrovnávacej pamäte KV

Riešenie:

  1. Použite agresívnejšiu kvantizáciu (Q4 → Q3)
  2. Skrátiť dĺžku kontextu
  3. Znížte veľkosť dávky
  4. Povoliť bleskovú pozornosť
  5. Rozdelené medzi viacero GPU

Pomalé generovanie tokenov

príčiny:

  • Obmedzená šírka pásma pamäte
  • Odľahčenie CPU je aktívne
  • Thermal škrtenia

Riešenie:

  1. Uistite sa, že model sa celý zmestí do VRAM
  2. Skontrolujte teplotu GPU (cieľ <85 °C)
  3. Použite menší model
  4. Povoliť režim výkonu GPU
  5. Zlepšite prúdenie vzduchu v skrini

Viacero GPU sa neškáluje

príčiny:

  • Úzke miesto pri šírke pásma PCIe
  • Nesprávne rozdelenie vrstiev
  • Problémy so vzdialenosťou NUMA

Riešenie:

  1. Kontrola nvidia-smi topo -m pre topológiu
  2. Úprava pomerov rozdelenia tenzorov
  3. Zabezpečenie x8+ PCIe na GPU
  4. Zvážte NVLink (RTX 3090)
  5. Použite paralelizmus pipeline namiesto tenzora

Záver: Správna voľba

Budovanie lokálneho systému umelej inteligencie v roku 2026 je dostupnejšie ako kedykoľvek predtým. Tu je zhrnutie:

Rýchle odporúčania:

rozpočet Najlepšia voľba Kľúčová výhoda
$ 500 800- Použitá RTX 3090 24 GB VRAM, podpora NVLink
$ 750 1000- RTX 5070 Ti Nový, 16 GB, efektívny
$ 1000 1500- RTX 5080 16 GB, rýchlejší
$ 2000 + RTX 5090 32 GB, vlajková loď
$ 4000 + Duálna RTX 5090 Modely s kapacitou 64 GB a 70 GB

Zlaté pravidlá:

  1. VRAM > Všetko ostatné — Viac pamäte = viac možností modelu
  2. Kvantizácia je váš priateľ — Q4_K_M je ideálna voľba
  3. Multi-GPU má klesajúce výnosy — Bez NVLinku očakávajte ~1.6x z 2 GPU
  4. Šírka pásma pamäte je dôležitá — Obzvlášť pre veľké modely
  5. Začnite v malom, rozširujte sa — Pred investovaním si otestujte svoje pracovné zaťaženie

Ekosystém umelej inteligencie s otvoreným zdrojovým kódom sa rýchlo rozvíja. Modely, ktoré pred dvoma rokmi vyžadovali hardvér za 100 000 dolárov, teraz fungujú na systémoch za 2 000 dolárov. Čokoľvek, čo dnes postavíte, bude s rastúcou efektivitou modelov len efektívnejšie.

Vitajte vo veku osobnej umelej inteligencie.


Odporúčania a dostupnosť hardvéru nájdete na stránke Kentino.com


Dodatok: Stručné referenčné tabuľky

Požiadavky na modelovú VRAM (Q4_K_M)

Modelka parametre VRAM v 4. štvrťroku Minimálna grafická karta
Qwen3-0.6B 0.6B ~ 0.5 GB Každý
Qwen3-4B 4B ~ 2.4 GB GTX 1650
Qwen3-8B 8B ~ 4.8 GB RTX 3060
Qwen3-14B 14B ~ 8.4 GB RTX 4070
Qwen3-32B 32B ~ 19 GB RTX 4090
Qwen3-235B-A22B 235B (22B aktívne) ~ 28 GB RTX 5090
DeepSeek R1 70B 70B ~ 42 GB 2× RTX 5090
Lama 4 405B 405B ~ 243 GB 8× RTX 5090

Porovnanie GPU pre AI

GPU VRAM Bandwidth AI TOPS TDP Obvyklá cena
RTX 5090 32GB 1,792 GB / s ~ 3,400 575 W $1,999
RTX 5080 16GB 960 GB / s ~ 1,801 360 W $999
RTX 5070 Ti 16GB 896 GB / s ~ 1,406 300 W $749
RTX 5070 12GB 672 GB / s ~ 988 250 W $549
RTX 4090 24GB 1,008 GB / s ~ 1,300 450 W $1,599
RTX 3090 24GB 936 GB / s ~ 285 350 W Použité ~800 dolárov

Posledná aktualizácia: január 2026 Článok pripravil technický tím Kentino

ブログに戻る