エッジAIラボ
エッジAIラボ
BUDGET GPU × EDGE AI

CUDAなし×安いGPUでエッジAI — 予算別構成ガイド

NVIDIA以外の安いGPUでローカルLLM・エッジAIを組む。0円(いまのPCの内蔵GPU)から5万円まで、VRAMとモデル規模の対応・セットアップ手順・実際にハマった罠を実測つきで解説します。

この記事の要点(30秒で理解)

  • 🔑

    安いGPUでAIを動かす鍵はVulkan。llama.cppのVulkanバックエンドはNVIDIA・AMD・Intel・世代の古いGPUまで最も広くカバーし、ベンダーを選ばない「共通語」になっている。

  • 📐

    選定の軸は演算性能よりVRAM容量。Q4量子化なら「8GBで7〜8B級、10GBで13B級、12GBで14B級」が目安。安くてもVRAMが多いカードが勝つ。

  • 💴

    予算0円から始められる。いまのPCの内蔵GPU(Intel Xe / AMD APU)でもVulkanでLLMが動く(本記事で実測)。次の一手が中古Radeon・Intel Arcの2〜5万円帯。

安GPU戦略の核心 — なぜVulkanが「共通語」なのか

llama.cppのGPUバックエンドの勢力図は「CUDAが最速・ROCmはハイエンドAMDのLinuxで強い・Vulkanは最も広くどのベンダーでも動く」という整理が定着しています (根拠: バックエンド別ベンチ集計llama.cpp公式Discussion)。 つまり「安いGPUを買う→Vulkanで動かす」が、ベンダーを問わない最小リスクの方程式です。

ドライバ側の進化も追い風です。AMDのオープンソースVulkanドライバ(RADV)は更新でプロンプト処理が 最大13%向上した報告があり(根拠: Hardware Corner)、Intel ArcもVulkanで「素直に動く」ことが確認されています(根拠: Intel Arc + llama.cpp検証記事)。性能を極めるならIntelはSYCL、AMD(対応機)はROCmという上積みもありますが、まずVulkanで動かして損はありません。

予算別おすすめの組み合わせ

鉄則は「演算性能よりVRAM容量」。 使いたいモデルのQ4量子化がVRAMに丸ごと載るかどうかで体験が決まります。

予算組み合わせVRAM動くモデルの目安(Q4)ひとこと
¥0いまのPCの内蔵GPU(Intel Xe / AMD APU)メインRAM共用(UMA)1〜8B級(RAM次第)まず試す。本記事の実測はこの構成
〜2万円台中古 Radeon RX 6600(8GB)8GB7〜8B級 Q4が快適圏中古市場の定番。Vulkanで安定
3万円台Intel Arc B570(10GB・新品)10GB13B級 Q4まで視野$219で10GB。新品保証つきが強み
5万円前後Intel Arc B580(12GB・新品)12GB14B級 Q4 + 余裕のコンテキストVRAM単価で最強クラス
(参考)中古 GeForce RTX 3060(12GB)12GB14B級 Q4CUDA側の対抗馬。中古3万円前後なら有力。フェアに言えば強い

価格は変動します。Arc B570は希望小売$219・10GB/150W(根拠: マイナビ実機検証)、B580は12GBで「RTX 4060より安く高性能」を掲げて投入されました(根拠: GIGAZINE)。国内実売は 価格.comで要確認。中古価格は相場変動が大きいため購入時点で比較してください(経験則・要検証)。

実測 — 同じモデルをCPU・内蔵GPU・ハイエンドCUDAで動かすと(2026-06-13)

LFM2.5 8B(Q4系量子化・同一モデル)を当ラボのPC(Core Ultra 9 285K / 128GB / RTX A6000)で3方式比較。 内蔵GPUはllama.cpp Vulkan版で計測(まさに本記事の「0円構成」の手順そのまま)。

実行方式生成速度(実測)読み解き
CPU(285K・24コア)43.2 tok/sCPU効率特化モデルの本領
内蔵GPU(Intel Xe・Vulkan)25.0 tok/sまさかのCPU負け(理由は下記)
RTX A6000(CUDA・参考)299.3 tok/s最速はやはりCUDA。価格は桁違い

この実測の正直な学び

  • 内蔵GPUは「常にCPUより速い」わけではない。LFM2.5 8Bは実体がアクティブ1BのMoEでCPUに極めて有利なうえ、内蔵GPUはCPUと同じDDR5メモリ帯域を共有するため、 生成速度では43.2 vs 25.0でCPUが勝った。
  • 一方、プロンプト処理は内蔵GPUが強い(pp512で308.8 t/s)。 長い文書を読み込ませて短く答えさせる用途なら、内蔵GPUに分がある。
  • だからこそ「0円で実測してから買う」が正解。同一モデル・同一マシンでも実行方式で速度は3〜10倍変わる。本記事の手順なら30分で自分の答えが出る。
  • 計測条件の注記: CPU/A6000はOllama API(200トークン生成のeval rate)、内蔵GPUはllama-bench(tg128)。 方式が完全一致ではない参考比較である点は明記しておく。

セットアップ — llama.cpp Vulkan版を5分で動かす

ビルド不要・どのベンダーのGPUでも同じ手順。本記事の実測もこの手順で行いました。

1

llama.cppのVulkan版を入手

GitHubのReleasesから「llama-bXXXX-bin-win-vulkan-x64.zip」をダウンロードして展開するだけ。ビルド不要(約40MB)。

2

GGUFモデルを用意

Hugging Faceで「モデル名 + GGUF」を検索し、Q4_K_M等の量子化版をダウンロード。VRAM(または共用RAM)に収まるサイズを選ぶ。

3

GPUを確認

llama-bench.exe --list-devices で認識GPUを一覧表示。複数ある場合は環境変数 GGML_VK_VISIBLE_DEVICES で使うGPUを指定できる。

4

実行

llama-cli.exe -m モデル.gguf -ngl 99 で全層GPUオフロード実行。-ngl を減らすとVRAMに収まらない大きいモデルもCPUと分担で動く。

GUI派には Vulkan対応の LM Studio も選択肢。Linux×対応Radeonなら ROCm、Intelを極めるなら SYCL / OpenVINO が上積み候補です。

実際にハマった・ハマりやすい落とし穴

⚠️ Ollama血統のGGUFが読めないことがある

Ollamaで取得したモデルのGGUFを上流llama.cppに流用しようとしたところ、メタデータ非互換でロード失敗(本記事の検証中に実際に遭遇)。確実なのはHugging Faceから直接GGUFを取得すること。

⚠️ Intel ArcはResizable BAR必須

マザーボード側でResizable BAR(Smart Access Memory)が無効だとArc系は本来の性能が出ない。古いPCに増設する場合はBIOS対応を先に確認。

⚠️ ROCmは対応GPUが限られる

AMDの公式GPGPU基盤ROCmはLinux中心で対象GPUリストも限定的。安い中古Radeonで確実に動かすならVulkanバックエンドを第一候補にするのが無難。

⚠️ 電源・物理サイズ・中古リスク

Arc B570は150W級 — 古いスリムPCでは電源容量と補助電源コネクタを要確認。中古はファン劣化・保証なしのリスク込みで価格を判断する。

この記事で挙げた構成パーツを探す

予算別表の各カードと、CPU推論派向けのRAM増設・電源まわり。中古相場は変動が大きいので、楽天・Amazonの現在価格を見比べてから判断してください。

🟦VRAM単価◎

Intel Arc B580(12GB)

5万円前後で12GB VRAM。Q4量子化の14B級LLMまで視野に入る、CUDAなし陣営の本命カード。

🟦新品3万円台

Intel Arc B570(10GB)

10GB VRAMで13B級まで。新品保証つきでこの価格帯は中古リスクを取りたくない人の最適解。

🟥中古定番

Radeon RX 6600(8GB)

中古2万円台の定番。Vulkanバックエンドで7〜8B級Q4が快適に動く入門カード。

🟩CUDA側対抗

GeForce RTX 3060(12GB)

参考: CUDA側の対抗馬。中古12GB品はソフト互換性で最も楽をしたい人に依然有力。

🧠

DDR5メモリ 32GB×2

CPU推論派の最強アップグレードはGPUよりRAM増設。64GBあればMoE系の大型モデルもCPUで動く。

🔋

650W電源ユニット(80PLUS)

Arc B570/B580は150W級+補助電源が必要。古いPCへのGPU増設は電源容量の確認とセットで。

※ 上記リンクはアフィリエイトリンクです。購入により当サイトに収益が発生する場合があります。

補足: カメラ系(視覚AI)なら、そもそも安GPUすら要らないことが多い

LLMと違い、物体検出・姿勢推定などの視覚AIは軽量モデルが充実しており、 CPUや内蔵GPU、数千円〜のNPU(Raspberry Pi + AI HAT等)で実用速度が出ます。 当サイトのブラウザデモ群(物体検出・転倒検知・姿勢推定など)はその実証です。 「LLMは安GPU、視覚はNPUかCPU」という住み分けが、低予算エッジAIの現実解です。

よくある質問

Q. VRAMは何GBあれば足りますか?

動かしたいモデルで決まります。Q4量子化の目安で、7〜8B級なら8GB、13〜14B級なら10〜12GBです。VRAMからあふれた分はCPU側と分担できますが速度が大きく落ちるため、「使いたいモデルがVRAMに丸ごと載る」ことを基準にカードを選ぶのが失敗しないコツです。

Q. 内蔵GPUとCPU実行はどちらが速いのですか?

モデルとメモリ帯域次第で、内蔵GPUが常に速いとは限りません。本記事の実測では同一モデル(LFM2.5 8B)でCPU実行とIntel内蔵GPU(Vulkan)を比較しています。LLM推論はメモリ帯域がボトルネックになりやすく、内蔵GPUはCPUと同じメインメモリを使うため、劇的な差は出にくいのが実情です。まず0円で試して、足りなければdGPUに進むのが合理的です。

Q. 中古のRTX 3060(CUDA)と安い非NVIDIA、結局どちらが良いですか?

ソフトの互換性で最も楽をしたいなら中古RTX 3060 12GBは依然有力です(CUDA対応ツールがそのまま動く)。一方、新品保証・VRAM単価・AV1エンコードなどではArc B580が優位です。本サイトの立場は「どちらでも動く時代になった。手に入る安い方で始めて良い」です。

Q. ゲーム用に組んだRadeon搭載PCをそのまま使えますか?

使えます。llama.cppのVulkan版またはLM Studio(Vulkan対応のGUIアプリ)を入れるだけで、追加投資ゼロでローカルLLM環境になります。RX 6600以上なら7〜8B級Q4が実用速度で動く構成が多いはずです。

予算0円の「いま」から始める

GPUを買う前に、まずブラウザデモとお手元の内蔵GPUで「動く」を確認。 足りない分だけ、VRAM基準で買い足すのが最小コストの道です。

🎮 まずブラウザデモで体験する