開発マシンの話:ノートPCの“限界”を、約30倍で踏み越える ——Local AI Factory という選択
AI 開発を本気でやると、最初に詰まるのは「頭脳」ではなく「機械」だ。
ローカルで大きめの LLM を動かそうとした瞬間、普通のノートPCもデスクトップも壁にぶつかる——VRAM が足りず、そもそも起動すらしない。
そこで組んだのが、専用の Local AI Factory 。
結論から言おう。指標により 12〜32倍、幾何平均で 約21倍。さらに「できない → できる」という、0 から 1 の差まで生まれる。何よりも同時に動かせるエージェントの数が爆上がりする。
ローカルLLMを動かさない場合、性能差は100倍を超える。この性能差はつまり、他の人より100倍効率化できるということ。むちゃくちゃ大変だけど。😂
ハードウェア構成
| 部位 | 構成 | 役割 |
|---|---|---|
| CPU | Threadripper PRO 9995WX(96C / 192T、128 PCIe 5.0 lanes) | 大規模並列・Agent 同時実行 |
| マザーボード | WRX90E-SAGE SE(PCIe 5.0 x16 ×7、M.2 ×4、SlimSAS、10GbE ×2) | 拡張と I/O の土台 |
| GPU | RTX PRO 6000 48GB ×2(計 96GB VRAM) | Private LLM 推論 / RAG 評価 / 反証評価 |
| メモリ | ECC 1024GB | 大容量 RAG / DB キャッシュ / Agent 同時実行 |
| ストレージ | 9100 PRO 2TB ×10(NVMe RAID0、20TB) | 理論最大 Read 18.5M / Write 26.0M IOPS |
| データ分離 | OS / DB-WAL / Vector Index / Scratch を物理分離 | I/O 競合を断つ |
「何倍か」を計算する
基準は「通常のノートPC(目安)」——8C / 16T、メモリ 16GB、VRAM 8GB ×1、NVMe はランダム Read 約 100 万 IOPS、容量 1TB。これと割り算する。
| 指標 | 通常ノートPC(目安) | 本機 | 倍率 |
|---|---|---|---|
| CPU スレッド | 16T | 192T | 12× |
| メモリ | 16GB | 1024GB | 64× |
| GPU VRAM | 8GB | 96GB | 12× |
| ストレージ Read IOPS | 約100万 | 1,850万 | 約18× |
| ストレージ Write IOPS | 約100万 | 2,600万 | 約26× |
| ストレージ容量 | 1TB | 20TB | 20× |
| 総合(幾何平均) | 1× | — | 約21× |
幾何平均(12・32・24・18・26・20 の6乗根)はおよそ 21倍。だが、本当に効くのは数字に表れない一行のほうだ。VRAM 8GB のノートでは 70B 級の LLM は起動すらしない。192GB なら、ローカルで動く。ここは「○倍」ではなく、0 か 1 かの差である。
なぜ、この構成なのか
- VRAM 96GB(48GB ×2):大規模 LLM をローカルで動かし、データを外に出さずに推論・RAG・反証評価まで回す。プライバシーと速度を同時に手にできる。
- ECC 1024GB:巨大な RAG インデックスや DB キャッシュをメモリに載せ、多数の Agent を同時に走らせても余裕がある。ECC により、長時間運転で起きがちな沈黙エラーも抑えられる。
- 96C / 192T:マルチエージェントの「群れ」、ビルド、評価を一斉に並列化する。1体ずつ順番待ちする世界から降りられる。
- NVMe RAID0 ×10:ログ追記・DB の WAL・ベクトルインデックス・スクラッチを物理的に分離し、I/O の競合を断つ。理論 1,850 万 / 2,600 万 IOPS を支える土台だ。
- 128 PCIe 5.0 レーン:2 枚の GPU、10 本の NVMe、10GbE ×2 を、帯域で奪い合わせない。これが「すべてを同時に全開」にできる理由だ。
Local AI Factory ——“私設 AI 工場”のスタック
ハードの上には、知識を外に出さない「私設 AI 工場」を載せている。役割は次のように分かれている。
- Codex:Agent 実行の指揮。
- Code:Agent 実行の反証。たまに入れ替える。
- Obsidian:マルチLLMの土台Vault。
- WSL2:開発の実行面。
- DB:ログと状態の管理。
- RAG:知識検索の基盤。
- LangChain:実行チェーンの組み立て。
- Private LLM:ローカル推論。
前回までの日記で書いた「群れ・ループ・ガードレール」は、この土台があって初めて全開になる。VRAM の壁で止まっていた発想が、ここでは当たり前に回り続ける。
まとめ
速さは「倍率」の話だ——指標により 12〜32倍、ならして約21倍。
だが本質は「壁の有無」にある。
ローカル大規模 AI は、VRAM の壁を越えられるかどうかで世界が変わる。
普通のノートPCが限界に達するその先で、本機はただ静かに、工場として動き続ける。
問題は、1台でゲレンデ、フェラーリ。高級車買えてしまう値段であること。😂
Join the Discussion
コメントするにはログインしてください。
外部アカウントで本人性を担保し、スパムを抑えてコメントできます。