二週間に渡る休業を得て明日から営業を再開します。
横浜大さん橋で開催されたメイド中心の同人誌即売会。
天気も良かったのと久々に馬車道で下車したのでかなり前の職場の近くを散策していった。
もう、20年ぐらい前になるけどそんなに変わらないね。
そして、昼食は湊庵のそばですな。
富士山盛りじゃなかったけど…
そのまま赤レンガ倉庫でビールで喉を潤し、大さん橋へ。
天気も良かったので大さん橋からみなとみらい方面の写真を多く撮って

2日続けて即売会へ足を運んだ。
技術書同人誌博覧会は蒲田で開催されていたので多摩川サイクリングがてら、見に行った。
技術書即売会で一般として参加するのは久々じゃないかな…
ゆったりできて良さそうな空き具合いというよりもすごく閑散としてて残念な感じだった。
休業の後半は基板設計オーケストレーションを試していた。
次のことを一気に動かしてみた。
エージェント数は20個ぐらい。
まぁ、いい感じに生成してくれるんだけど、時間制約に引っかかってしまうなぁ。
問題はそこだけ…
生成AIの使用率というのをエンジニアに限って調べてみた。
単純に使っている・使っていないという割合いでは90%は使っているという割合いになるらしい。
この使っているというのは完全委任型からチャットでちょっと聞いているとか全部を含めての話だ。
使っている人を活用スタイルで割合いを調査すると次のようになった。
| 活用スタイル | 割合(%) | 概要 |
|---|---|---|
| 自立・完全委任型 | 5% | 要件定義からでプリマでAIに全工程を任せる |
| コーディング「生成」型 | 30% | 指示から関数・クラス・テストコードを丸ごと出力・反映させる |
| コーディング「補助」型 | 25% | 人間が書くコードの続きを予測補完させる |
| ドキュメント・修正特化型 | 15% | 仕様書作成、コードの解説、リファクタリング、コメント付与に限定 |
| チャット・相談主軸型 | 15% | ブラウザ等のチャット画面での技術的な壁打ち、エラー解決、リサーチなど |
| 非利用 | 10% | ポリシーによる制限、または従来手法を継続する層 |
表の上になるほどAIへの委任率が高い書き方になっている。
自立・完全委任型の割合いはもっと多いのだろうと思ってたのでどおりで周辺であまり活用されてないんだと感じてしまったわけだ。
5/10まで約2週間の休業タイムを取っている。
休業中に次の仕込みでも行ってようと思う。
簡単に盆栽の構築方法を示す。
使用環境はRTX3080(10GB)を実装した環境である。
sudo apt update
sudo apt install -y git cmake build-essential libopenblas-dev pkg-config
git clone https://github.com/PrismML-Eng/llama.cpp && cd llama.cpp
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS
cmake --build build --config Release -j$(nproc)
mkdir models
curl -L -o models/Bonsai-8B.gguf https://huggingface.co/prism-ml/Bonsai-8B-gguf/resolve/main/Bonsai-8B.gguf
./build/bin/llama-cli \
-m models/Bonsai-8B.gguf \
-p "FPGAで1-bit LLMを加速するメリットを説明してください。" \
-n 512 \
-c 32768 \
--temp 0.5
ここまで綺麗に出力されていれば問題ないだろう。
$ ./build/bin/llama-cli \
-m models/Bonsai-8B.gguf \
-p "FPGAで1-bit LLMを加速するメリットを説明してください。" \
-n 512 \
-c 32768 \
--temp 0.5
Loading model...
▄▄ ▄▄
██ ██
██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄
██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██
██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀
██ ██
▀▀ ▀▀
build : b8846-d104cf1b6
model : Bonsai-8B.gguf
modalities : text
available commands:
/exit or Ctrl+C stop or exit
/regen regenerate the last response
/clear clear the chat history
/read <file> add a text file
/glob <pattern> add text files using globbing pattern
> FPGAで1-bit LLMを加速するメリットを説明してください。
FPGA(フィニッシュ・パッージ・アシスタント)で1-bit LLM(低精度LLM)を加速するメリットは、**エネルギー効率**、**遅延**、**リソース使用量の低減**、および**低遅延の応答**など、いくつかの重要な点があります。以下に詳細を説明します:
---
## ✅ **1-bit LLMのメリット**
### 1. **極めて低い計算負荷**
- **1-bit**のLLMは、**2値**(0または1)を使用します。
- これは、**浮動小数点**(FP)の数値を1ビットに圧縮するため、**計算量を極めて小さく**します。
- **FP**の数値は、1ビットでは**2^16 = 65536**の可能な値を用いる一方で、**1-bit**では**2値**しかありません。
### 2. **極めて低いメモリ使用量**
- 1-bit LLMは、**メモリ使用量を極めて低く**します。
- FPモデルは、**FP32**や**FP16**で数GBのメモリを必要とします。
- **1-bit**は、**数MB**程度です。
### 3. **極めて低のエネルギー消費**
- **1-bit**のモデルは、**非常に低のエネルギー消費**があります。
- 比較して、FP16は100~200倍のエネルギーを必要とします。
- **FPGA**は**低遅延**と**低エネルギー**の設計に最適化されています。
---
## ✅ **FPGAで1-bit LLMを加速するメリット**
### 1. **低遅延実行**
- FPGAは**ハードウェアレベル**で処理を行います。
- **低レイテンシー**が必要な応答が必要な場合(例:リアルタイムアプリケーション、低レイテンシーのAIサービス)。
- **1-bit LLM**は、**非常に低遅延**であるため、FPGAは理想的です。
### 2. **低メモリ使用量と低エネルギー消費**
- FPGAは**メモリとエネルギー**の
[ Prompt: 37.1 t/s | Generation: 15.8 t/s ]
KV260に盆栽を実装してたんだけど、いい線までは行くけど、完全に実装することはできなかった。
ワンセッションで実装できるかチャレンジしてたんだけど、S/WとH/Wが組み合わさるとワンセッションでチューニングは難しいみたいだな。
最近、よく聞く質問なのですが私としてはclaude優勢だね。
codexが追いついてきたらclaudeが離すといった感じかな。
それよりも、コーディングはclaudeやcodexよりも中国勢のほうが優勢のような気がする。
自分用の開発環境を整え始めた。
https://github.com/aquaxis/hestia
先週からKV260に1bitのBonsaiをAIで実装している。
いい感じの所まで来ているんだけど、チューニングがいまいちである。
次週、結果発表かな。