AMD Ryzen AI Max+ 395搭載のGMKtek EVO-X2でgemma4:12bをollamaで動かします。OSはUbuntuです。
Ollama実行結果
Ollamaを使うので現状ではMTPは非対応です。
まずは gemma4:12b-it-q4_K_M で実行。
$ ollama –version
ollama version is 0.30.5
$ ollama run gemma4:12b –think=false –verbose “分子動力学法について500文字程度で説明して。”
中略
total duration: 11.38806492s
load duration: 395.220708ms
prompt eval count: 27 token(s)
prompt eval duration: 96.376ms
prompt eval rate: 280.15 tokens/s
eval count: 263 token(s)
eval duration: 10.863793s
eval rate: 24.21 tokens/s
次は gemma4:12b-it-q8_0 で実行。
$ ollama run gemma4:12b-it-q8_0 –think=false –verbose “分子動力学法について500文字程度で説明して。”
中略
total duration: 20.341985473s
load duration: 389.984489ms
prompt eval count: 27 token(s)
prompt eval duration: 128.937999ms
prompt eval rate: 209.40 tokens/s
eval count: 309 token(s)
eval duration: 19.791967s
eval rate: 15.61 tokens/s
生成速度
出力の速度は次のようになりました。
| モデル | 生成速度 |
|---|---|
| gemma4:12b (gemma4:12b-it-q4_K_M) | 24.21 tokens/s |
| gemma4:12b-it-q8_0 | 15.61 tokens/s |
なお参考までに、31Bは 10.19 tokens/s、26Bは 54.67 tokens/s、26Bのq8_0は41.05 tokens/sでした。アクティブなパラメータ数にほぼ反比例という感じでした。
VRAM使用量
コンテキストウィンドウを最大にしてq4_K_Mは8.8GBのVRAMを使用しました。
q8_0は13GBでした。
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:12b 4eb23ef187e2 8.8 GB 100% GPU 262144 4 minutes from now
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:12b-it-q8_0 41c402fdddc2 13 GB 100% GPU 262144 2 minutes from now
q4_K_Mとq8_0はどちらもコンテキストウィンドウを最大にしても16GB以内に収まるサイズでした。
コメント