Ryzen AI Max+ 395でGemma4:12bを動かす

AMD Ryzen AI Max+ 395搭載のGMKtek EVO-X2でgemma4:12bをollamaで動かします。OSはUbuntuです。

Ollama実行結果

Ollamaを使うので現状ではMTPは非対応です。

まずは gemma4:12b-it-q4_K_M で実行。

$ ollama –version
ollama version is 0.30.5

$ ollama run gemma4:12b –think=false –verbose “分子動力学法について500文字程度で説明して。”

中略

total duration: 11.38806492s
load duration: 395.220708ms
prompt eval count: 27 token(s)
prompt eval duration: 96.376ms
prompt eval rate: 280.15 tokens/s
eval count: 263 token(s)
eval duration: 10.863793s
eval rate: 24.21 tokens/s

次は gemma4:12b-it-q8_0 で実行。

$ ollama run gemma4:12b-it-q8_0 –think=false –verbose “分子動力学法について500文字程度で説明して。”

中略

total duration: 20.341985473s
load duration: 389.984489ms
prompt eval count: 27 token(s)
prompt eval duration: 128.937999ms
prompt eval rate: 209.40 tokens/s
eval count: 309 token(s)
eval duration: 19.791967s
eval rate: 15.61 tokens/s

生成速度

出力の速度は次のようになりました。

モデル	生成速度
gemma4:12b (gemma4:12b-it-q4_K_M)	24.21 tokens/s
gemma4:12b-it-q8_0	15.61 tokens/s

なお参考までに、31Bは 10.19 tokens/s、26Bは 54.67 tokens/s、26Bのq8_0は41.05 tokens/sでした。アクティブなパラメータ数にほぼ反比例という感じでした。

VRAM使用量

コンテキストウィンドウを最大にしてq4_K_Mは8.8GBのVRAMを使用しました。
q8_0は13GBでした。

$ ollama ps
NAME          ID              SIZE      PROCESSOR    CONTEXT    UNTIL
gemma4:12b    4eb23ef187e2    8.8 GB    100% GPU     262144     4 minutes from now

$ ollama ps
NAME                  ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gemma4:12b-it-q8_0    41c402fdddc2    13 GB    100% GPU     262144     2 minutes from now

q4_K_Mとq8_0はどちらもコンテキストウィンドウを最大にしても16GB以内に収まるサイズでした。