VRAMとメインメモリを併用しながら動けるPCと違い、ユニファイドメモリ8GBのMacMiniでは8GB以下のなるべく小さいLLMを使用せざるを得ません。絶対に8GB以内である必要はないのですが、8GB以上のRAMの要求が出てくるとスワップによって尋常じゃない勢いで基盤直付けのSSDの寿命を削っていき、Macそのものの寿命を早めてしまいます。試しに1回動かしてみるくらいなら全然いいのですが、LLMのサーバーとして24時間動かしたいような場合はできるだけ小さいモデルを選び、SSDへの影響を最小限にすることが望ましいです。
そこで登場するのか Gemma4:e2b-it-qat です。
QATにより高精度を保ったままコンパクトなサイズに収めたモデルです。
先に結論を言うと、
n8nのようなワークフローツールでは使える、
OpenClawのようなエージェントとしてはかなり条件付きで辛うじて使える、です。
Ollamaのインストールとモデルのpull
Ollamaの最新版を入れていきます。インストール済みの場合も、最新版へのアップデートが推奨です。
curl -fsSL https://ollama.com/install.sh | sh
バージョンを確認します。
ollama --version
ollama version is 0.30.7
2026年6月10日時点では0.30.7がインストールされます。
では次にモデルをダウンロードします。
ollama pull gemma4:e2b-it-qat
モデルサイズは4.3GBです。
実行&速度計測
では早速実行してみます。
ollama run gemma4:e2b-it-qat --think=false --verbose "分子動力学法について500文字程度で説明して。"
中略
total duration: 16.528088125s
load duration: 398.511791ms
prompt eval count: 23 token(s)
prompt eval duration: 102.861ms
prompt eval rate: 223.60 tokens/s
eval count: 434 token(s)
eval duration: 16.022106s
eval rate: 27.09 tokens/s
500文字程度の文章を16秒で出力しました。速度は27.09 tokens/sでした。
Gemma4のシリーズの中で最もコンパクトなモデルですので、頭がいいとはいえないかもしれませんが、用途を限定すれば十分使えるモデルです。それが27.09 tokens/sで動くのは非常に嬉しいです。
さて、次は少し意地悪な問題を出してみましょう。
ollama run gemma4:e2b-it-qat --think=false "ルール
- 該当する記号だけを答えてください。
- 説明を書いてはいけません。
次の文章を読んでください。
操作ログ:
10:00 佐藤はファイルAを作成した。
10:05 鈴木はファイルBを削除した。
10:10 佐藤はファイルAの名前をファイルCに変更した。
10:15 田中はファイルCを閲覧した。
10:20 鈴木はファイルBを復元した。
質問:
10:15時点で存在していたと確実に言えるファイルをすべて答えてください。"
回答
A C
ファイルCしか存在しないので不正解です。これは思考モードオフで、1秒くらいで処理が終わりました。(何度かやっているとたまに正解します)
ちなみに、思考モードをオン(–think=true)にすると ファイルC のみを回答し正解しました。26秒もかかりましたが。
ollamaで動かした際のメモリ使用量を確認してみます。
ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:e2b-it-qat 07ea59a47401 3.5 GB 100% GPU 32768 2 minutes from now
4.3GBあったはずのモデルがメモリには3.5GBしか載っていないのは謎ですが、ともかく8GB環境でもまあまあ余裕をもって動くモデルであることは分かりました。
これ何に使える?
ローカルLLMとしては非常にコンパクトなモデルですが、8GB環境で余裕をもって動くGemma4:e2b-it-qatが何に使えるか考えてみます。
文章要約&メール要約
長い文章を読ませて必要な情報を抜き出す作業に使えます。
例えば私はn8nなどのワークフローに組み込むAIとしてこういったコンパクトなモデルを使っています。
Gmailの中からある検索条件に合致するメールをGemma4:e2b-it-qatに読ませて、必要な情報を抜き出してDiscordに知らせてもらう、みたいな感じです。
次のメールの内容を【出力形式】に合うように整形して。
【メール内容】
{{ $json.text }}
【出力形式】
銀行の口座からの引き落とし通知です。
引落日:
金額:
内容:
この【出力形式】に沿って出力された内容をそのままDiscordに送信させています。
このように、メール本文を読ませて必要な情報を抜き出すような(大して頭を使わなくてもできるような)用途には、コンパクトなLLMは最適です。ちゃんと動くようにプロンプトを調整する必要もあったりしますが、工夫すれば全然問題なく動きます。
このような使い方としては、他にも
- Webページの内容を要約させる。
- 計算結果のログファイルを読ませて異常を検出させる。
- 画像を分類する。
のようなタスクは任せられそうです。
エージェント用途は厳しい
OpenClawやHermes AgentのようなAIエージェント用に使うのはオススメできません。理由は、長いコンテキストに対する安定性がないからです。AIエージェントはツールの実行ルールが多数あり、ユーザとの対話の中で様々な指示や条件が与えられて動いていくものです。パラメータ数が少なく量子化によって精度が落とされているモデルでは、このルールや指示が多すぎるとそれらを忘れていってしまいます。エージェントとして仕事ができないという状態になります。
OpenClawでE2Bを使ってみた
agents.defaults.experimental.localModelLean という機能があります。
これによって使用できる機能に制限が増えますが、システムプロンプトを軽量化することができ、今回のようなモデルでは安定動作が期待できます。この設定を有効にしたエージェントにGemma4:e2b-it-qatを設定して使ってみました。
- できたこと
- あいさつ&自己紹介。
- 「次のURLをweb_fetchして要約して https://…」のようなシンプルで迷う余地がない指示。
- (画像を見せて)「この画像の内容を説明して」
- できなかったこと
- 「〇〇について調べて」
原因:調べるためのツールを正しく使えなかった。
- 「〇〇について調べて」
という結果でした。
この結果から、親エージェントは大きいモデルやクラウドのモデルを使い、小さいタスクを独立したセッションで簡潔な指示でE2Bエージェントにやらせるという分業スタイルなら役に立つ可能性があります。
例えば「100ページあるWebサイトの内容を分析する」といったタスクで、1ページずつの要約をE2Bにやらせて、親エージェントがE2Bからの報告を見て重要そうなページを選別する、という進め方をすると、親エージェントのLLMコストを下げることはできそうです。
まとめ
M1 8GBのMacのメモリにスッキリ収まるGemma4:e2b-it-qatは、用途を限定すればそこそこ使えます。処理速度は申し分ないですが、複雑で考える必要があるタスクは苦手で、シンプルな単一タスクを実行させることを心がける必要があります。OpenClawのようなエージェントとして使う場合は「できないこと」がかなり多くなることは覚悟が必要です。とはいえ、シンプルなタスクが大量にあるような場面では、工夫次第では強力な武器になります。

コメント