Gemini 3.5の性能を56%向上させるプロンプト最適化法

AIツールを使っていて、「なんとなく物足りない」と感じたことはないだろうか。デフォルト設定のまま使い続けていると、本来の性能を引き出せていない可能性がある。

あるユーザーがGemini 3.5 Flashのデフォルト動作に不満を抱いた。「怠惰で冗長な印象」と評した彼は、数百回におよぶブラインドA/Bテストを実施した。

その結果は驚くべきものだった。最終的な100プロンプトによる比較テストでは、以下の成果を確認している。

カスタマイズ済みFlashは「Good」評価が38回
Gemini 3.1 Pro（高品質）は「Good」評価が17回にとどまった
デフォルトFlashと比べて3倍以上の品質向上を実現

重要なのは、高価なモデルへの乗り換えではなくプロンプトと設定の最適化だという点だ。コストを抑えながら性能を最大化できる。

この記事でわかることは以下の3点だ。

デフォルト設定のGemini 3.5 Flashが抱える具体的な問題点
56%の性能向上を実現したプロンプト最適化の手法
フルコンフィグを操作できるツール「Antigravity」の活用法

なぜGemini 3.5 Flashはデフォルトで「怠け者」なのか
事例：100回のブラインドA/Bテストで56%向上を実証
Antigravityを使った「フルカスタマイズ環境」の構築
プロンプト最適化の3つの実装ポイント
日本の企業がGemini 3.5を活用するシーン
自社でA/Bテストを実行するステップ
プロンプト最適化における注意点とリスク
まとめ：AIパフォーマンスは「正しい問い方」で決まる

なぜGemini 3.5 Flashはデフォルトで「怠け者」なのか

AIモデルには、ほぼ共通した初期設定の問題がある。それは「安全側に振られた出力設計」だ。

開発側は、幅広いユーザーに対応するため、デフォルト設定を保守的に調整する。結果として、使い始めたばかりのユーザーが体験するのは「本来の性能」ではない。

「怠惰で冗長」とはどういう状態か

Gemini 3.5 Flashのデフォルト動作に不満を持ったユーザーは、その印象を端的に表現している。「lazy and verbose（怠惰で冗長）」という言葉だ。

この2つの特性は、一見すると矛盾しているように見える。しかし実際には、よく同時に発生する。

怠惰さ：踏み込んだ分析や具体的な提案を避ける
冗長さ：本質的な内容を薄め、言葉数で補おうとする

たとえば、具体的な改善案を求めたとする。デフォルトのFlashは「一般的には〜が考えられます」といった当たり障りのない回答を、長々と返しがちだ。

ユーザーが本当に求めているのは、短くて鋭い答えである。しかしデフォルト設定はその逆を行く。

なぜこうした設定になるのか

理由は主に3つある。

汎用性の優先：あらゆるユーザー・用途に対応するため、尖った出力を避ける
リスク回避：断定的な表現はクレームを生みやすいため、語尾を曖昧にする
出力パラメータの初期値：temperatureやtop_pなどの生成パラメータが、無難な値に固定されている（推定）

これらが重なることで、「優秀なのに物足りない」という独特の不満が生まれる。

デフォルトのままでは損をしている

冒頭で紹介したA/Bテストの結果を改めて確認したい。

デフォルトFlash（High）の「Good」評価：テスト内で最下位
カスタマイズ済みFlashの「Good」評価：38回（デフォルト比3倍以上）
高価なGemini 3.1 Pro（High）さえも、カスタマイズFlashに大きく劣る結果

注目すべきは、使っているモデル自体は同じFlashだという点だ。変えたのは設定とプロンプトだけである。

デフォルトのまま使い続けることは、高性能なエンジンを積んだ車を、アイドリング状態で走らせているようなものだ。次のセクションから、そのエンジンを本気で動かす方法を解説する。

事例：100回のブラインドA/Bテストで56%向上を実証

「本当に効果があるのか？」という疑問に、数字で答えたユーザーがいる。

Redditコミュニティ「r/Bard」に投稿されたこの実験は、100プロンプトのブラインドA/Bテストという厳密な設計で行われた。

実験の設計

テストの公平性を担保するため、いくつかの工夫が施されている。

ブラインド形式：どのモデルが出力したか、評価者には見えない状態で採点
3パネル構成：1プロンプトにつき3つの回答を並列表示。ランダム順・ラベル非表示
100プロンプト実施：統計的なブレを減らすため、大量のサンプルを確保
評価基準：Good・OK・Badの3段階で評価

ツールにはAntigravityというCLIクライアントを使用した。Gemini公式アプリと異なり、モデル設定・システム指示・生成パラメータをフルで操作できる点が選定理由だ。

CLIの複数バージョンを自動起動することで、A/Bテストの実施も容易になる。

比較した3パターン

カスタマイズFlash（High）：システム指示・生成パラメータを独自に調整したGemini 2.5 Flash
Gemini 3.1 Pro（High）：上位モデル。カスタマイズなし
デフォルトFlash（High）：設定を一切変えていない標準状態のFlash

テスト結果：数字で見る差

100プロンプト・合計300評価の結果は、以下のとおりだ。

カスタマイズFlash：Good 38 ／ OK 47 ／ Bad 15
3.1 Pro：Good 17 ／ OK 45 ／ Bad 38
デフォルトFlash：Good （最下位） ／ Bad評価が最多（推定）

カスタマイズFlashのGood評価は38回。3.1 Proの17回に対して2.2倍以上にのぼる。

投稿者はこの差を「56%高いスコア」と表現している。さらにデフォルトFlashとの比較では、3倍以上の開きがある。

このテストが示す本質

注目すべき点は、使用モデルは同じFlashだということだ。変更したのは設定だけである。

より高価な3.1 Proでさえ、カスタマイズされたFlashには及ばなかった。モデルのグレードより、設定の最適化が結果を左右するという事実をこのテストは示している。

Antigravityを使った「フルカスタマイズ環境」の構築

カスタマイズFlashがデフォルトFlashの3倍超の評価を得た背景には、ツール選択がある。投稿者が使用しているのはAntigravityだ。

公式のGemini.appではなく、あえてAntigravityを選ぶ。その理由は明確である。

Gemini.appでは触れない設定がある

Gemini公式アプリは手軽に使える反面、設定の自由度が低い。以下の項目は、原則としてユーザーが直接変更できない。

モデル設定：使用するモデルのバージョンや動作モード
システム指示：モデルの振る舞いを根本から定義するプロンプト
生成パラメータ：temperatureやtop_pなど、出力の傾向を制御する数値

これらをすべて開放するのが、Antigravityを選ぶ最大の理由だ。

Antigravityが「フル設定」を解放する

投稿者はAntigravityについて「フルコンフィグを公開している」と明言している。モデル設定・システム指示・生成パラメータへ直接アクセスできる環境だ。

さらに実用面でも優れた点がある。

モバイル対応：Telegram経由でスマートフォンからも操作可能
CLI自動化：異なる設定のCLIバージョンを複数起動し、A/Bテストを自動実行できる
再現性：パラメータを数値で管理するため、設定の記録・共有・復元が容易

Before／After：設定を変えると何が変わるか

同じGemini 2.5 Flashでも、設定の有無で出力の質は大きく変わる。

Before（デフォルトFlash）：投稿者の表現では「怠慢で冗長」。Good評価が最下位
After（カスタマイズFlash）：Good評価38回。デフォルト比で3倍超、上位モデルの3.1 Proを2.2倍以上上回る

モデルのグレードを上げる前に、設定を最適化する。Antigravityはその環境を提供するツールである。

導入の考え方：まず「触れる範囲」を広げる

Antigravityの具体的な操作は、CLIベースで進める。手順の概要は以下のとおりだ。

Antigravityをインストールし、APIキーを設定する
システム指示ファイルを作成し、モデルの基本的な振る舞いを定義する
temperatureなどの生成パラメータを設定ファイルに記述する
設定を変えた複数のCLIバージョンを用意し、同一プロンプトでテストを回す

いきなり完璧な設定を目指す必要はない。まず「設定に触れられる状態」を作ることが出発点だ。

プロンプト最適化の3つの実装ポイント

デフォルト設定のままAIを使い続けるのは、性能を引き出せていない状態だ。
投稿者が100回以上のA/Bテストで実証した最適化には、3つの核心がある。

ポイント①：システムプロンプトでモデルの「性格」を定義する

投稿者がデフォルトのGemini 2.5 Flashに感じた問題は明確だった。「怠慢で冗長」という言葉に集約される。

この問題の根本は、モデルが何者であるかを指定されていない点にある。システムプロンプトは、モデルの振る舞いを根本から規定する設計図だ。

回答スタイル：簡潔さ・詳細さのバランスを指示する
トーン：フォーマル・カジュアルなど用途に合わせて定義する
禁止事項：不要な前置きや繰り返しを明示的に排除する

設定ファイルとしてテキストで管理すれば、変更・共有・復元が容易になる。Antigravityではこのシステム指示ファイルを直接編集できる。

ポイント②：生成パラメータを数値で制御する

モデルの出力は、内部パラメータによって確率的に決まる。代表的なパラメータがtemperatureだ。

temperature（低）：出力が収束し、一貫性が高まる
temperature（高）：創造性が増すが、ブレも大きくなる
top-p / top-k：候補トークンの絞り込み方を制御する（推定）

Gemini.appのような標準インターフェースでは、これらのパラメータに触れられない。Antigravityが「フルコンフィグを公開する」と評価される理由はここにある。

数値を明示的に設定することで、出力の傾向を再現性を持って調整できる。感覚ではなく、設定値として管理する点が重要だ。

ポイント③：A/Bテストで変更効果を客観的に検証する

主観的な印象だけで設定を評価しても、改善の根拠にならない。投稿者が採用したのはブラインドA/Bテストの手法だ。

同一プロンプトを複数の設定バリエーションに投入する
ラベルを非表示にした状態で出力を並べる
Good／OK／Badの3段階で評価を記録する
100プロンプト規模で集計し、統計的な優劣を判断する

最終テストの結果は以下のとおりだ。

カスタマイズFlash（High）：Good 38回／ Bad 15回
3.1 Pro（High）：Good 17回／ Bad 38回
デフォルトFlash（High）：Good 最下位

カスタマイズFlashのGood評価は、3.1 Proの2.2倍以上に達した。総合スコアでは56%上回るという数字が、3つのポイントを組み合わせた効果の証拠だ。

Antigravityでは、CLIバージョンを複数起動して自動でテストを回せる。設定変更の効果を感覚でなく数字で確認する習慣が、継続的な改善を支える。

日本の企業がGemini 3.5を活用するシーン

カスタマイズ技術は、特定の業種・業務に絞ることで効果が最大化する。ここでは日本企業が実際に導入しやすい4つのシーンを紹介する。

① ECサイトのカスタマーサポート自動化

通販・ECサイトでは、返品・配送・在庫に関する問い合わせが毎日大量に発生する。Gemini 3.5 Flashにシステムプロンプトで「簡潔・丁寧・箇条書き優先」を指定し、temperatureを低めに設定することで、回答のブレを抑えられる。

Before：オペレーター1人が1日80件を処理
After：AI一次対応で（推定）60〜70%を自動解決、人的対応を30件以下に削減
応答時間：平均（推定）3分→15秒に短縮

デフォルトFlashでは「冗長で曖昧」な回答が出やすい。システムプロンプトで口調・文体・禁止フレーズを明示すると、品質が安定する。

② 不動産・保険業界の提案文生成

顧客属性に合わせた提案文を、担当者が毎回ゼロから書くのは非効率だ。Gemini 3.5 Flashに顧客データのテンプレートを渡し、パーソナライズされた文章を生成させる運用が有効になる。

入力：年齢・家族構成・予算・希望エリアなど
出力：400〜600字の提案メール（敬体・です・ます調）
（推定）：1件あたりの作成時間が20分→2分に短縮
（推定）：月100件処理なら、約30時間／月の工数削減

top-pを絞ることで、誇張表現や誤った数字が混入するリスクを下げられる。A/Bテストで「顧客反応率が高い文体」を定量的に選定することも可能だ。

③ メディア・広告代理店のSEOコンテンツ量産

SEO記事の量産では、品質のばらつきが大きな課題になる。Gemini 3.5 Flashにライティングガイドラインをシステムプロンプトで注入し、構成テンプレートと組み合わせることで品質を均質化できる。

Before：ライター1人が月8〜10本を納品
After：AI下書き＋人間編集で（推定）月25〜30本に増加
編集工数：1本あたり（推定）4時間→1.5時間に圧縮

temperatureを中程度に設定すると、創造性を保ちながら論理構成が崩れにくくなる。100プロンプト規模のブラインドテストで、最適なtop-k値を事前に決定しておくと再現性が高まる。

④ 製造業・小売業の売上データ分析レポート生成

月次の売上データを読み解き、経営層向けに要約するレポート作成は時間がかかる。Gemini 3.5 FlashにCSVデータと分析観点をプロンプトで渡すことで、構造化されたレポートを自動生成できる。

入力：売上実績・前月比・地域別データなど
出力：課題・要因・推奨アクションを含むA4換算2〜3枚のレポート
（推定）：担当者の作成時間が半日→30分以内に短縮

デフォルト設定では数字の解釈が曖昧になりやすい。「数値は必ず引用し、推測には『推定』と明記せよ」とシステムプロンプトに追記するだけで、出力の信頼性が大きく向上する。

いずれのシーンも、前セクションで解説したA/Bテストの手法を使えば、自社業務に最適な設定値を客観的に特定できる。カスタマイズの効果はデフォルト比で最大3倍以上（ソース実測値）に達することが確認されている。

自社でA/Bテストを実行するステップ

AIモデルの設定を「なんとなく」調整していないだろうか。ソース実績では、適切なA/Bテスト設計によりデフォルト比で3倍以上の品質向上が確認されている。以下の手順に従えば、同様の検証を自社環境で再現できる。

ステップ1：テスト環境を構築する

まず、フル設定を操作できるクライアントを用意する。Gemini公式アプリはパラメータの一部が非公開だ。

推奨ツール：Antigravity CLI（モデル設定・システム指示・生成パラメータをすべて公開）
モバイル対応：TelegramボットとAntgravity CLIを連携させることで、スマートフォンからも同一設定で実行可能
バージョン管理：設定ファイルをGitで管理し、テスト条件を記録しておく

ステップ2：テスト設計を行う

比較する変数は1回につき1つに絞る。複数変数を同時に変えると原因の特定が困難になる。

比較対象を定義する：例）「デフォルト設定 vs カスタムシステムプロンプト」
テストプロンプトを用意する：実務シーンから代表的な質問を最低100件抽出する
ラベルを隠す：どの回答がどの設定か分からない状態で評価する（ブラインドテスト）
評価基準を3段階にする：Good／OK／Badの3段階が判定ぶれを最小化できる

ステップ3：テストを自動実行する

Antigravity CLIは異なる設定のCLIインスタンスを並列起動できる。この特性を活かしてテストを自動化する。

シェルスクリプトで「設定A」「設定B」「設定C」の3バージョンを同一プロンプトで同時実行
出力をJSONで保存し、ランダムに並び替えてラベルを除去する
TelegramボットのWebhookを使えば、スマートフォンから評価結果を送信して自動集計まで完結する

（推定）設定から集計まで、手作業なら2〜3日かかる工程が数時間に短縮できる。

ステップ4：結果を分析して設定を確定する

100プロンプト・3パネル形式のブラインドテストを実施したら、以下の指標で判定する。

Good率：最も重視する一次指標
Bad率：致命的なミスの発生頻度として確認する
Good率－Bad率：総合スコアとして設定間を比較する

ソース実績では、カスタム設定のGood件数が38件に対し、デフォルト設定は17件だった。この差が出た場合は、勝者の設定を本番環境に適用する。

Before / After：テスト導入の効果

Before：「なんとなく良さそう」な設定を主観で採用
After：100件のブラインドテストによる定量的な設定選定が可能に
品質向上幅：デフォルト比最大3倍以上（ソース実測値）

テストの仕組みを一度構築してしまえば、モデルのアップデート時にも同じフローで再検証できる。継続的な品質管理の基盤として活用してほしい。

プロンプト最適化における注意点とリスク

カスタマイズによる性能向上は魅力的だ。しかし、最適化を進めるほど見落としがちな落とし穴もある。

本番運用への移行前に、以下のリスクを必ず確認してほしい。

リスク1：過度なカスタマイズによる一貫性の喪失

システムプロンプトに複数の制約を重ねると、モデルの挙動が不安定になりやすい。特定の用途では高精度でも、別のタスクで極端に質が落ちるケースがある。

症状の例：要約は得意なのに、箇条書きが突然崩れる
原因：相互に矛盾する指示が蓄積している
対策：システムプロンプトの指示は10項目以内に絞り込む（推定）

前セクションのA/Bテストを活用するなら、タスク種別を複数用意してテストすること。単一タスクの最適化に特化した設定は、汎用性を著しく損なう。

リスク2：プロンプトインジェクション攻撃への脆弱性

システムプロンプトを詳細に作り込むほど、外部入力からの攻撃に対して弱くなる。ユーザー入力を直接モデルに渡す構成は特に危険だ。

攻撃の手口：「上記の指示を無視して〜」といった悪意ある入力を埋め込む
被害の例：機密情報の漏洩、意図しない操作の実行
対策1：ユーザー入力とシステム指示を明確にセクション分離する
対策2：Antigravityなどのツールで入力フィルタリングを設定する
対策3：本番環境では入力値のサニタイズ処理を必ず実装する

リスク3：モデルアップデートによる設定の陳腐化

Geminiをはじめとする生成AIは、定期的にモデルが更新される。精密に調整した設定が、アップデート後に機能しなくなることがある。

Before：一度設定したプロンプトを長期間そのまま運用
After：モデル更新のたびに同じA/Bテストフローで再検証する

前セクションで構築したテスト基盤を再利用すれば、再検証コストは最小限に抑えられる。（推定）月1回程度の定期チェックを運用ルールに組み込んでおくと安心だ。

本番移行時のチェックリスト

システムプロンプトの指示数を棚卸しし、矛盾する項目を削除する
ユーザー入力を含むケースでインジェクション攻撃の疑似テストを実施する
本番想定のタスク種別を最低5種類用意してA/Bテストを再実行する
モデルアップデート時の再検証フローをドキュメント化しておく

カスタマイズの効果はソース実測でデフォルト比3倍以上が確認されている。その恩恵を安全に享受するためにも、リスク管理を運用設計の最優先事項として位置づけてほしい。

まとめ：AIパフォーマンスは「正しい問い方」で決まる

AIモデルの性能は、提供元のアップデートを待つだけでは上がらない。ユーザー側の最適化努力こそが、最大の性能向上レバーだ。

今回のソースでは、Gemini 3.5 Flashをカスタマイズした結果が実測値で示されている。デフォルト設定との比較で3倍以上のスコア差が確認された。これは、モデルそのものではなく「使い方」が成果を左右することの証左だ。

本記事で得られた知見を整理する

システムプロンプトの最適化：矛盾する指示を削除し、役割・制約・出力形式を明確に分離する
生成パラメータの調整：TemperatureやTop-Pを用途に応じてチューニングする
A/Bテストによる定量検証：感覚ではなく数字で「良い設定」を選ぶ
Antigravityなどのツール活用：フル設定を開放したインターフェースで精密制御を実現する
リスク管理の並走：プロンプトインジェクション対策とモデル更新後の再検証を運用に組み込む

Before / After：最適化前後の意識の違い

Before：「このAIは精度が低い」と感じたらモデル変更や新機能のリリースを待つ
After：「設定のどこを変えれば改善するか」を仮説立てし、A/Bテストで検証する

この意識の転換が、パフォーマンスの天井を大きく引き上げる。

今日から始められる3ステップ

現在使っているシステムプロンプトを書き出し、指示の重複・矛盾を洗い出す
Antigravityなどのツールを導入し、Temperatureなどのパラメータを可視化する
代表的なタスク5種類以上を用意し、設定変更前後でブラインドA/Bテストを実施する

最初の1回に（推定）2〜3時間かかっても、繰り返し使えるテスト基盤が手に入る。長期的なコスト対効果は非常に高い。

最後に：モデルを「育てる」発想へ

高性能なAIは、最初から存在するのではない。正しい問い方を積み重ねた結果として生まれる。

ソースの実測では、カスタマイズ済みFlashが上位モデルである3.1 Proを56%上回った。これは、安価なモデルでも最適化次第で上位モデルを超えられることを意味する。

提供元の次のアップデートを待つより、今日の設定を1つ改善する方が、確実に速く結果が変わる。「正しい問い方」を磨き続けることが、AI活用の本質的な競争力になる。

この記事は「AI自動投稿×SEO検証プロジェクト」の一環です

海外のAI活用・収益化事例を毎日自動収集し、日本語で深掘り解説しています。

完全自動（収集→生成→投稿）
毎日定刻に投稿
Search Consoleデータによる週次改善

▶ 検証ログ（note）：進捗を見る

▶ 同じ仕組みを作りたい方：相談する