Google Gemini 3.1 Pro の第一印象: オンデマンドで推論を調整できる「Deep Think Mini」

1771544134
2026-02-19 22:26:00

過去 3 か月間、Google の Gemini 3 Pro は、入手可能な最も有能なフロンティアモデルの 1 つとして地位を確立してきました。しかし、急速に変化する AI の世界では、3 か月は一生に過ぎません。競合他社も立ち止まっていません。

本日初めに、Google がリリースしましたジェミニ 3.1 プロは、同社の主力パワーモデルに重要な革新をもたらすアップデートです。3 つのレベルの調整可能な思考により、効果的に Google の特殊な Deep Think 推論システムの軽量バージョンに変わります。

このリリースは、Google が Gemini モデルに対して「ポイント 1」アップデートを発行したのは初めてであり、同社のリリース戦略が定期的なフルバージョンの発売から、より頻繁な増分アップグレードへ移行することを示しています。モデルスタックを評価するエンタープライズ AI チームにとってさらに重要なことは、3.1 Pro の新しい 3 層思考システム (低、中、高) により、開発者と IT リーダーに、日常的なクエリに対する素早い応答から、複雑な問題に対する数分間の深い推論セッションまで、推論の労力を動的に拡張できる単一のモデルが提供されることです。

このモデルは現在、Gemini API 経由でプレビュー版として公開されています。 Google AIスタジオ、Gemini CLI、Google のエージェント開発プラットフォーム Antigravity、Vertex AI、Gemini Enterprise、Android Studio、コンシューマー向け Gemini アプリ、および NotebookLM。

「Deep Think Mini」効果: オンデマンドで推論を調整可能

Gemini 3.1 Pro の最も重要な機能は、単一のベンチマーク数値ではありません。それは、モデルが各応答にどれだけの計算量を費やすかをユーザーがきめ細かく制御できる 3 層の思考レベルシステムの導入です。

Gemini 3 Pro では、低と高の 2 つの思考モードのみが提供されました。新しい 3.1 Pro では、中程度の設定 (以前の高と同様) が追加され、重要なことに、「高」の意味が全面的に刷新されています。高に設定すると、3.1 Pro は「Gemini Deep Think のミニバージョン」として動作します。これは、同社の特殊な推論モデルです。つい先週更新されました。

企業の導入への影響は重大である可能性があります。タスクの複雑さに基づいてさまざまな特殊なモデルにリクエストをルーティングするのではなく（一般的だが運用上負担のかかるパターン）、組織は単一のモデルエンドポイントを使用し、当面のタスクに基づいて推論の深さを調整できるようになりました。日常的な文書の要約は低思考で迅速な応答時間で実行できますが、複雑な分析タスクは高度な思考に昇格して、深い思考力を備えた推論を行うことができます。

ベンチマークパフォーマンス: 3 Pro と比較して Reasoning が 2 倍以上

Google が公開したベンチマークは、特に推論とエージェント機能に関連する領域で劇的な改善が見られることを物語っています。

Google Gemini 3.1 Pro ベンチマークチャート。クレジット: Google

の上 アーク-AGI-2、新しい抽象推論パターンを解決するモデルの能力を評価するベンチマーク、3.1 Pro スコア 77.1% — Gemini 3 Pro が達成した 31.1% の 2 倍以上であり、Anthropic の Sonnet 4.6 (58.3%) や Opus 4.6 (68.8%) を大幅に上回っています。この結果は、OpenAI の GPT-5.2 (52.9%) も上回ります。

利益は全面的に広がります。の上 人類最後の試験、厳格な学術推論ベンチマークである 3.1 Pro はツールなしで 44.4% を達成し、3 Pro の 37.5% から増加し、Claude Sonnet 4.6 (33.2%) と Opus 4.6 (40.0%) を上回りました。の上 GPQA ダイヤモンド、科学的知識の評価では、3.1 Pro は 94.3% に達し、リストされているすべての競合他社を上回りました。

結果がエンタープライズ AI チームにとって特に重要になるのは、エージェントベンチマークです。エージェントベンチマークは、ツールや複数ステップのタスクが与えられたときにモデルがどの程度うまく機能するかを測定する評価であり、実稼働 AI のデプロイメントをますます定義する種類の作業です。

の上 ターミナルベンチ 2.0エージェントターミナルコーディングを評価するテストでは、3.1 Pro のスコアは 68.5% で、前バージョンの 56.9% と比較しました。の上 MCP アトラスモデルコンテキストプロトコルを使用したマルチステップワークフローを測定するベンチマークでは、3.1 Pro は 69.2% に達しました。これは 3 Pro の 54.1% より 15 ポイント向上し、Claude と GPT-5.2 の両方を 10 ポイント近く上回っています。そして、 ブラウズコンプエージェントの Web 検索機能をテストするテストでは、3.1 Pro が 85.9% を達成し、3 Pro の 59.2% を大幅に上回りました。

Google が「0.1」リリースを選択した理由とそれが何を示唆するのか

バージョン管理の決定自体は注目に値します。以前の Gemini リリースは、一般提供に至る前に複数の 2.5 プレビューなど、日付の付いたプレビューのパターンに従っていました。このアップデートを別の 3 Pro プレビューではなく 3.1 として指定するという選択は、Google がバージョンの増加を正当化するのに十分な改善を十分に考慮していることを示唆していますが、「ポイント 1」の枠組みは、これが革命ではなく進化であるという期待を設定しています。

Google のブログ投稿によると、3.1 Pro は Gemini Deep Think シリーズの教訓に直接基づいて構築されており、以前のバージョンと最近のバージョンの両方のテクニックが組み込まれています。このベンチマークは、強化学習が、特に ARC-AGI-2、コーディングベンチマーク、エージェント評価などのタスクでの利益において中心的な役割を果たしていることを強く示唆しています。まさに、RL ベースのトレーニング環境が明確な報酬シグナルを提供できる領域です。

このモデルは一般公開ではなくプレビュー版でリリースされており、Googleは完全なGAに移行する前にエージェントワークフローなどの分野で引き続き進歩すると述べている。

エンタープライズ AI スタックに対する競争上の影響

フロンティアモデルプロバイダーを評価する IT 意思決定者にとって、Gemini 3.1 Pro のリリースは、どのモデルを選択するかだけでなく、自社の製品やサービスの急速な変化にどのように適応するかを再考する必要があります。

問題は、このリリースが競合他社からの反応を引き起こすかどうかです。 Gemini 3 Pro は昨年 11 月に最初に発売され、独自のエコシステムとオープンウェイトエコシステムの両方でモデルリリースの波が始まりました。

3.1 Pro がいくつかの重要なカテゴリーでベンチマークのリーダーシップを取り戻す中、Anthropic、OpenAI、および無差別級コミュニティには対応を求めるプレッシャーがかかっています。そして現在の AI 環境では、その対応はおそらく数か月ではなく数週間で測定されます。

可用性

Gemini 3.1 Pro は、開発者向けに Google AI Studio、Gemini CLI、Google Antigravity、Android Studio の Gemini API を通じてプレビュー版として提供されています。企業のお客様は、Vertex AI および Gemini Enterprise を通じてアクセスできます。 Google AI Pro および Ultra プランの消費者は、Gemini アプリと NotebookLM を通じてアクセスできます。

#Google #Gemini #Pro #の第一印象 #オンデマンドで推論を調整できるDeep #Mini

「Deep Think Mini」効果: オンデマンドで推論を調整可能

ベンチマーク パフォーマンス: 3 Pro と比較して Reasoning が 2 倍以上

Google が「0.1」リリースを選択した理由とそれが何を示唆するのか

エンタープライズ AI スタックに対する競争上の影響

可用性

共有:

Related

ベンチマークパフォーマンス: 3 Pro と比較して Reasoning が 2 倍以上