1759225853
2025-09-30 09:33:00
大規模な言語モデルの最近の進歩は、「思考の連鎖」の推論にますます依存していますが、より大きな効率を提供する暗黙的な方法は、パフォーマンスの明示的なアプローチに一貫して遅れています。 Xilin Wei、Xiaoran Liu、Yuhang Zang、および同僚は、暗黙のチェーンプロセス内の根本的な不安定性を特定し、潜在的な表現がセマンティックの多様性を失うにつれて、計算能力の増加がトレーニングの崩壊につながることが多いことを発見します。この制限を克服するために、チームは、段階レベルの監督を導入し、推論中に計算コストを上げることなく推論プロセスを安定させ、潜在スペースを濃縮する新しいトレーニングモジュールであるSIM-COTを開発しました。このイノベーションは、さまざまな暗黙のチェーンの方法にわたって精度と安定性の両方を大幅に改善し、一部のモデルで8%以上のパフォーマンスを向上させ、決定的に、従来の明示的な推論技術よりも大きなトークン効率を実証します。
暗黙の言語モデルの目に見える推論
研究者は、特に推論プロセスが明示的に述べられていない場合、言語モデルの大きなモデルが結論に到達する方法を理解するという課題に取り組んでいます。この作業は、モデルを強制的に冗長にすることなく、この隠された推論を目に見えるようにすることに焦点を当てています。チームは、モデルが推論のための構造化された内部表現を学習することを奨励するトレーニング方法であるSIM-COTを開発しました。これは、問題とその解決策の微妙な理解を開発するための連続値として中間推論ステップをエンコードします。この方法では、モデルをトレーニングして、最初の質問からこれらの中間推論の手順を再構築し、問題解決プロセスの意味のある内部表現を効果的に学習します。
その後、科学者はこの内部表現を分析し、異なる推論ステップがどれだけよく分離されているかを測定し、表現がモデルの言語の理解に基づいたままであることを確認しました。デコーダーは、これらの内部表現を自然言語に戻し、研究者がモデルの推論を視覚化して理解できるようにします。この研究は、SIM-COTが構造化された内部表現を学習し、異なる推論ステップが明確に区別されることを示しています。デコーダーは、これらの内部表現をモデルの思考プロセスの人間の読み取り可能な説明に正常に変換し、数学的な問題に挑戦するパフォーマンスを改善し、推論情報を効果的にエンコードして利用する能力を実証します。
潜在的な不安定性は、暗黙の推論パフォーマンスを制限します
研究者は、効率的な暗黙の推論方法の制限を調査し、単に内部推論ステップの数を増やすだけで不安定なトレーニングとモデルの失敗につながる可能性があることを明らかにしました。トレーニング中の内部表現の分析により、故障モデルは過度に類似した内部状態を示し、推論を成功させるために必要な多様な情報をキャプチャできないことが示されました。内部推論スペースを安定させ、その多様性を豊かにするために、チームは既存のモデルに簡単に統合できるトレーニングモジュールであるSIM-COTを開発しました。この革新的なアプローチでは、トレーニング中に補助デコーダーを使用して、各内部推論ステップを対応する明示的な推論ステップに合わせて、ステップレベルの監督を導入し、内部状態が明確で意味のある情報をキャプチャするようにします。
重要なことに、補助デコーダーは推論中に削除され、暗黙的な方法の計算効率を維持します。実験は、SIM-COTがいくつかの暗黙的な推論方法を大幅に強化することを示しています。ココナッツ法は8.2%の精度ブーストを経験し、CODIは3。0%の改善を見ています。さらに、SIM-COTは1つのベンチマークで明示的な推論を上回り、2.1%の効率を達成し、より大きなモデルで強いスケーラビリティを実証しました。
ステップレベルの監督で推論を安定化します
研究者は、大規模な言語モデルで効率的な暗黙的推論を大幅に強化する新しいトレーニングモジュールであるSIM-COTを開発しました。暗黙の推論は、明示的な推論に代わる計算上効率的な代替品を提供しますが、トレーニング中に不安定性に苦しむことが多く、パフォーマンスが低下します。科学者は、この不安定性が内部表現が過度に均一になることに起因することを発見し、効果的な推論に必要な多様性を失いました。これに対処するために、SIM-COTはステップレベルの監督を導入し、内部の推論スペースを安定させ、情報コンテンツを強化します。
SIM-COTのコアは、トレーニング中に使用される補助デコーダーで、各内部推論ステップを対応する明示的な推論ステップに合わせます。このアラインメントにより、内部状態は明確で意味のある情報をキャプチャし、標準的な暗黙の推論トレーニングで観察される崩壊を防ぐことができます。重要なことに、この補助デコーダーは推論中に削除され、暗黙的な方法の計算効率を維持します。実験は、SIM-COTがココナッツ法と組み合わせると、CODIで使用すると0.6%の精度が向上すると同時に、挑戦的なベンチマークで8.2%の精度改善を達成することを示しています。チームはまた、より小さな言語モデルで最先端の結果を達成し、明示的な推論方法を上回る最初のトレーニングベースのアプローチになり、堅牢性と一般化能力の改善を実証しました。
ステップレベルの監督は、LLMSの推論を安定させます
研究者は、大規模な言語モデルにおける効率的な暗黙的推論のための新しいトレーニング方法であるSIM-COTを紹介します。現在の暗黙的な方法は、効率的ですが、トレーニング中に不安定性と内部表現のセマンティック多様性の喪失に苦しむことがよくあります。 SIM-COTは、推論プロセスの各段階でフィードバックを提供し、トレーニングを安定させ、内部推論スペースを充実させる手法であるステップレベルの監督を導入することにより、これに対処します。実験は、SIM-COTが既存の暗黙的推論方法の精度と安定性の両方を高め、強力な明示的な推論ベースラインを上回り、速い推論速度を維持することを示しています。さらなる分析により、SIM-COTが多様で安定した内部表現が生成され、堅牢な内部推論プロセスを示すことが確認されています。
#SIMCOTは監視された暗黙のチェーン安定化トレーニングセマンティックの多様性の改善により監視された暗黙のチェーンで8.2のパフォーマンスゲインを達成します