最も困難な人工知能テストで記録を破った

1739100407
2025-02-09 09:45:00

世界で最も困難な人工知能テスト、 人類の最後の試験、2週間前に発売されましたが、O3-MINIと今では彼女の深い研究で、すでに正確さが大きなジャンプを見てきました Openai ランキングの一番上にいます。世界中の専門家によって作成されたAIの基準点には、人間に知られている最も困難な問題と質問のいくつかが含まれています。

世界現象 Deepseek R1 ランキングのトップにあり、テキストでのみ評価されたときに正確に9.4％でしたが、現在は、 OpenaiのO3-MINIは、O3-MINI設定で10.5％、O3-MINI-HIGH設定で13％の精度を獲得しました、より賢いですが、答えを生み出すのにもっと時間がかかります。

しかし、より印象的です 新しいAIエージェントのスコア深い研究ベンチマークのOpenaiの、新しいツールを使用します 注26.6％、 結果の精度が183％大幅に増加する 10日以内に。今、それは注目に値します 深い研究 検索機能があり、比較がわずかに不公平になります他のモデル ai インターネットを検索しないでください。後者は、ようなテストに役立ちます 人類の最後の試験、一般的な知識に基づいたいくつかの質問が含まれているためです。

いずれにせよ、Humanityの最後の試験でテストされたモデルの結果の正確性は着実に改善されており、どのくらいの時間を待つ必要があるのか不思議に思うようになります。 ai ベンチマークの完了に近づくモデル。

深い研究はあなたの個人的なアナリストとして行動することができ、集中的な研究を実施するために時間を費やし、そうでなければ人々を完成させるのに何時間もかかる報告と答えにつながります。

それでも 人類の最後の試験における26.6％の格付けは本当に印象的です、特に、ベンチマークランキングがわずか2週間でどれだけ離れているかを考慮した場合、 絶対的な言葉ではまだ低いスコアです、 現実世界では50％未満のテストに合格したと誰も主張しないためです。

人類の最後の試験は優れた比較であり、AIモデルが進化しているため、非常に貴重であることが証明され、到着した距離を測定できます。

[via]

#最も困難な人工知能テストで記録を破った

共有:

Related