1772989397
2026-02-28 18:00:00
人工知能システムが長年にわたる学術評価に合格し始めたとき、研究者たちは、テストが簡単すぎるという問題があることに気づきました。かつては手ごわいと考えられていた大規模マルチタスク言語理解 (MMLU) 試験などの人気の評価は、もはや高度な AI システムを有意義にテストするには十分な難易度ではありません。
#パニックにならないでください #人類最後の試験が始まりました
nipponese.news
1772989397
2026-02-28 18:00:00
人工知能システムが長年にわたる学術評価に合格し始めたとき、研究者たちは、テストが簡単すぎるという問題があることに気づきました。かつては手ごわいと考えられていた大規模マルチタスク言語理解 (MMLU) 試験などの人気の評価は、もはや高度な AI システムを有意義にテストするには十分な難易度ではありません。
#パニックにならないでください #人類最後の試験が始まりました