世界

言語モデルの視覚能力に深みが欠けていることが判明

7月 13, 2024 / nipponese

1720902659
2024-07-12 13:55:51

VLM は、青と赤のプロットの交点を正確にカウントできません。クレジット: arXiv (2024年)。 DOI: 10.48550/arxiv.2407.06581

米国オーバーン大学のコンピューター科学者3人は、カナダのアルバータ大学の同僚と共同で、視覚機能(VLM)を備えた大規模言語モデル(LLM)による視覚スキルの主張は能力を誇張している可能性があることを発見した。

Pooyan Rahmanzadehgervi、Logan Bolton、Anh Totti Nguyen、Mohammad Reza Taesiriは、最も人気のあるVLMの4つ(GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet、Claude-3.5 Sonnet)をテストしました。 視覚能力研究 投稿される arXiv プレプリントサーバー。

過去 1 年間で大規模な言語モデルが進化するにつれ、視覚入力を受け入れる機能などの新しい機能が追加されました。しかし、このような機能は、視覚能力全般の性質に関する疑問を引き起こしています。

動物と同様に、人間が構築した視覚システムには、カメラと、カメラで捉えたものを処理する脳という 2 つの主要コンポーネントが必要です。この新しい研究で、研究者は、視覚化を捉えるために使用されるカメラは高度に発達しているかもしれませんが、それが生成するデータの処理はまだ初期段階にあることを発見しました。

言語を尋ねることは一つのことです モデル タージ・マハルのような建物を識別することと、画像に写っているものの性質について質問することは、まったく別の話です。たとえば、タージ・マハルの前に立っている何人の子供が手をつないでいるかを言語モデルに尋ねるのは、言語モデルが数を数えることを教えられていないため、難しい作業です。言語モデルは手をつないでいるといったことを認識することを教えられているのです。

したがって、写真に示されているのと同じ数の子供たちが手をつないでいる画像を見せられなければ、正しい答えを出すことはできません。

研究者たちは、画像内の重なり合う円の数や相互接続されたリングの数を数えるなど、人間にとっては非常に簡単な作業を 4 つの一般的な LLM に実行させることで、この処理能力の欠如を実証しました。

当然のことながら、法学修士課程の学生 4 名は全員成績が悪かった。よく知っているものの写真で訓練されたときだけ成績が良かったのだ。たとえば、オリンピックの輪以外にはそのような例を見たことがなかったため、5 つ以上の輪が連動しているとき、何個の輪が連動しているかを推測するのが難しかった。

この取り組みにおけるチームの研究は、大きな 言語 モデルが処理できるようになるまでには長い道のりがある 視覚情報 人間と同等の方法で。

詳しくは:
Pooyan Rahmanzadehgervi 他「視覚言語モデルは盲目である」 arXiv (2024年)。 DOI: 10.48550/arxiv.2407.06581

視覚言語モデルは盲目です: vlmsareblind.github.io/

ジャーナル情報:
arXiv


© 2024 サイエンスXネットワーク

引用: 言語モデルの視覚能力に深みがないことが判明 (2024 年 7 月 12 日) 2024 年 7 月 13 日に https://techxplore.com/news/2024-07-visual-abilities-language-lacking-depth.html から取得

この文書は著作権の対象です。個人的な学習や研究を目的とした公正な取り扱いを除き、書面による許可なしに複製することはできません。コンテンツは情報提供のみを目的として提供されています。

#言語モデルの視覚能力に深みが欠けていることが判明