1720389227
2024-07-07 10:00:00
これまでのところ、 AI企業は、文章が誤っているかどうかを確実に検出できるツールの開発に苦労してきた。 大規模言語モデルを使用して生成された現在、研究者グループは、LLM時代(つまり2023年と2024年)にどの「余分な単語」がより頻繁に現れ始めたかを測定することにより、大量の科学論文におけるLLMの使用状況を推定する新しい方法を確立しました。研究者によると、結果は「2024年の抄録の少なくとも10%がLLMで処理されたことを示唆している」とのことです。
で 今月初めに投稿されたプレプリント論文ドイツのテュービンゲン大学とノースウェスタン大学の研究者4人は、新型コロナウイルスのパンデミックの影響を測定した研究に触発されたと語った。 過剰死亡率を見ることによって 近年と比較して。LLMライティングツールの後の「過剰な単語の使用」を同様に見てみると 2022年後半に広く利用可能になった研究者らは、「LLM の出現により、特定のスタイル ワードの頻度が急激に増加し、その質と量の両方において前例のない増加が生じた」ことを発見しました。
掘り下げる
これらの語彙の変化を測定するために、研究者らは、 出版元 2010年から2024年までの各単語の相対的な出現頻度を各年にわたって追跡し、それらの単語の予想出現頻度(2023年以前の傾向線に基づく)と、LLMが広く使用されていた2023年と2024年の抄録におけるそれらの単語の実際の出現頻度を比較しました。
結果から、2023年以前にはこれらの科学論文抄録で極めてまれだった単語が、LLM導入後に突然人気が急上昇したことが判明した。例えば、「delves」という単語は、LLM導入前の傾向から予想されるよりも2024年の論文で25倍多く登場している。また、「showcasing」や「underscores」などの単語の使用も9倍に増加している。以前は一般的だった他の単語も、LLM導入後の抄録で著しく一般的になった。例えば、「potential」の頻度は4.1パーセントポイント、「findings」は2.7パーセントポイント、「crucial」は2.6パーセントポイント増加している。
もちろん、こうした言葉の使用の変化は、LLMの使用とは関係なく起こる可能性があります。言語の自然な進化とは、言葉が流行ったり廃れたりすることです。しかし、研究者らは、LLM以前の時代には、このような大幅かつ急激な前年比の増加は、2015年の「エボラ」、2017年の「ジカ」、そして2020年から2022年の期間の「コロナウイルス」「ロックダウン」「パンデミック」などの言葉など、世界的な健康イベントに関連する言葉にのみ見られたことを発見しました。
しかし、法学修士課程修了後に研究者らは、世界情勢とは何ら関係のない科学用語の使用が突然顕著に増加した単語を数百語発見した。実際、新型コロナのパンデミック中に過剰に使用された単語は圧倒的に名詞であったが、法学修士課程修了後に使用頻度が急増した単語は圧倒的に動詞、形容詞、副詞などの「スタイルワード」であった(ほんの一例:「across、additionally、comprehensive、crucial、enhancing、exhibited、insights、notably、departural、within」)。
これは全く新しい発見ではない。科学論文における「掘り下げ」の普及が進んでいる。 近年広く注目されているたとえば、 などです。しかし、これまでの研究は一般的に、人間の文章サンプルの「真実」との比較や、研究の外部から入手した定義済みの LLM マーカーのリストに依存していました。ここでは、2023 年以前の抄録セットが、LLM 後の時代に語彙の選択が全体的にどのように変化したかを示すための効果的なコントロール グループとして機能します。
複雑な相互作用
LLM 後の時代に著しく普及した、いわゆる「マーカーワード」を数百個強調表示することで、LLM の使用の明らかな兆候を簡単に見つけることができる場合があります。研究者によって強調表示されたマーカーワード付きのこの例の要約文を見てみましょう。「 包括的な 把握の 複雑な相互作用 間 […] そして […] は 極めて重要な 効果的な治療戦略のために。」
研究者らは、個々の論文におけるマーカーワードの出現について統計的測定を行った後、PubMedコーパス内の2022年以降の論文の少なくとも10パーセントは、少なくとも何らかのLLMの支援を受けて書かれたと推定している。研究者らによると、彼らのセットには、彼らが特定したマーカーワードをまったく含まないLLM支援の抄録が欠落している可能性があるため、その数はさらに高くなる可能性があるという。
#生成AIテキストを明かす言葉
