データ枯渇危機:AI発展が直面するデータボトルネックと対策
我们估计人类产生的的公共文本存量约为 300 万亿个token。如果趋势持续,语言模型将在 2026 年至 2032 年之间完全耗尽这一存量,或者如果过度训练,甚至会更早。 ——Epoch AI
2006年、当時イリノイ大学の教授であった李飛飛(現スタンフォード大学教授)は、インターネットが人工知能(AI)研究を変える可能性を見出しました。言語学の研究では、8万の「名詞同義語セット」、つまり同じ種類の物を表す同義語の集合が特定されていました。李飛飛は、インターネット上の数十億枚の画像に、これらの同義語セットの無数の実例が含まれているに違いないと推測しました。これらの画像を十分に集めることができれば、これまでのAIトレーニング資源を超える巨大なデータベースを作成できると考えました。彼女は「多くの人がモデルに注目していますが、私たちはデータに注目すべきです」と述べ、ImageNetプロジェクトが誕生しました。
インターネットは画像だけでなく、画像のラベル付けのためのリソースも提供しました。検索エンジンで猫、犬、椅子などの画像を見つけた後、AmazonのクラウドソーシングプラットフォームMechanical Turkの人々がこれらの画像を手動でチェックし、ラベル付けしました。最終的に、数百万の検証済み画像を含むデータベースが構築されました。ImageNetデータの一部を使用してトレーニングされたAlexNetが2012年に「ディープラーニング」の巨大な可能性を示し、前回のAIサイクルを開始し、大量のラベル付けデータに依存する業界を生み出しました。
1 データ駆動のAI時代
このAIサイクルでは、AIの発展が大規模言語モデル(LLM)にまで拡大し、これらのモデルのトレーニングもインターネットデータに依存していますが、その方法は異なります。コンピュータビジョン分野(CV)の古典的なトレーニングタスクは、画像の内容を予測すること(画像分類タスク)ですが、LLMのトレーニングの古典的なタスクは、文脈に基づいてテキストの中で削除された単語を予測することです。
このトレーニング方法は、手動でラベル付けされたデータを必要とせず、システムが単語を空け、自動的に推論し、「自己監督トレーニング」を通じて答えの正確性を評価できます。しかし、この方法には大量のデータが必要です。一般的に、モデルが得るテキストが多ければ多いほど、データ量が大きければ大きいほど、その性能は向上します(スケーリング則)。 インターネットは数十億のテキストを提供し、LLMにとっては、現代の産業にとって精製可能な燃料のような貴重な資源です。
一般的なトレーニングデータのソースはCommon Crawlで、500億のウェブページを含むインターネットアーカイブです。AIモデルの発展に伴い、Books3のような数千冊の書籍を含むデータベースなど、より多くのデータが追加されました。しかし、AIのテキストデータ需要の増加に伴い、インターネット上の高品質なデータ供給は徐々に限界に達しています。Epoch AIの推定によれば、2028年までにインターネット上の高品質なテキストデータは完全に使い果たされ、業界は「データウォール」と呼ばれる問題に直面します。中国語インターネットはさらに深刻で、「中国語インターネットが崩壊している」と言われ、各プラットフォームが次々と門を閉ざし、データの価値に気づいた後、それを金庫に入れました。この壁をどう乗り越えるかは、AIの将来の発展において最も難しい問題の一つであり、進行を遅らせる可能性が最も高い問題でもあります。
2 データ所有権と著作権の問題
AIモデルはますますインターネットデータに依存していますが、データの著作権問題も議論を呼んでいます。多くの大規模言語モデルのトレーニングに使用されるデータは、著作権者の同意を得ずに使用されることが多く、一部のAI企業は有料のコンテンツも利用しています。AI企業はこの使用が著作権法の「フェアユース」に該当すると主張しますが、著作権者は納得していません。Getty Imagesは画像生成企業Stability AIを訴え、その画像ライブラリを無断で使用したと主張しました。ニューヨークタイムズはOpenAIとMicrosoftを訴え、数百万の記事の著作権を侵害したと主張しました。Stack Overflow、Reddit、X(旧Twitter)は現在、AI企業に料金を請求しています。知乎もビングやグーグルなどのクローラーを妨害するために乱数を使用し、その中国語コンテンツがAIトレーニングのデータセットとして使用されるのを制限しています。
地域によってこの問題に対する態度は異なります。日本とイスラエルはAI産業の発展を促進するために寛容な立場を取っています。EUには共通の「フェアユース」概念がなく、より厳しいかもしれません。国内でも国家データ局が設立され、データが生産資料と生産対象の両方の役割を持つことが明確にされています。
3 現在のデータ使用戦略
データウォールに直面して、AI分野ではいくつかの対策が提案されています。その中の重要な対策の一つは、データの量ではなく質に焦点を当てることです。各AIラボはもはやインターネット全体のデータを盲目的に使用してモデルをトレーニングするのではなく、データのフィルタリング、クリーニング、最適化により重点を置き、モデルが最も価値のあるコンテンツを抽出できるようにしています。過去1年(2024年)で、OpenAIのモデルはもはや「圧倒的なリード」を示していないようで、各社のモデルが互角に戦っており、これらのモデルの異なるタスクでの性能の違いは、トレーニングデータの構築に由来しています。結局のところ、オープンソースのアルゴリズムやモデルは多いですが、オープンソースのデータセットはほとんどありません。
「現実世界の情報」を取得することは非常に重要であり、特にモデルが大量の推論を含む場合、学術教科書などの権威あるリソースが非常に貴重になります。しかし、異なるデータソース間で最適なバランスを見つけることは依然として難しい課題です。
データの使用過程で、モデルは「破滅的な忘却」の問題にも直面します。これは、システムが特定のタイプのデータで過度にトレーニングされると、その分野で得意になる一方で、以前学んだ他の知識を忘れてしまう可能性があるという問題です。そのため、トレーニング時のデータの順序も慎重に考慮する必要があります。特定のテーマ(例えば数学)に関するすべてのデータをトレーニングプロセスの最後に集中させると、モデルは数学の問題で優れたパフォーマンスを発揮するかもしれませんが、同時に他の分野の能力が弱まる可能性があります。この不均衡なトレーニング方法は、破滅的な忘却のリスクを高めます。
データが異なる分野だけでなく、異なる形式(モダリティ)も含む場合、これらの戦略はさらに複雑になります。新しいテキストデータが供給不足になる中、OpenAIのGPT-4やGoogleのGeminiのような先進的なモデルは、自己監督学習の過程でテキストだけでなく、画像、ビデオ、音声も使用してトレーニングされています。しかし、ビデオデータは特に厄介です。ビデオファイルには非常に密度の高いデータポイントが含まれているためです。問題を簡略化するために、現行のモデルは通常、部分的なフレームを抽出して簡略化処理を行っており、学界はより効率的な解決策を模索しています。
4 合成データとAIの自己トレーニング
モデルの能力は、自己監督学習で生成されたバージョン(事前トレーニングバージョン)を基に、追加のデータを使用して微細に調整することで向上させることができます(微調整)。例えば、「監督微調整」は、人間が収集または作成した質問応答ペアをモデルに提供し、良い答えとは何かを教える方法です。別の方法「人間のフィードバックに基づく強化学習」(RLHF)は、モデルに答えが質問者を満足させるかどうかを伝える方法です。
RLHFでは、ユーザーがモデルの出力の品質にフィードバックを行い、そのフィードバックがモデルのパラメータ(重み)を調整するために使用されます。チャットボットとのユーザーインタラクション、例えばいいねやバッドを押すことは、RLHFに特に有用です。これが「データフライホイール」のメカニズムです:より多くのユーザーがより多くのデータをもたらし、そのデータが逆により良いモデルを最適化します。AI企業は、ユーザーがそのモデルに提出するさまざまな質問を注意深く監視し、それに応じてデータを収集してモデルを調整し、これらのテーマをカバーします。アリババ、バイトダンス、Minimaxなどの企業は、モデルの価格競争を繰り広げており、この側面を考慮していないとは言えません。
インターネット上の事前トレーニングデータが徐々に枯渇する中、後期トレーニング(ポストトレーニング)の重要性がますます高まっています。Scale AIやSurge AIのようなラベル付け会社は、後期トレーニングデータを収集することで毎年数億ドルを稼いでいます。Scaleは最近、140億ドルの評価額で10億ドルを調達しました。今日のラベル付け作業は、Mechanical Turkの時代を超えています:トップのラベル付け者は1時間あたり最大100ドルを稼ぐことができます。後期トレーニングはより良いモデルを生成し、多くの商業アプリケーションのニーズを満たすのに役立ちますが、これは依然として増分改善であり、根本的な解決策ではありません。
データウォールを徐々に突破する以外に、完全にそれを飛び越える解決策もあります。それは、機械生成の合成データを使用することです。DeepMind(Googleの子会社)が発表したAlphaGo Zeroモデルはその良い例です。同社の最初の成功した囲碁モデルは、数百万のアマチュア試合のデータでトレーニングされましたが、AlphaGo Zeroは既存のデータを全く使用しませんでした。代わりに、3日間で490万回自分と対局することで囲碁を学び、成功した戦略を記録しました。この「強化学習」は、対戦相手の手に対して多くの可能な応答をシミュレートし、成功の可能性が最も高い戦略を選択する方法を教えました。
同様の方法はLLMにも適用できます。例えば、現在最強のオープンソース大規模モデルLlama 3.1です。LLama3.1のSFTデータには、モデル生成の合成データが相当な割合を占めており、Gemma2のSFT段階のデータも大規模なモデルによって合成されたものが多く、合成データの品質が手動ラベル付けの品質に劣らないことを証明しています。
では、無限に合成データを生成し、左足で右足を踏んで天に登ることができるのでしょうか?私は答えは否定的だと思います。先月『Nature』に発表された研究は、モデルトレーニングで合成データを「乱用」することが「不可逆的な欠陥」を引き起こす可能性があることを発見しました。モデル合成のデータを使用してモデルを微調整する場合、数回繰り返すだけでモデルは意味不明なことを言い始め、この現象を「モデル崩壊」と呼びます。
より大きな問題は、この方法を医療や教育などの垂直分野にどのように拡張するかです。ゲームでは、勝利の定義が明確であり、特定の行動が有利かどうかのデータを収集するのが容易です。他の分野では、これがはるかに複雑です。「良い」決定に関するデータは通常、専門家から収集されますが、これは高価で時間がかかり、解決策も包括的ではありません。ある専門家が正しいかどうかを判断する方法も、また別の問題です。
5 まとめ
より多くのデータを取得することは、AIの急速な進歩を維持するための鍵です。専門家のソースから取得した専門データであれ、機械生成の合成データであれ、AIの進歩はデータの継続的な供給に依存しています。最も容易に取得できるデータの蓄えが徐々に枯渇する中、AI業界はこの問題を緩和するために多くの努力をしています:
- データ品質を強調し、データクリーニングを行う
- 数学、論理、コードデータの比率を増やし、トレーニング順序を調整する
- 合成データを使用して実データを補完する
しかし、これらは持続可能ではないように見え、新しいデータソースを見つけるか、持続可能な代替案を開発する必要があります。または、アルゴリズムアーキテクチャの観点から、データに依存しない新しいアーキテクチャを設計し、次のAIサイクルを開始する必要があります。