AIトレーニング・データの壁——スケーリング時代は本当に終わったのか

2026年、主要AIラボはインターネット上の高品質テキストをほぼ使い尽くした「データの壁」に直面している。Sam Altmanが「超大規模モデル訓練の時代は終わりに近づいた」と示唆する一方、合成データや新モダリティによる反論も根強い。スケーリング神話の終焉論と継続論を双方の視点から検証する。

Newscoda 編集部2026-05-08

はじめに

「スケーリング則の黄金時代は終わりを告げつつある。」2025年後半、OpenAIのSam Altmanがこの趣旨の発言をすると、AI業界に静かな衝撃が走った。モデルパラメータを増やし、より多くのデータで学習させれば性能が向上するという「スケーリング則」は、2020年代前半のAIブームを支えた中心的な信仰だった [1]。しかし2026年現在、主要なAIラボはひとつの共通した壁に突き当たりつつある——インターネット上の高品質テキストデータをほぼ使い尽くしたという「データの壁」だ [3]。

GPT-3が登場した2020年時点で、人類がインターネット上に蓄積した高品質英語テキストの多くは既に学習データに取り込まれていた [2]。その後の数世代にわたるモデル訓練で、新聞・書籍・学術論文・ウェブページという従来の優良データソースは実質的に枯渇状態に近いとされる [3]。この「データの壁」は単なる技術的な課題にとどまらず、AI産業の投資構造、地政学的な技術競争、そしてAI株式バリュエーションにも連鎖的な影響を与えうる問題として浮上している。本稿では「スケーリング終焉論」と「スケーリング継続論」の双方を検証し、その含意を考察する。

データ枯渇問題の実像

高品質テキストデータはどこまで消費されたか

2020年のKaplanらによるスケーリング則の研究は、モデルの性能がパラメータ数・データ量・計算量の三つの変数に対して冪乗則（power law）で向上することを示した [1]。この発見はAI開発に明確な指針を与えた——より大きく、より多くのデータで訓練すればよい、というものだ。問題は「より多くのデータ」の供給が有限であるという事実だ。

ArXivで2023年に発表されたMuennighoffらの研究は、この問題を定量的に示した最初期の分析のひとつだ [3]。研究チームは、既存の高品質テキストデータセット（C4、The Pile、RedPajamaなど）を用いた大規模言語モデル（LLM）の訓練において、同一データを複数回使い回す「エポック繰り返し」を行った場合の性能劣化を測定した。その結果、4回以上同じデータを使用すると性能向上が明らかに鈍化することが示された。

スタンフォード大学HAI（人間中心型AI）の「AIインデックス2025年版」によれば、英語を中心とした高品質インターネットテキストは2020〜2024年のモデル世代で事実上使い尽くされた可能性が高いとされる [4]。推定によれば、現在の上位モデルの多くは50〜100兆トークン規模のデータで訓練されているが、インターネット上の英語高品質テキストの総量は同水準かそれを下回るとみられている。

データの「質と量」をめぐる非対称性

データの枯渇は均一ではない。量的には膨大でも質的に低いデータ（ソーシャルメディアの投稿、機械翻訳されたコンテンツ、スパムなど）は依然として無限に近く存在するが、高品質な専門知識・長文推論・査読済み学術知見を含むデータは希少だ [3][4]。

この非対称性は重要な含意を持つ。同一品質のデータを追加し続けることができない以上、データ量を単純に増やすだけの戦略は通用しなくなる。一方、多言語データ・低リソース言語データはまだ大量に未利用のまま残っており、英語中心のモデルに比べて多言語モデルにはまだ拡張余地があるとする見方もある [4]。日本語・中国語・アラビア語等の高品質ウェブコンテンツは英語に比べて相対的に未活用の状態が続いており、これらの言語でのデータ収集・品質フィルタリングが次の競争軸になりうる。

合成データという「解法」の可能性と限界

AIがAIを訓練する自己強化ループ

「データの壁」に対する最も注目されるアプローチが「合成データ（synthetic data）」だ。既存のAIモデル自身が新たな訓練データを生成し、それで次世代モデルを訓練するというアイデアは、一見すると無尽蔵のデータソースをもたらすように見える [5]。OpenAIのo1・o3シリーズが採用したとされる「推論強化訓練」は、モデル自身が問題解決過程（chain-of-thought）を生成し、それを自己評価して品質の高い推論経路を選択的に学習させるというアーキテクチャを含むとされる [5]。

Google DeepMindのGeminiシリーズも同様のアプローチを採用している。Geminiの技術レポートによれば、数学・コーディング・科学推論の各分野で、AIが生成した高品質な解答・解説データを訓練に組み込むことで、対応するベンチマーク性能が著しく向上したとされる [6]。特に数学的推論の分野では、人間の数学者が検証した高品質データよりもAI生成の大量データの方が汎用的な推論能力の向上に貢献したとされる研究も存在する。

合成データの「崩壊」リスク

しかし合成データにはリスクもある。AIが生成したデータでAIを訓練する工程を繰り返すと、モデルが徐々に「自分自身のバイアスを増幅」し、多様性を失って特定の応答パターンに収束するという「モデル崩壊（model collapse）」現象が理論的に予測されている [3]。

2023〜2024年にかけて複数のArXiv論文がこの問題を数学的に示した。純粋な合成データのみで何世代にもわたって訓練を繰り返すと、モデルの出力分布が徐々に歪んで最終的には当初のモデルとは大きく異なる（しばしば劣化した）挙動を示すようになるとされる [3]。これは「AIによるAI訓練」が無限に持続可能ではない可能性を示唆する。

実際には、高品質な人間生成データと合成データを適切に混合することで崩壊を回避できるとする研究もあり、完全な代替は困難であっても補完的活用は有効と考えられている。スタンフォードAIインデックスは、2025年時点で主要な最先端モデルのほとんどが訓練データの相当割合に合成データを活用していると指摘する [4]。

テキストを超える新フロンティア

マルチモーダルデータの可能性

テキストデータの枯渇に対し、「スケーリング継続論」者が最も強調するのがマルチモーダルデータ——動画・音声・コード・科学データ——の未開拓な豊富さだ [6]。GoogleのDeepMindは、YouTubeに毎分500時間以上のアップロードが続く動画データが実質的に無尽蔵であり、視覚・言語・音声の統合理解を訓練するための素材として活用できると主張している [6]。

動画データには特有の価値がある。テキストが言語として記述した概念を、動画は時間的変化・空間的配置・物理的因果関係として示す。「ボールを投げると放物線を描く」という知識をテキストで学ぶのと、実際の動画から視覚的に学ぶのでは、世界モデルの構築という観点から根本的に異なる情報が得られるとされる。OpenAIのSoraやGoogleのVeoが示すように、動画生成モデルの急速な進歩は動画データの有効な活用が始まっている証左ともいえる [5]。

コードデータも重要な新フロンティアだ。GitHubのパブリックリポジトリはその大部分がすでに訓練データとして活用されているが、企業の社内コード・テスト済みバグ修正データ・実行結果フィードバックのような「実践的」データは未活用のまま残っている。コード実行フィードバック（コードを実際に走らせた結果を報酬信号として使う強化学習）は、合成データのリスクを回避しながらスケーリングを続ける有力な方法として注目される [4]。

科学データ・専門知識データの活用

蛋白質構造・化学式・物理シミュレーション・医学画像といった科学データは、インターネット上の一般テキストとは異なる種類の高品質データソースとして期待される [4]。AlphaFoldが示した蛋白質構造予測の革新は、科学データを適切に構造化することでAIの能力を新たな次元で引き上げられることを証明した。

スタンフォードAIインデックスは、科学研究分野でのAI活用が2025年に急加速したと報告し、AIが発見した新薬・新材料・新物理法則が急増していると指摘する [4]。これらの科学的発見プロセス自体が新たな高品質データを生成し、次世代モデルの訓練に寄与するというサイクルが形成されつつある。AIによる科学発見の加速（AI創薬の詳細は「AI創薬の革命」を参照）は、データの壁を乗り越える可能性を秘めた新フロンティアとして期待されている。

スケーリング以外の次元

推論時計算（Inference-Time Compute）

スケーリング則の議論は従来「訓練時の計算量」に集中してきたが、2025〜2026年のAI開発の最大のトレンドのひとつは「推論時計算」の活用だ [5]。OpenAIのo1・o3モデルが採用したアプローチは、答えを出力する際により多くの計算リソースを使って自己検証・自己修正を繰り返す「遅い思考（slow thinking）」を実装するというものだ。

この戦略の意義は、訓練データを増やす代わりに推論プロセスを改善することで性能を向上できる点にある [5]。固定された訓練済みモデルでも、推論時に使える計算量を増やすことで難解な問題での正解率を劇的に改善できる事例が報告されている。スタンフォードAIインデックスによれば、数学オリンピックレベルの問題を解く能力の向上は、主にモデルサイズの増加ではなく推論時戦略の改善によってもたらされたとされる [4]。

Mixture-of-Experts（MoE）アーキテクチャ

別のアプローチとして、「Mixture-of-Experts（MoE）」アーキテクチャの洗練がある。MoEは巨大なパラメータ数を持ちながら、各入力に対して一部の「専門家」モジュールのみを活性化させることで、推論コストを抑えながら大容量モデルの知識を活用する手法だ [6]。

GoogleのGeminiシリーズの一部やMeta AIのMixture-of-Experts実装は、同等のパラメータ数を全て活性化するモデルと比べて推論コストを大幅に削減しながら性能を維持するとされる [6]。MoEの発展は「スケーリング」の定義自体を変容させる可能性がある——単に訓練時に大きくするのではなく、効率よく必要な能力を分散させる設計へのシフトだ。この方向性は、純粋なデータ量の増加に依存しない形でのAI性能向上経路を示しており、「データの壁」への部分的な解答となりえる。

投資への含意——AIキャピタルサイクルは変曲点を迎えるか

「スケーリング終焉論」が正しければ何が起きるか

もし「訓練データ枯渇によりスケーリングが頭打ちになる」という議論が正しいとすれば、AI投資環境には重大な含意がある [7]。現在のAI投資ブームの中心にあるのは、GPU・データセンター・電力インフラへの膨大な設備投資だ。これはスケーリングによってモデル性能が継続的に向上し続けるという前提の上に成り立っている。

ブルームバーグ・インテリジェンスの分析によれば、NvidiaのH100/H200/B200 GPU群への需要は2026年も旺盛を維持しているが、その一部はスケーリングへの持続的な信頼によって支えられているとされる [7]。もし主要なAIラボがスケーリングの限界を公式に認め、大規模訓練のペースを落とすとすれば、GPU需要・クラウドAIインフラ投資・関連電力需要への影響は軽微ではない（AI設備投資の詳細は「AIキャピタルとボンド・ヴィジランテ」を参照）。

しかし「スケーリング終焉」とAIへの投資縮小は同義ではないという見方も根強い。訓練コストが相対的に低下し、エッジ推論・特化型モデル・エンタープライズAI導入への投資に重心が移ることで、AI投資の総量は維持または拡大しながらその構造が変化するという見方だ [4][7]。

「スケーリング継続論」が正しければ

一方、合成データ・マルチモーダル・推論時計算によってスケーリングが継続できるという立場からは、現在のAI投資は正当化されるどころか依然として過小であるという主張が出てくる [5][6]。動画・科学データ・コード実行フィードバックを本格的に活用した次世代モデルの訓練には、現行世代を上回る計算インフラが必要となるからだ。

OpenAIのSam Altman自身も「旧来のスケーリング」の限界を認めつつ、「新たな形のスケーリング」は続くという立場を取っているとされる [5]。この解釈では、データの壁はパラダイムシフトを強いるものの、AI開発全体の停滞を意味しない。

地政学的次元——データの壁は中国に利するか

中国AIの相対的位置

データの壁という問題が地政学的な競争に与える影響も注目される。米国のAIラボがインターネット上の英語テキストをほぼ使い尽くした場合、中国語テキストを豊富に保有する中国のAI企業には相対的な優位が生まれるだろうか [4]。

単純な推論としては、中国語高品質テキストデータは英語ほど訓練に活用されておらず、百度・アリババ・テンセント・ByteDanceといった企業が中国語インターネットの膨大なデータを活用することで、英語中心のモデルが直面するデータ枯渇問題を回避できるという見方がある。スタンフォードAIインデックスは、中国のAIモデルが2023〜2025年の間に英語ベンチマークでも急速に米国モデルに追いつきつつあることを示している [4]。

制約の非対称性と多言語データ

しかし問題はより複雑だ。まず、中国語高品質テキストも中国のAIラボによって既に大量に消費されており、データ枯渇は中国語でも遠からず発生するとみられる。次に、Huawei Ascend等の国産GPUは依然としてNvidiアのH100/H200と比べて計算効率が劣るとされ、同じデータでもより多くの時間とコストを要するという非対称性がある。

地政学的な観点からは、データの壁問題が「データの多様性と量」の競争から「データの質・アーキテクチャの革新・推論効率」の競争への移行を加速させるという見方が有力だ。この移行は、データ保有量だけでは決まらない新たな競争軸を生み出すため、単純に「中国に有利」とも「不利」とも言えない構造的変化を意味する。

注意点・展望

本稿で示した分析にはいくつかの留意点がある。まず、「データの壁」の実際の深刻度は外部から正確に把握することが困難だ。主要なAIラボは自社の訓練データ構成を公開していないため、どこまで枯渇が進んでいるかは推測の域を出ない部分がある [3]。合成データの「モデル崩壊」リスクについても、現実の訓練環境では人間データとの混合によって相当程度緩和できるとされており、純粋な理論的リスクが直ちに実用上の問題となるかは不明だ。

推論時計算とMoEアーキテクチャへのシフトは既に進行しており、「旧来のスケーリング」が終わっても「AI性能の向上」が止まるわけではないことは強調に値する。スケーリング則の終焉論は、モデル性能の進歩の終焉論ではなく、特定の開発方法論の限界を指しているに過ぎない可能性が高い [1][5]。

展望として、2026〜2028年のAI開発のトレンドは「大規模訓練ランから効率的推論・特化型モデル・AIエージェントの実用化」へのシフトとなるとみられる。この転換はAI産業の投資構造をGPU購入からソフトウェア・インフラ・エッジデバイスへとシフトさせ、Nvidia一社への依存を分散させる効果を持ちうる（AIデータセンターの電力需要については「AIデータセンターと日本の電力」を参照）。

まとめ

AIトレーニングデータの壁は、「スケーリング時代の終焉」を意味するのか、それとも「新たな形のスケーリングへの移行」に過ぎないのか——この問いに対する答えは、依然として論争中だ。

「終焉論」の根拠は明確だ。高品質インターネットテキストの事実上の枯渇、合成データのモデル崩壊リスク、最新モデルのベンチマーク向上ペースの鈍化が、旧来のスケーリング方程式の限界を示唆している [1][3]。

「継続論」の根拠もまた説得的だ。動画・科学・コードという広大なデータフロンティア、推論時計算による性能向上、MoEアーキテクチャの効率化が、異なる経路でのスケーリング継続を可能にしている [4][5][6]。

投資家・政策立案者にとって最も重要なのは、どちらが「正しい」かという二項対立ではなく、パラダイムの移行がどのような速度・形態で進行するかを見極めることだろう。AIが社会に与えるインパクトは「データの壁」の有無にかかわらず加速し続けるとみられるが、その担い手・受益者・ボトルネックは変化していく可能性が高い。

AIトレーニング・データの壁——スケーリング時代は本当に終わったのか

はじめに

データ枯渇問題の実像

高品質テキストデータはどこまで消費されたか

データの「質と量」をめぐる非対称性

合成データという「解法」の可能性と限界

AIがAIを訓練する自己強化ループ

合成データの「崩壊」リスク

テキストを超える新フロンティア

マルチモーダルデータの可能性

科学データ・専門知識データの活用

スケーリング以外の次元

推論時計算（Inference-Time Compute）

Mixture-of-Experts（MoE）アーキテクチャ

投資への含意——AIキャピタルサイクルは変曲点を迎えるか

「スケーリング終焉論」が正しければ何が起きるか

「スケーリング継続論」が正しければ

地政学的次元——データの壁は中国に利するか

中国AIの相対的位置

制約の非対称性と多言語データ

注意点・展望

まとめ

Tags

Sources

関連記事

AI投資ブームと生産性統計の「謎の乖離」— 数百兆円の設備投資がGDPデータに現れない理由

日本経済の岐路——構造的衰退か、AI時代の復活か

日本メガバンクのデジタル変革 — MUFG×OpenAIからステーブルコイン共同発行まで加速する「AI銀行」競争

最新記事

カーボンクレジット市場の「信頼性危機」と再生 — ICVCM認証4%の現実とCOP30が拓くArticle 6の新秩序

ベトナム製造業の成熟と試練 — FDI+42.9%急増とトランプ関税が問う「中国+1」モデルの持続性

米住宅市場の構造的危機 — 金利低下でも解消しないアフォーダビリティ問題