結論ファースト(TL;DR)

バックテストで綺麗な右肩上がりを見たとき、人は「発見した」と感じます。しかし統計はもっと冷酷です。十分な回数を試せば、まったく無意味な戦略でも、運だけで見栄えの良い成績が出てしまう。この「自分を騙す確率」を数値で抑え込むのが、過剰最適化の検定です。

なぜ「試行回数」が問題なのか

コインを何枚も投げれば、たまたま表が続く1枚は必ず出ます。戦略も同じで、パラメータを11通り試せば、本当はエッジゼロでも、運だけで最良が年率Sharpe 0.39に届く——これが本研究で計算した基準値(SR*)です。しかも実際の試行回数は表に出る11より遥かに多く(人間が頭の中で却下した案も含む)、補正はさらに厳しくなります。

Deflated Sharpe Ratio(DSR)

DSRは、López de Prado が提案した指標で、「試行回数」と「リターン分布の歪み・尖り」を考慮して、観測されたSharpeが偶然でない確からしさ(統計的な確率)を返します。本研究の最良戦略(年率Sharpe 0.57)のDSRは0.757。一般に0.95以上で「統計的に有意」とされるので、結論は——

0.76DSR(最良戦略・<0.95)
0.39運だけで届くSharpe(SR*)
0.44PBO(過剰最適化確率)

つまり「たぶん本物だが、統計的に確実とまでは言えない」。派手に断言しないこの結論こそ、誠実な検証の到達点です。

PBO:最適化は無意味だった

もう一つの検定が PBO(Probability of Backtest Overfitting)。CSCVという交差検証で、「インサンプルで最良だった設定が、アウトオブサンプルでは中央値以下に落ちる確率」を測ります。

結果は PBO = 0.44、インサンプル最良のアウトサンプル順位 = 0.50(ちょうど中央)。これは「単一のルックバックを最適化しても、将来の成績はコイン投げと変わらない」ことを意味します。

だからアンサンブルを既定にした。 「一番良かったパラメータ」を選ぶのではなく、最初から複数の時間軸(63/126/252日)を平均する——この設計判断は、好みではなく、過剰最適化検定の観点から妥当だったことが支持されました。単一の最適解を探す行為そのものが罠だったのです。

では、なぜ捨てなかったのか

DSRが0.95に届かないなら、エッジを棄却すべきでしょうか。ここは慎重に判断しました。トレンド/モメンタムは100年・多資産で文書化された経済プレミアムであり、本検証でも1985–2024・複数ユニバースで一貫してプラス。DSRは「ゼロから何かを発掘する」前提では厳しすぎる側面があります。

総合判断は「たぶん本物だが控えめ」。期待Sharpeは見出しの0.5でなく、補正後 ~0.3–0.4 で置く。これが、自分を騙さないための線引きでした。

すべての投資家への持ち帰り

あなたが厳密にDSRを計算する必要はありません。でも考え方は必須です。バックテストやSNSで見る華やかな成績の裏で、「何パターン試して、その一番良いものを見せているのか」を必ず想像してください。試した数だけ、その数値は実際より良く見えています。

よくある質問(FAQ)

Deflated Sharpe Ratio(DSR)とは?

試行回数やリターン分布の歪みを考慮して、Sharpe比が偶然でない確からしさを評価する統計指標です。0.95以上で「統計的に有意」。本研究の最良戦略はDSR0.76でした。

PBO(過剰最適化確率)とは?

インサンプルで最良だった設定が、アウトサンプルで中央値以下に落ちる確率です。0.5に近いほど「最適化が無意味=過剰最適化」を意味します。本研究は0.44でした。

個人投資家もこの検定をすべき?

厳密な計算は不要でも、考え方は必須です。「何パターン試したか」を数え、見出しの数値をそのまま信じないこと。多くを試して一番を選んだなら、その成績は実際よりかなり良く見えています。