広告 機械学習

バイアスとバリアンスとは?意味やトレードオフ・分解について解説

バイアスとバリアンスのアイキャッチ画像
サル
  • バイアスとバリアンスってなに?
  • バイアスとバリアンスがトレードオフの関係?

とお悩みではないですか?

本記事では、バイアスとバリアンスのそれぞれの概要やトレードオフの関係、バイアス・バリアンス分解について解説していきます。

バイアスとバリアンスはモデルの予測性能に大きく関わる重要な概念です。

バイアス・バリアンス分解まで理解することで、適切にモデルの予測誤差を改善する要因を見つけ出せます。

本記事の信頼性

サルでもわかるデータサイエンスの運営者のプロフィール画像

こんな悩みがある方読んで欲しい

  • バイアスとバリアンスってなに?
  • バイアスとバリアンスのトレードオフの関係とは?
  • バイアス・バリアンス分解ってどう使えるの?
しょー

それでは本編です!

月額980円で学べる!

しょー

データサイエンスの復習は完ぺきにできていますか?

データサイエンスは勉強する範囲が膨大で、復習に手が回りませんよね。

そんなあなたにおすすめなのが、たった月額980円でサクッと学べるスタアカ

数分の動画でビジネスへの活用法も含めて、サクッとデータサイエンスを復習可能。

何冊も参考書を往復して復習する苦労』とはおさらばです!

サブスクなのでいつでも解約OK。手軽に始めてみませんか?

月額980円から/

スタアカはこちら

講座が毎月追加されるので今後値上がりする可能性大、今買わなきゃ損するかも!

バイアスとバリアンスとは

バイアスとバリアンスは、モデルの性能と汎化能力を把握するのに重要な概念です。

バイアスとバリアンスはトレードオフの関係にあり、適切に調整することで、モデルの予測の質や安定性を確保できます。

適切なバランスに調整するために、実務ではアンサンブル学習を用います。

アンサンブル学習について詳しく知りたい方は『アンサンブル学習とは?3つの種類や注意点までわかりやすく解説』の記事をご参照ください。

バイアスとバリアンスの定義はそれぞれ以下の通りです。

  • バイアスが高いとき:表現能力が高くない状態
  • バリアンスが高いとき:過学習の状態

それぞれ詳しく解説していきます。

バイアス:表現能力が高くない状態

バイアスとはモデルが現実のデータや現象をうまく表現できない状態のことです。

バイアスが高い状態ではモデルが単純になり、実際の値との予測の誤差が大きくなります。

モデルが単純になっていることで、データの多様性や複雑さに対応できず悪いモデルとなるのです。

例えば、簡単な直線で複雑な曲線のデータを説明しようとすると、バイアスが高くなります。

以下がバイアスが高い例です。

バイアスが高い例

直線のモデルに対してデータが散らばりすぎているため、予測の誤差が大きくなります。

そのため、バイアス高い状態になってしまうのです。

このような場合には予測精度を向上させるために別の手法を用いなくてはなりません。

バリアンス:過学習の状態

バリアンスとは、モデルがデータに過度に適合することで、新しいデータに対して正しい予測ができなくなる状態のことです。

バリアンスが高い状態では、訓練データに対して適合しすぎていることで、モデルが極端になっています。

そのため、別のデータで予測を行うと極端なモデルにデータが適合せず、思ったような精度が出なくなります。

バリアンスが高い状態は、過学習の状態であると考えることができます。

過学習について詳しく知りたい方は『過学習(Overfitting)とは?起こる原因から見分け方・対策方法までわかりやすく解説!』の記事をご参照ください。

バリアンスが高い状態を例を用いて解説していきます。

以下のようなグラフがバリアンスが高い状態の例です。

バリアンスが高い例

すべての点を通るようにモデルが訓練データに対して適合しています。

なので、他の新しいデータで試しても、モデルの式が訓練データ用に適合しているため予測精度が低くなります。

モデルを作成する時には、バリアンスを下げてどこまで新しいデータに対して予測精度が保てるかが重要です。

しょー

次にバイアスとバリアンスの関係性について解説していきます。

バイアスとバリアンスのトレードオフの関係

バイアスとバリアンスのトレードオフの関係

バイアスとバリアンスはトレードオフの関係にあります。

サル

そもそもトレードオフって?

トレードオフとは片方を増加させるともう片方が減少する現象です。

例えば、ゲームの時間と勉強の時間はトレードオフの関係にあります。

ゲームの時間を多くすると勉強の時間が減りますよね。

このような関係をトレードオフと言います。

バイアスとバリアンスについておさらいしましょう。

  • バイアスが高い:表現能力が高くない状態
  • バリアンスが高い:過学習の状態

バイアスが高い時はモデルが単純で予測精度が悪く、バリアンスが高くなると訓練データに適合しすぎていることを表します。

よって、バリアンスが高い時、バイアスを高くする(モデルを単純にする)ことでバリアンスを下げられます。

もう少し簡単に言い換えてみましょう。

モデルが複雑な時(バリアンスが高い)には、モデルを単純化する(バイアスを上げる)ことでモデルの複雑さを低下させると言えます。

つまり、バイアスとバリアンスは、

  • バイアスが高い:モデルが単純
  • バリアンスが高い:モデルが複雑

と言い換えることができ、モデルが複雑になれば、単純ではなくなるというトレードオフの関係にあります。

少し難しい考え方かもしれませんが、きちんと理解しておかなければモデルの精度を高められません。

次のバイアス・バリアンス分解はトレードオフの関係を理解して学習してください。

バイアス・バリアンス分解とは

バイアス・バリアンス分解とはモデルの予測誤差をバイアス成分とバリアンス成分、ノイズに分解する手法です。

モデルの予測精度は、モデルの予測誤差によって決まります。

しかし、モデルの予測誤差は表現能力が低いのか過学習しているのか、また、そもそもデータにノイズが含まれている可能性などさまざまな原因で生じます。

そのため、モデルの予測誤差の改善を行うにはそれぞれの影響を考慮しなくてはなりません。

バイアス・バリアンス分解を行うことで、モデルの予測誤差の構成要素を確認できるのです。

モデルの予測誤差は、以下のような式で分解できます。

\[ 予測誤差 = (\text{バイアス})^2 + \text{バリアンス} + \text{ノイズ} \]

それぞれの項について説明していきます。

  • バイアス項:予測と実際の値の誤差の数値
  • バリアンス項:どれだけ過学習状態にあるのか
  • ノイズ項:もともと必ず発生する誤差

バイアスとバリアンスは先ほどまでで説明したように、表現能力が乏しいことによる誤差と訓練データに適合しすぎることによる誤差です。

ノイズ項はもともと発生してしまう誤差のことです。

訓練データとテストデータはまったく同じデータではありませんよね。

このデータの違いによって必ず発生するノイズのことがノイズ項です。

サル

バイアス項が2乗されてるのはなんで?

バイアス項が2乗されているのは、バイアスが予測と実際の値の誤差のため、正負どちらの値も取るからです。

例えば、予測が3で実際の値が4なら、3 - 4 = -1で負の値になってしまいます。

そこで、2乗することで、どの値も正の値にするのです。

このように、バイアス・バリアンス分解を行うことで、誤差が起こる要因を見つけ出せます。

なので、モデルを改善する時にどの項を改善すべきかを判断する材料となるのです。

まとめ

バイアスとバリアンスは、モデルの性能において重要な概念です。

バイアスとバリアンスはそれぞれ以下のように考えられます。

  • バイアスが高いとき:表現能力が高くない状態
  • バリアンスが高いとき:過学習の状態

バイアスが高いと、そもそも訓練データに対して予測精度が低く、モデルとしては不十分な状態になります。

また、バリアンスが高いと過学習になってしまい、別のデータに対する予測精度が低下します。

適切なバイアスとバリアンスのバランスを見つけることが、モデルの精度を保つうえで重要です。

バイアスとバリアンスはトレードオフの関係にあり、以下のような関係にあります。

  • バイアスが高い:モデルが単純
  • バリアンスが高い:モデルが複雑

モデルが単純なときにバイアスが高くなり、複雑にする(バリアンスを高くする)とバイアスが低くなります。

このように一方を高くするともう一方が低くなることを覚えておきましょう。

また、バイアスとバリアンス、ノイズの3つの項を用いることで、モデルの予測誤差を式に表せました。

この式が、バイアス・バリアンス分解です。

バイアス・バリアンス分解を行うことで、予測誤差が起こる要因を分析できます。

なので、予測誤差を改善したい場合、バイアス・バリアンス分解を行うことをおすすめします。

あなたはどこかで、

「機械学習の勉強がなかなか上手く進まない...」
「勉強しても全体像が見えてこない...」
「本当にデータサイエンティストになれるのかな...」

と不安に感じてはいませんか?

僕も勉強しながら同じような悩みを常に持っていました。

ですが、そんな僕の悩みをまるっと解決してくれたサービスが『スタアカ』です。

サル

データサイエンスを学べるサービスなんて高額なんでしょ?

データサイエンスを学ぶためにもう高額なお金を払う必要はありません。

僕が利用している『スタアカ』のライトプランは月額980円で動画見放題のコスパ最強サブスクです。

「ちょっと興味がある」という方は、受講した感想も載せている記事をご覧ください。

スタアカ紹介記事

たった月1000円で、もう二度と独学で悩まずに済みます。

正直、「就職・転職までサポートしてほしい」という方にはおすすめできません。

ですが、「勉強の道しるべが欲しい!」「学習を効率的に進めたい」という方にはこの上ないサブスクです。

データサイエンスを学びたい方に最強のサブスク『スタアカ』を気軽に始めてみませんか?

\月額たった980円!/

スタアカはこちら

講座が毎月追加されるので今後値上がりする可能性大、今が買いどき!

ブログランキング・にほんブログ村へ
人気ブログランキングでフォロー
サルでもわかるデータサイエンスのブログアイキャッチ画像
運営者の画像

しょー

地方公立大学でデータサイエンスについて学んでいる大学3年生のしょーです。

これまで、大学で学んできたこと、個人的に調べてきた情報を、「大学の先輩」的なポジションから大学生をサポートしたいと考えております。

何か分からないことがあれば、X(Twitter)のDMやブログ内のお問い合わせにてご相談ください。

また、記事作成依頼やサービスの体験依頼も承っております。 お気軽にご相談ください。

-機械学習
-,