収入UPの転職を目指す方へ

回帰分析とは?分析の種類や方法を初心者にもわかりやすく解説!

  • 2023/03/22
what_is_regression_analysis.jpg

Excelやデータ分析でよく目にする、「回帰分析」。どのような分析手法で、どのようなことがわかるのかご存じでしょうか。今回は回帰分析について、初心者の方にもわかりやすいようにご紹介します。

AIちゃん
AIちゃん

回帰分析ってどんなことが分析できるんだろう?

目次

回帰分析とは?

回帰分析とは、データからわかる結果を客観的に説明する手法のことです。データからどのような傾向があるのかを数値化し、図に直線を引くことで可視化することもできます。

気温と一世帯あたりのアイスクリームへの支出額の関係を例に挙げて考えてみましょう。以下の図は2つの関係を散布図にしたものです。この図からどのようなことが読み取れるのでしょうか。

regression_scatter.png

一つの結論として、気温が上がるとアイスクリームの支出額が上がる、ということが挙げられます。しかしながら、このままだと支出がどれだけ上がるのかを感覚で捉えるしかないため、散布図を見る人によって受け取り方にばらつきが出てしまいます。

この曖昧な解釈を数値化するのが回帰分析です。下の図は、上記の図に直線を引き、その数式を表示したものです。その結果、気温が1℃上がるごとに、アイスクリームの支出額が37.9円上がるという、誰が見ても同じ解釈をすることができました。

regression_regression.png

データ出典:気象庁日本アイスクリーム協会

説明変数・目的変数とは?

回帰分析には、変数として「説明変数」と「目的変数」の2つの用語が多く出てきます。

説明変数とは、結果を説明する変数を指します。例えば、アイスクリームと気温の関係にすると、アイスクリームの売り上げの変化を気温で説明することができる、ということです。説明変数はほかにも、独立変数と呼ばれることもあります。
目的変数とは、得たい結果、分析する目的としての変数のことです。同じくアイスクリームを例に挙げると、気温の上昇によるアイスの売り上げの変化を知ることを目的としているため、アイスの売り上げが目的変数となります。目的関数はほかにも、従属変数、被説明変数などと呼ばれます。

相関係数との違い

データ分析を少し学んだことがあると、相関係数という言葉を聞いたことがあるのではないでしょうか。相関係数は、2つの値がどれだけ相関しているかを示すものです。ここから導き出せる結論は相関の強さでしかないため、説明変数が目的変数に与える影響はわかりません。

一方回帰係数は、説明変数の1単位の上昇が目的変数に与える影響を示していて、基本的には係数に範囲はありません。

ビジネスなどでデータ分析する場合は、「どれだけコストをかけると、どれだけ利益がでるか」など、原因が結果に与える影響を知ることを目的としていることが多いため、回帰分析を使った分析が効果的です。

最小二乗法(OLS)

regression_ols2.png

最小二乗法とは、点と直線、すなわちデータと予測の差である、残差(residuals)を最小にすることで、正確な予測モデルを作るものです。その際の計算に、残差の二乗の合計(残差二乗和)を最小にする計算を行うため、最小二乗法(Ordinary Least Squares)と呼ばれます。上の図の、赤い直線と黒い点の間の距離が最も小さくなる直線を引くイメージです。

重回帰分析とは?

上の図で紹介したアイスクリームと気温の関係では、アイスクリームの売上増加を説明するのは気温だけでした。
一方、現実の因果関係を分析する際、必ずしも原因が一つだけとは限りません。たとえば、夏の方がお菓子全体の売上が上がっている可能性など、他の原因が多くあることがほとんどです。

そういった場合、有効なのが重回帰分析です。重回帰分析では複数の変数を説明変数として計算することができます。
その場合、2次元のグラフには落とし込めないため、回帰表などを利用することが多くあります。

regression_rsq.png

決定係数とは、回帰モデルがどれほど元のデータに当てはまるかを計算したものです。通常の決定係数は0~1の間に分布し、1に近いほど当てはまっています。たとえば、決定係数が0.82だった場合、アイスクリームへの支出額の82%が気温で説明できるということになります。また、重回帰分析では「補正R2(自由度調整済み決定係数)」を参照することで、変数の数によるバイアスを除いて結果を考察することができます。

ロジスティック回帰分析とは?

ロジスティック回帰分析は、一般化線形モデルのひとつで、データ分析で多く使われる手法です。回帰線を職戦で表す線形モデルとは異なり、曲線で表すのが特徴で、1と0の2つの値を目的変数とするときに使われます。たとえば、合格や不合格、メールの開封と未開封など、YES/NOで判断できる場合が当てはまります。

線形回帰モデル(直線など)の場合、説明変数の1単位上昇が目的変数に与える影響を計算するのに対し、ロジスティック回帰分析の場合は1単位上昇が目的変数が1になる確率がどれだけ上がるかを計算することができます。そのため、「勉強時間が1時間増えると、合格に0.1%近づく」のような形で結論を出すことができます。

実際に回帰分析をするには?

回帰分析をするには、ツールなどを使うと簡単に結果を出すことができます。

  • Excel
  • Pythonなどのプログラミング言語

少量のデータで単純な分析をする場合は、Excelでも十分可能です。しかし、ロジスティック回帰分析やほかにも複雑なデータの場合だとExcelでは対応できないほか、大量のデータ(ビッグデータ)を扱うことにも適していません。

一方Pythonの場合は、ライブラリを使用することで回帰分析やさらに複雑な分析、グラフの作成なども簡単に実現できます。さらには、機械学習やAIの開発にまで幅を広げることも可能です。だからこそ、データ分析にはPythonなどのプログラミング言語を使うことをおすすめします。

関連記事

AI(人工知能)やビッグデータを活用した「データアナリティクス」をご紹介

おわりに

回帰分析は、データ分析の基礎的な手法のひとつではありますが、ビジネスでも多く活用されています。Pythonを学び発展的な知識を身につけることで、データサイエンス人材として活躍することが期待できる分野でもあります。

インターネット・アカデミーでは、Python講座はもちろん、データ分析に特化した「データ分析講座」も開講しています。Pythonの基本からデータ整理・データの可視化、そしてビジネスで使える仮説検証を学ぶことができます。ご興味のある方は、無料カウンセリングにてぜひご相談ください。

データのビジネス活用ができる実践スキルを習得

データ分析講座

デジタルデータの増大は著しく、企業としてもビジネスにデータを利活用したいと考える企業は増えています。本講座では、Pythonのライブラリを使って、データ分析に必要な基礎スキルを学びながら、データの収集から加工、可視化を行うような実践的なノウハウについて学びます。

相談してコースを選びたい方はカウンセラーに無料で相談

カウンセラーに無料で相談

※無理な勧誘は一切ありません

無料で相談してみる