【超基本】データー分析をする上で必要な知識の振り返り

数学

データー分析とは何か?

データー分析とは何故あるの?

世界にはデーターがたくさんあります。例えば天気予報を見てみましょう。昨日晴れ、今日は曇りだったとします。さて、明日の天気は何でしょうか?

昨日/今日 天気

しかしこれでは予測するのは極めて困難です。ですが、そこに雲の動きを加えてみましょう。

昨夜は観測地域に雲がギリギリかかっておらず、今日は観測地域に雲がかかっていました。この雲はそこまで大きくありませんでした。

昨日から今日にかけて雲が進んだ距離を表す

昨日と今日で雲が進んだ距離を考える明日は晴れになりそうです。

これで明日の天気を予想出来ました!!

明日の天気を予想する為に様座なデーターを使い選択する事で天気予報をすることが出来ました。

昨日と今日の天気の動きから、明日の雲の動きを特定した結果、明日の天気

これを基本により多くのデーターで、より細かく分析したらまさしく「データー分析」です。このデーターが大量になればなるほど何のデーターを使い、どう解析するのか実施する必要があります。

学ぶ意味

Qデーター分析を学ぶ事でなにが出来るようになりますか?

A答えは、適切な情報の取捨選択に繋がったり、無関係なデーターを分析することによって規則性を見つけ、無関係なデーターに意味を持たせる事が出来ます。しかしこれらはデーター分析によって出来る事の一部です。

さっそくデーター分析について見てみましょう!!

小・中・高で習ってたデーター分析

データー

ヒストグラム・共布図

1①①

①はデーターをヒストグラムにして表した図で、②〇は共布図を表した図です

言葉の解説

階級

階級とはデーターをある一定の規則によって分けた時、分けたそれぞれを「階級」と定義します。

例えば、漫画と小説が混ざった本棚があった時、「漫画と小説を分けたい!」と思って漫画ボックスと小説ボックスを作り、漫画ボックスの上に小説ボックスを置きました。この漫画ボックスと小説ボックスを階級と呼びます。

階級値

階級の範囲を平均で割った値を階級値と呼びます

例えば漫画ボックスをちょうど二つのボックスに分けたボックスを度数と呼びます。

度数

全体の値のうち、その階級値に含まれている度合いです。

例えば、漫画ボックスと小説ボックスに何冊の本が含まれているかを示します。

相対度数

まず言葉を知る為に「相対」とは何か調べてみましょう。

相対

それ単独にでなく、他と関係づけて捉えること。

Oxford Languages and Google

つまり「恋愛漫画」が2冊「少年漫画」が2冊あったとします。当然ながらどちらも漫画だと関係づけられます。この事を相対と呼びます。

相対度数

ある階級値の度数÷全体の度数をした数です。

例えば漫画ボックスの中から恋愛漫画を取り出して、「恋愛ボックス」を作ったとします。

「恋愛ボックス」÷「漫画ボックス」をした値が相対度数です。

累積度数

「累積」とあるように直前までの相対度数を足した値です。

例えば、漫画ボックスを上から順に「恋愛ボックス」、「冒険ボックス」、「感動ボックス」、「コメディボックス」に分けたとします。

図の通りに足した値になります。

累積相対度数

図の通り、累積度数を「%表示」に直した値の事を累積相対度数と呼びます。

データーを分析しよう

範囲

「一番大きい値」から「一番小さい値」を引いた値を範囲と呼びます。

例えば、1から10までの数があったとします。

1,2,3,4,5,6,7,8,9,10

これらから「10-1=9」をした数が範囲です。

平均

全部の値を足して、値の数だけ割り算すること。

windows10の電卓アプリより一部

Windows で電卓を使用する - Microsoft サポート
Windows の電卓アプリの新機能を確認します。

中央値

小さい値から大きい値に徐々に値を大きくしていった時、そのちょうど中央になる値を中央値と呼びます。

四分位範囲・四分位偏差 

まず、「四分位範囲」を見てみましょう。1から4までの数字があったとします。

中央値=2を基準にして中央値より左側にある値=1,2を更に2分割した値をQ1と呼びます。同様に中央値=2を基準にして右側にある値=3,4を2分割した値をQ3と呼びます。

Q1・Q3を計算で求める

数が膨大になるほど、計算で求める必要があります。そこで、計算で求めてみましょう

まず、最初のデーターは仲間外れにして、その他のデーターをQ1=0.25倍 Q2=0.75倍してQ1とQ3を求める事が出来ます。

その後は、小数部分に着目して見ていきましょう。

ここでは1から4の数字を元に、Q1をまず求めていきます。

先ほどの計算で1.75と出ました。ここで、小数部分である0.75に着目していきましょう。

0.75番目がQ3である事を示しています。なので2番目と3番目の数を足して0.25倍で掛け算した値を求めた結果として

整数部分+求めた結果=Q1

をする事で答えを求める事が出来ます。同様にQ3を求める事が出来ます。

分散

分散とは?

分散とは「分」「散」とあるように全体の散らばり具合を示します。すなわち分散が大きくなればなるほど「値が散らばっている」といえます。

例えば、色鉛筆があったとします。

「赤、青、緑」が含まれている色鉛筆=3とします

「赤、紅赤、オレンジ、黄色、、、、」と24色の色が含まれている色鉛筆=24とします

後者の方が数字が大きいので色がたくさん含まれているで値が大きくなりました。

分散も同じように値が大きくなればなるほど「種類」すなわち値がより散らばっていると言えます。

平均からどのくらい離れているかを示す=散らばりを示す という方程式が成り立ちます。

何故2乗しているの?

答えは「マイナス」が答えに出てほしくないからです。現実世界に物体がマイナスになる事がありません。例えば、リンゴがー1個事実はないからです。

標準偏差

標準偏差とは、分散にルートを取った値を示します。

共分散

共分散とは、「共」とついているように2種類のデータの分散を求める事が出来ます。

相関係数

r=相関係数となされる事が多いです。またrは必ずー1以上1以下になります。rが1に近づくほど、正の相関があるといえます。正の相関があるほど、二つのデーターが同調します。

片方の値が大きくなればもう片方のデーターも大きくなるのです。

グラフ

回帰曲線

回帰曲線とは2つデーターをグラフ化した時、大まかにどのような式で表せられるか式にした事示します。

図の通り、大まかにどの様な式に従っているかを現した図です。一次関数の式で表す事が出来ます。

回帰曲線を求める式は、傾きは「相関係数」とは違います。

共布図

散布図とは「散布」とあるように、データの散らばり具合を可視化したグラフです。データから特に計算することなくプロット(当てはまる箇所に点で書き留める)するだけなので簡単に作る事が出来ますまた回帰曲線とも組み合わせがよく、散布図+回帰曲線で式を表す事が多いです。

終わりに

ここで書いたデータ分析はほんの一部です。是非色々調べてみると驚きの発見があるかも知れません。

関連広告
数学
Share😄