数理・統計(G検定シラバス・大項目8)

サイト内で一部広告が表示されます

数理・統計(G検定シラバス・大項目8)

【0030】数理・統計

学習目標:機械学習を行う上で最適化は重要である。最適化に必要な必要な数学基礎知識や微分を理解する。また機械学習で必要となる統計学基礎も理解する。

学習項目

  • 統計検定3級程度の基礎的な知識
詳細キーワード

(統計検定3級程度の基礎的キーワードと計算問題)

基礎的キーワードの例:

  1. 平均(Mean) – データセット内の値の合計をデータの数で割った値です。平均は、データセットの中心的な値を表します。
  2. 中央値(Median) – データセットを小さい順に並べたときに、中央に位置する値です。データの個数が奇数の場合は中央の値、偶数の場合は中央の2つの値の平均を取ります。
  3. 最頻値(Mode) – データセットで最も多く出現する値です。データの分布の山の位置を表します。
  4. 分散(Variance) – データの散らばり具合を数値化したもので、平均からの偏差の二乗の平均です。分散が大きいほど、データの散らばりが大きいことを示します。
  5. 標準偏差(Standard Deviation) – 分散の正の平方根で、データの散らばり具合を示します。標準偏差が大きいほど、データの散らばりが大きいことを示します。
  6. 確率(Probability) – ある事象が発生する可能性の度合いを0から1の間の数値で表したものです。
  7. 正規分布(Normal Distribution) – データの分布が左右対称で、釣鐘型のグラフになる統計的な分布です。自然界や社会現象に多く見られる分布です。
  8. 仮説検定(Hypothesis Testing) – ある仮説が正しいかどうかを統計的に評価する方法です。帰無仮説と対立仮説を立て、有意水準を設定して検定を行います。
  9. 相関係数(Correlation Coefficient) – 二つの変量の間の線形的な関係の強さを-1から1の間の数値で表す指標です。1に近いほど正の相関が強く、-1に近いほど負の相関が強いことを示します。
  10. 回帰分析(Regression Analysis) – 変数間の関係を数式で表し、その関係性を用いて予測や推定を行う分析手法です。機械学習の重回帰分析や線形回帰などで用いられます。
  11. 順位(Rank) – データを小さい順や大きい順に並べたときの位置のことです。順位は、データの相対的な大きさを表します。
  12. 四分位数(Quartile) – データを小さい順に並べたときに、データ全体を4つの等しい部分に分ける3つの値のことです。第1四分位数(Q1)、第2四分位数(中央値)、第3四分位数(Q3)があります。
  13. 箱ひげ図(Box-and-Whisker Plot) – データの分布を視覚的に表現する図で、最小値、第1四分位数、中央値、第3四分位数、最大値を用いて作成します。
  14. 母集団と標本(Population and Sample) – 母集団は研究の対象となる全てのデータ、標本は母集団から抽出された一部のデータを指します。
  15. 無作為抽出(Random Sampling) – 母集団から標本を選ぶ際に、各データが等確率で選ばれる方法です。これにより、標本が母集団を代表するようにします。
  16. 統計的有意性(Statistical Significance) – 観測された結果が、単なる偶然ではなく、真の差異や関係を反映している可能性が高いことを示します。
  17. 帰無仮説と対立仮説(Null and Alternative Hypothesis) – 帰無仮説は、研究者が否定しようとする仮説、対立仮説は、研究者が証明しようとする仮説です。
  18. 第1種の過誤と第2種の過誤(Type I and Type II Error) – 第1種の過誤は、帰無仮説が真であるのに棄却してしまうこと、第2種の過誤は、帰無仮説が偽であるのに棄却しないことです。

計算問題の例:

  • 平均値の計算:与えられたデータセットの平均値を求める。例えば、{2, 4, 6, 8, 10}の平均値は(2 + 4 + 6 + 8 + 10) ÷ 5 = 6となります。
  • 標準偏差の計算:データの分散を求め、その平方根を計算する。例えば、{2, 4, 6, 8, 10}の分散は((2 – 6)^2 + (4 – 6)^2 + (6 – 6)^2 + (8 – 6)^2 + (10 – 6)^2) ÷ 5 = 8となり、標準偏差は√8 ≈ 2.83となります。
  • 確率の問題:特定の条件の下での事象の発生確率を求める。例えば、公平なサイコロを1回振って偶数の目が出る確率は、{2, 4, 6}の3つの場合が該当するため、3 ÷ 6 = 1/2 = 0.5となります。
  • 正規分布を用いた確率計算:正規分布表またはZスコアを使用して、特定の範囲内にデータが存在する確率を求める。例えば、平均50、標準偏差10の正規分布において、60以上の値を取る確率は、Zスコア = (60 – 50) ÷ 10 = 1より、正規分布表を用いて求めることができます。

以上が、統計検定3級程度の基礎的な知識です。これらの概念は、機械学習を学ぶ上で非常に重要な基礎知識となります。

数理・統計

G検定では、機械学習において最適化は重要であり、その理解が必要不可欠。

最適化に必要な数学基礎知識として、微分、勾配、ヘッセ行列などを理解する必要がある。

機械学習で必要となる統計学の基礎として、平均、分散、相関係数、仮説検定、回帰分析などを理解しておく必要がある。

補足:

統計検定3級程度の基礎的な知識があれば、より高度な統計学の理解につながる。

最適化の手法としては、非線形最適化、2次計画、最急降下法、KKT条件などの理解も重要。

これらの補足事項を加えることで、より体系的な学習につながる。