機械学習の具体的手法(G検定シラバス・大項目4)

サイト内で一部広告が表示されます

機械学習の具体的手法(G検定シラバス・大項目4)

【0007】教師あり学習

学習目標:教師あり学習に用いられる学習モデルを理解する

学習項目:

  • 線形回帰
  • ロジスティック回帰
  • ランダムフォレスト
  • ブースティング
  • サポートベクターマシン (SVM)
  • ニューラルネットワーク
  • 自己回帰モデル (AR)
詳細キーワード:

(分類問題、回帰問題、半教師あり学習、ラッソ回帰、リッジ回帰、決定木、アンサンブル学習、バギング、勾配ブースティング、ブートストラップサンプリング、マージン最大化、カーネル、カーネルトリック、単純パーセプトロン、多層パーセプトロン、活性化関数 、シグモイド関数、ソフトマックス関数、誤差逆伝播法、ベクトル自己回帰モデル (VARモデル)、隠れ層、疑似相関、重回帰分析、AdaBoost、多クラス分類、プルーニング)

線形回帰

線形回帰は、教師あり学習の回帰問題に用いられる手法の一つです。目的変数と説明変数の間に線形の関係を仮定し、最小二乗法などを用いてモデルのパラメータを推定します。ラッソ回帰リッジ回帰は、線形回帰に正則化項を加えることで、過学習を防ぐ手法です。

補足:

  • 回帰問題:連続値をとる目的変数を予測する問題。
  • ラッソ回帰(Least Absolute Shrinkage and Selection Operator Regression):L1正則化を用いた線形回帰。
  • リッジ回帰(Ridge Regression):L2正則化を用いた線形回帰。

ロジスティック回帰

ロジスティック回帰は、教師あり学習の分類問題に用いられる手法の一つです。目的変数が0または1の値をとる二値分類問題に対して、ロジスティック関数を用いて予測確率を計算します。多クラス分類への拡張も可能です。

補足:

  • 分類問題:カテゴリー値をとる目的変数を予測する問題。
  • 多クラス分類:3つ以上のカテゴリーを持つ分類問題。

ランダムフォレスト

ランダムフォレストは、決定木を用いたアンサンブル学習の一種です。複数の決定木を訓練データからバギングによって生成し、それらの予測を多数決や平均によって集約することで、高い精度を実現します。

補足:

  • 決定木:データを分割し、木構造でデータの分類や回帰を行うモデル。
  • アンサンブル学習:複数の弱い学習器を組み合わせることで、強い学習器を構成する手法。
  • バギング(Bootstrap Aggregating):訓練データから重複を許してサンプリングを行い、複数のモデルを構築する手法。

ブースティング

ブースティングは、複数の弱い学習器を順次的に構築し、それらを組み合わせることで高精度な予測を行うアンサンブル学習の一種です。代表的な手法として、AdaBoost勾配ブースティングがあります。

補足:

  • AdaBoost(Adaptive Boosting):弱い学習器に重みを付けながら順次的に学習を行い、最終的に重み付き多数決で予測を行う手法。
  • 勾配ブースティング(Gradient Boosting):勾配降下法を用いて、弱い学習器を順次的に構築する手法。

サポートベクターマシン (SVM)

サポートベクターマシン (SVM)は、教師あり学習の分類問題に用いられる手法の一つです。データを高次元空間に写像し、クラス間のマージンを最大化する超平面を求めることで、高い汎化性能を実現します。カーネル関数を用いることで、非線形の分離面を構成することも可能です。

補足:

  • マージン:クラス間の境界と最も近い訓練データ点までの距離。
  • カーネル関数:データを高次元空間に写像する関数。
  • カーネルトリック:カーネル関数を用いることで、高次元空間での計算を陽に行わずに実現する手法。

ニューラルネットワーク

ニューラルネットワークは、人間の脳の神経回路を模倣した機械学習モデルです。単純パーセプトロン多層パーセプトロンなどがあります。ニューラルネットワークは、活性化関数を用いて非線形の関係を表現し、誤差逆伝播法によってパラメータを学習します。

補足:

  • 単純パーセプトロン:1つの出力層を持つニューラルネットワーク。
  • 多層パーセプトロン:複数の隠れ層を持つニューラルネットワーク。
  • 活性化関数:ニューロンの出力を非線形に変換する関数(シグモイド関数ソフトマックス関数など)。
  • 誤差逆伝播法(Backpropagation):ニューラルネットワークの重みを調整する学習アルゴリズム。

自己回帰モデル (AR)

自己回帰モデル (AR)は、時系列データの分析に用いられるモデルの一つです。過去の観測値を用いて、現在の観測値を予測します。ARモデルを多変量に拡張したものがベクトル自己回帰モデル (VARモデル)です。

補足:

  • 疑似相関:時系列データにおいて、変数間に直接の関係がないにもかかわらず、相関が観測される現象。
  • 重回帰分析:複数の説明変数を用いて目的変数を予測する手法。

教師あり学習

G検定では、教師あり学習に用いられる様々な学習モデルについて理解しておく必要があります。線形回帰、ロジスティック回帰、ランダムフォレスト、ブースティング、SVM、ニューラルネットワーク、自己回帰モデルなど、それぞれの手法の特徴と違いを把握することが重要です。

また、分類問題と回帰問題の違い、正則化の意味、アンサンブル学習の利点などについても理解を深めておきましょう。

【0008】教師なし学習

学習目標:教師なし学習の基本的な理論を理解する

学習項目:

  • k-means 法
  • ウォード法
  • 主成分分析 (PCA)
  • 協調フィルタリング
  • トピックモデル
詳細キーワード:

(クラスタリング、クラスタ分析、レコメンデーション、デンドログラム(樹形図)、特異値分解 (SVD)、多次元尺度構成法、t-SNE、コールドスタート問題、コンテンツベースフィルタリング、潜在的ディリクレ配分法(LDA)、次元削減、次元圧縮)

k-means 法

k-means 法は、教師なし学習の代表的なクラスタリング手法の一つです。データを k 個のクラスタに分割することを目的とし、各データ点とクラスタ中心との距離の総和が最小になるようにクラスタを形成します。

補足:

  • クラスタリング:データを類似性に基づいてグループ化する手法。
  • クラスタ分析:クラスタリングの結果を分析し、データの構造を理解する手法。

ウォード法

ウォード法は、階層的クラスタリングの一種で、クラスタ間の分散を最小化するように逐次的にクラスタを結合していく手法です。クラスタリングの結果はデンドログラム(樹形図)で表現されます。

補足:

  • デンドログラム(樹形図):階層的クラスタリングの結果を木構造で表現した図。

主成分分析 (PCA)

主成分分析 (PCA)は、教師なし学習の次元削減手法の一つです。データの分散が最大となる方向に新しい座標軸を設定し、元のデータを低次元空間に射影します。特異値分解 (SVD)を用いて計算されます。

補足:

  • 次元削減:高次元のデータを低次元に変換する手法。
  • 次元圧縮:次元削減の一種で、データの損失を最小限に抑えながら次元を減らす手法。
  • 特異値分解 (SVD):行列を特異値と特異ベクトルに分解する手法。
  • 多次元尺度構成法(Multi-Dimensional Scaling):データ間の距離を保持しながら次元削減を行う手法。
  • t-SNE(t-Distributed Stochastic Neighbor Embedding):高次元データを2次元または3次元に可視化する手法。

協調フィルタリング

協調フィルタリングは、ユーザの嗜好や行動履歴に基づいて、商品やサービスを推薦するレコメンデーション手法の一つです。ユーザ間の類似性や商品間の類似性を利用して、未知の評価値を予測します。コールドスタート問題への対処が課題の一つです。

補足:

  • レコメンデーション:ユーザの嗜好に合わせて商品やサービスを推薦する手法。
  • コールドスタート問題:新しいユーザや新しい商品に対して、十分な情報がない状態で推薦を行う際の問題。
  • コンテンツベースフィルタリング:商品の内容や特徴に基づいて推薦を行う手法。

トピックモデル

トピックモデルは、教師なし学習の一種で、文書集合からトピック(話題)を抽出するための確率的なモデルです。代表的な手法として、潜在的ディリクレ配分法 (LDA)があります。文書の潜在的な意味構造を明らかにすることができます。

補足:

  • 潜在的ディリクレ配分法 (LDA):文書集合から潜在的なトピックを抽出する確率的なモデル。

教師なし学習

G検定では、教師なし学習の基本的な理論について理解しておく必要があります。k-means法、ウォード法、主成分分析、協調フィルタリング、トピックモデルなど、それぞれの手法の特徴と違いを把握することが重要です。

また、クラスタリングの目的、次元削減の意義、レコメンデーションシステムの課題などについても理解を深めておきましょう。

【0009】強化学習

学習目標:強化学習の基本的な理論を理解する

学習項目:

  • バンディットアルゴリズム
  • マルコフ決定過程モデル
  • 価値関数
  • 方策勾配
詳細キーワード:

(割引率、ε-greedy 方策、UCB 方策、マルコフ性、状態価値関数、行動価値関数、Q値、Q学習、REINFORCE、方策勾配法、Actor-Critic、A3C)

バンディットアルゴリズム

バンディットアルゴリズムは、複数のアームを持つスロットマシン(バンディット)で最適なアームを選ぶ問題を扱う強化学習の一種です。代表的な手法として、ε-greedy 方策UCB 方策などがあります。

補足:

  • ε-greedy 方策:確率εでランダムに行動を選択し、確率1-εで現在の最適行動を選択する方策。
  • UCB 方策(Upper Confidence Bound):不確実性を考慮しながら、報酬の期待値が高い行動を選択する方策。

マルコフ決定過程モデル

マルコフ決定過程モデルは、強化学習の理論的基礎となるモデルです。エージェントが環境の状態を観測し、行動を選択することで、次の状態と報酬が確率的に決定されます。このとき、次の状態が現在の状態にのみ依存する性質をマルコフ性と呼びます。

補足:

  • マルコフ性:次の状態が現在の状態にのみ依存し、過去の状態に依存しない性質。

価値関数

価値関数は、強化学習において状態や行動の価値を表す関数です。状態価値関数は各状態の価値を、行動価値関数は各状態における各行動の価値を表します。行動価値関数はQ値とも呼ばれ、Q学習などの手法で用いられます。

補足:

  • 状態価値関数:各状態における将来の報酬の期待値を表す関数。
  • 行動価値関数:各状態における各行動の価値を表す関数。
  • Q値:行動価値関数の値。
  • Q学習:行動価値関数を直接推定し、最適方策を求める手法。

方策勾配

方策勾配は、方策を直接最適化する強化学習の手法です。REINFORCEアルゴリズムやActor-Critic手法などがあります。方策勾配法では、方策のパラメータを報酬の期待値が最大になるように更新します。

補足:

  • REINFORCE:方策勾配法の一種で、Monte Carlo法を用いて方策を更新する手法。
  • 方策勾配法:方策を直接最適化する強化学習の手法。
  • Actor-Critic:方策(Actor)と価値関数(Critic)を同時に学習する手法。
  • A3C(Asynchronous Advantage Actor-Critic):Actor-Criticを並列化した手法。

強化学習

G検定では、強化学習の基本的な理論について理解しておく必要があります。バンディットアルゴリズム、マルコフ決定過程モデル、価値関数、方策勾配など、それぞれの概念の特徴と違いを把握することが重要です。

また、探索と活用のトレードオフ、マルコフ性の意味、価値関数の役割、方策勾配法の利点などについても理解を深めておきましょう。

【0010】モデルの評価

学習目標:学習されたモデルの精度の評価方法と評価指標を理解する

学習項目:

  • 正解率・適合率・再現率・F 値
  • ROC 曲線と AUC
  • モデルの解釈
  • モデルの選択と情報量
詳細キーワード:

(交差検証、ホールドアウト検証、k- 分割交差検証、混同行列、過学習、未学習、正則化、L0 正則化、L1 正則化、L2 正則化、ラッソ回帰、リッジ回帰、LIME、SHAP、オッカムの剃刀、赤池情報量基準 (AIC)、汎化性能、平均二乗誤差、偽陽性-偽陰性、第一種の過誤-第二種の過誤、訓練誤差、汎化誤差、学習率、誤差関数)

正解率・適合率・再現率・F 値

機械学習モデルの評価指標として、正解率適合率再現率F 値などがあります。正解率は全体の正解割合を、適合率は予測が正である場合の正解割合を、再現率は正解が正である場合の予測割合を表します。F 値は適合率と再現率の調和平均です。

補足:

  • 混同行列:モデルの予測結果と実際の正解を比較した表。
  • 偽陽性(False Positive):実際は陰性であるが、モデルが陽性と予測した場合。
  • 偽陰性(False Negative):実際は陽性であるが、モデルが陰性と予測した場合。

ROC 曲線と AUC

ROC 曲線は、二値分類モデルの性能を評価するための指標です。偽陽性率を横軸、真陽性率を縦軸にとり、閾値を変化させながらプロットします。ROC 曲線の下部の面積をAUCと呼び、モデルの性能を表します。

補足:

  • 真陽性率(True Positive Rate):実際に陽性であるデータのうち、モデルが陽性と予測した割合。
  • 偽陽性率(False Positive Rate):実際に陰性であるデータのうち、モデルが陽性と予測した割合。

モデルの解釈

機械学習モデルの予測結果を解釈することは、モデルの信頼性や公平性を確保する上で重要です。LIMESHAPなどの手法を用いることで、モデルの予測に寄与した特徴量を可視化することができます。

補足:

  • LIME(Local Interpretable Model-agnostic Explanations):局所的にモデルを近似することで、予測の説明を生成する手法。
  • SHAP(SHapley Additive exPlanations):ゲーム理論のShapley値を用いて、特徴量の重要度を計算する手法。

モデルの選択と情報量

機械学習モデルの選択には、オッカムの剃刀の原理が適用されます。複数のモデルが同等の性能を示す場合、より単純なモデルを選ぶべきとされています。モデルの複雑さを定量的に評価する指標として、赤池情報量基準 (AIC)などがあります。

また、モデルの汎化性能を評価するために、交差検証ホールドアウト検証などの手法が用いられます。これらの手法では、データを訓練用と検証用に分割し、モデルの性能を評価します。

補足:

  • オッカムの剃刀:複数の説明が可能な場合、最も単純な説明を選ぶべきとする原理。
  • 赤池情報量基準 (AIC):モデルの複雑さと予測の良さをバランスする評価指標。
  • 交差検証:データを複数の部分集合に分割し、繰り返しモデルを評価する手法。
  • ホールドアウト検証:データを訓練用と検証用に一度だけ分割し、モデルを評価する手法。
  • k-分割交差検証:データをk個の部分集合に分割し、交差検証を行う手法。
  • 過学習(Overfitting):モデルが訓練データに過剰に適合し、汎化性能が低下する現象。
  • 未学習(Underfitting):モデルが訓練データに十分に適合していない状態。
  • 正則化:モデルの複雑さを制御することで、過学習を防ぐ手法。
  • L0正則化:モデルの重みのL0ノルムに基づく正則化手法。
  • L1正則化:モデルの重みのL1ノルムに基づく正則化手法。ラッソ回帰で用いられる。
  • L2正則化:モデルの重みのL2ノルムに基づく正則化手法。リッジ回帰で用いられる。
  • 平均二乗誤差(Mean Squared Error):予測値と実際の値の二乗誤差の平均。
  • 第一種の過誤(Type I Error):帰無仮説が正しいのに棄却してしまう誤り。
  • 第二種の過誤(Type II Error):帰無仮説が誤っているのに棄却しない誤り。
  • 訓練誤差(Training Error):訓練データに対するモデルの誤差。
  • 汎化誤差(Generalization Error):未知のデータに対するモデルの誤差。
  • 学習率(Learning Rate):機械学習モデルの学習における更新の大きさを制御するパラメータ。
  • 誤差関数(Loss Function):モデルの予測値と実際の値の誤差を定量化する関数。

モデルの評価

G検定では、学習されたモデルの精度の評価方法と評価指標について理解しておく必要があります。正解率、適合率、再現率、F値、ROC曲線、AUCなどの評価指標の意味と計算方法を把握することが重要です。

また、モデルの解釈の重要性、モデルの選択における原理、汎化性能の評価方法などについても理解を深めておきましょう。