データマイニングコース復習ノート

目录

大綱

1.データマイニングの理解

1、データマイニングの定義 2、指導付き学習と非指導付き学習 3、データマイニングのプロセス

2.基本データマイニング技術

1、決定木の概念とC 4.5アルゴリズムの一般的なプロセス 2、決定木の重要な技術:最大ゲイン率 3、決定木ルール:決定木、生成規則、正確率とカバレッジ 4、Aprioriアルゴリズムの基本的な考え方 5、アソシエーションルールおよびその信頼度とサポート度 6、K-meansアルゴリズムの基本的な考え方 7、K-meansクラスタリング分析の例

3.データベースにおける知識発見

1、KDDの定義(理解) 2、データ前処理:ヒストグラム縮小、データ標準化、データ平滑化

5.評価技術

1、分類型出力モデルの評価:混同行列と分類正確率、精度、再現率 2、数値型出力モデルの評価:平均絶対誤差、平均二乗誤差、平方根誤差

6.ニューラルネットワーク

1、人工ニューロンモデル(描画と計算) 2、BPニューラルネットワーク構造(描画、例:入力1つ、出力1つ、3つのニューロンを含む2つの隠れ層)、前向き計算プロセス 3、BPアルゴリズムの一般的なプロセス 4、畳み込みニューラルネットワークの基本操作——畳み込みとプーリング、畳み込み特徴(局所受容野、重み共有)

7.統計技術

1、一元線形回帰、多元線形回帰——最小二乗法 2、ベイズ分析:ベイズ分類器 3、凝集クラスタリングアルゴリズムの一般的なステップ、例題 4、Cobweb階層クラスタリングアルゴリズム:CU値の計算

第1章 データマイニングの理解

データマイニングの定義

技術的観点:コンピュータ技術を利用してデータから自動的に情報を分析し抽出する処理プロセス;目的はデータ中の潜在的な価値ある情報を発掘すること;一般的に機械学習、統計学、パターン認識などの多様な方法を使用して実現します。 学問的観点:学際的な学問であり、人工知能、統計学、可視化、並列計算などを設計します。 商業的観点:隠れた、未知の、または既知の規則を検証することを明らかにします;

指導付き学習と非指導付き学習

機械学習の基本的な方法には、概念学習、帰納学習、指導付き学習、非指導付き学習があります。

指導付き学習:大量の既知の分類または出力のインスタンスをトレーニングすることによって、分類モデルの構造を調整し、正確な分類または予測位置モデルを構築することを目的とします;この帰納に基づく概念学習プロセスは指導付き学習と呼ばれます。 非指導付き学習:学習トレーニングの前に、事前に定義された分類のインスタンスがありません。データインスタンスはある種の類似度測定方法に従って、類似度を計算し、最も類似したインスタンスを1つのクラスターにクラスタリングし、各クラスターの意味を解釈し理解し、クラスタリングの意味を発見します。(K-Means、凝集クラスタリング、概念階層Cobweb、EMアルゴリズム)

データマイニングのプロセス

4つのステップ:

  1. データの準備、トレーニングデータと検証データを含む;
  2. 1つのデータマイニング技術またはアルゴリズムを選択し、データをマイニングソフトウェアに提出;
  3. モデルの解釈と評価;
  4. モデルの適用; データの準備はデータベース、データウェアハウス、フラットファイルから収集できます; 技術とアルゴリズムの選択を考慮する必要があります
  • 学習が指導付きか非指導付きかを判断する;
  • データセットでトレーニング、テスト、検証データをどのように分割するか;
  • データマイニングアルゴリズムのパラメータをどのように設定するか;

データマイニングの役割(種類分類、非技術)

  • 指導付き学習
    • 分類
    • 推定
    • 予測
  • 非指導クラスタリング
  • アソシエーション関係分析

第2章 基本データマイニング技術

決定木

1、決定木の概念とC 4.5アルゴリズムの一般的なプロセス 2、決定木の重要な技術:最大ゲイン率 3、決定木ルール:決定木、生成規則、正確率とカバレッジ

概念

決定木はツリー構造のモデルで、各ノードはオブジェクトのある属性を表し、枝は属性のある可能な値を表し、葉ノードの値が決定木の出力結果です。

C4.5アルゴリズム

(1)「属性-値」形式で表されるデータセットTを与えます。データセットは複数の入力属性と1つの出力属性を持つインスタンスで構成されます。 (2)T中のインスタンスを最も区別できる入力属性を選択し、C4.5はゲイン率を使用してこの属性を選択します。 (3)この属性を使用してツリーノードを作成し、同時にこのノードの枝を作成し、各枝はこのノードのすべての可能な値です。 (4)これらの枝を使用して、データセット中のインスタンスを分類し、細分化されたサブクラスにします。 (5)現在のサブクラスのインスタンス集合をTとし、データセット中の残りの属性に対して(2)(3)ステップを繰り返し、次の2つの条件のいずれかが満たされるとき、このプロセスを終了します。葉ノードを作成し、このノードはこの枝に沿って表現される分類クラスであり、その値は出力属性の値です。

  • このサブクラス中のインスタンスが事前定義された基準を満たす場合、すべてが1つの出力クラスに分けられるか、または1つの出力クラスに分けられたインスタンスがある割合に達する;
  • 残りの属性がない。

重要な技術

インスタンス属性を最も区別できる方法の選択

データの一般化程度を最大化する(階層とノード数を最小化する)ために、最大ゲイン率の属性を優先的に選択します。 情報エントロピー エントロピーは不確実性の尺度であり、大きいほど情報量が多く、伝達される情報が多い; $$H(x)=-\sum_{i=1}^n {p(x_{i})log_{2}(p(x_{i}))}$$ 情報ゲイン ゲインが大きいほど、エントロピーの低下が速く、分類に有利です。 $$Info(I)=-\sum\frac{出现在i类中的数量}{实例总数}log_{2}\frac{出现在i类中的数量}{实例总数}$$ $Info(I)$は現在のデータセットのすべてのインスタンスが表現する情報の総量です; $$Info(I,A)=\sum\limits_{j=1}^{k}\frac{出现在j类中的实例个数}{所有实例总数}Info(j类)$$ $Info(I,A)$は属性Aのk個の値に基づいてIを分類した後の情報量です; $$SplitsInfo(A)=-\sum\limits_{i}^{k}\frac{出现在j类中的实例个数}{所有实例总数}log_{2}\frac{出现在j类中的实例个数}{所有实例总数}$$ $SplitsInfo(A)$はA属性のゲイン値の標準化です; $$Gain(A)=Info(A)-Info(I,A)$$ $$GainRatio(A)= \frac{Gain(A)}{SplitsInfo(A)}$$

剪定方法
検証方法
  • パーセンテージ検証
  • 交差検証 k折 留出 留一

決定木ルール

決定木をルールに翻訳し、正確率とカバレッジを計算します;

1
2
3
IF Courses <≤5 and Weather = Rain THEN Play = No
正確率:3/5 = 60% カバレッジ:3/8 = 37.5%
正確率:整句を満たす/前半句を満たす カバレッジ:整句を満たす/後半句を満たす

長所と短所(理解)

長所 (1)理解しやすく、解釈しやすく、より魅力的な生成規則のセットにマッピングできます。 (2)データの性質について事前の仮定を必要としません。 (3)数値型データと分類型データのデータセットを使用してモデルを構築できます。 限界 (1)出力属性は分類型でなければならず、出力属性は1つでなければなりません。 (2)決定木アルゴリズムは不安定(Unstable)です。 (3)数値型データセットを使用して作成された木はより複雑です(例2.3の剪定されていない決定木のように)、数値型データの属性分裂は通常二元分裂です。

アソシエーションルール

Aprioriアルゴリズムの基本的な考え方

  • アイテムセットを生成します。アイテムセットは、一定のサポート度要件を満たす「属性-値」の組み合わせです。サポート度要件を満たさない組み合わせは破棄されるため、ルールの生成プロセスは合理的な時間内に完了できます。
  • 生成されたアイテムセットを使用して、信頼度に基づいてアソシエーションルールのセットを作成します。

アソシエーションルールおよびその信頼度とサポート度

サポート度:整句を満たす/後句を満たす 信頼度:整句を満たす/前句を満たす

実際の使用時には、単項、二項、三項アイテムセットを順次生成し、生成されたアイテムセットを基にアソシエーションルールを作成します。

1
2
3
4
5
6
7
二項アイテムセットの最初のアイテムから生成された2つのルール——
IF Book =1 THEN Earphone = 1 (信頼度:4/5 = 80%、保持)
IF Earphone = 1 THEN Book =1(信頼度:4/7 = 57.1%、削除)
三項アイテムセットの最初のアイテムから生成された3つのルール——
IF Book =1 & Earphone = 1 THEN DVD = 1(信頼度:4/4 = 100%、保持)
IF Book =1 & DVD = 1 THEN Earphone = 1(信頼度:4/4 = 100%、保持)
IF Earphone = 1 & DVD = 1 THEN Book =1(信頼度:4/6 = 66.7%、削除)

クラスタリング技術

K-meansアルゴリズムの基本的な考え方

  1. クラスターの総数を決定するためにランダムにK値を選択します。
  2. データセット中の任意のK個のインスタンスを選択し、それらを初期のクラスター中心として使用します。
  3. これらK個のクラスター中心と他の残りのインスタンスの単純なユークリッド距離を計算します。この距離をインスタンス間の類似度の尺度として使用し、あるクラスターと類似度が高いインスタンスをそのクラスターに分類し、そのメンバーにします。
  4. 各クラスター内のインスタンスを使用して新しいクラスター中心を計算します。
  5. 得られた新しいクラスター中心が前回の反復のクラスター中心と等しい場合、アルゴリズムを終了します。そうでない場合、新しいクラスター中心を使用して3〜5を繰り返します。 image.png

K-meansクラスタリング分析の例

長所と短所

長所 非常に人気のあるアルゴリズムで、理解しやすく、実装が簡単です。 限界 (1)数値型データのみを処理できます。データセットに分類型の属性がある場合、その属性を削除するか、同等の数値データに変換する必要があります。 (2)アルゴリズムを開始する前に、初期のクラスター数としてランダムにK値を選択する必要があります(任意性があり、誤った選択はクラスタリング効果に影響を与えます)。通常、異なるK値を選択して繰り返し実験を行い、最適なK値を見つけることを期待します。 (3)クラスターのサイズが近似的に等しい場合、K-meansアルゴリズムの効果が最も良いです。 (4)クラスタリングに貢献しない属性はクラスタリング効果に影響を与える可能性があります(孤立点)。クラスタリングの前に属性を選択する必要があります。 (5)クラスターの解釈が困難です。指導付きのマイニングツールを使用して、非指導クラスタリングアルゴリズムによって形成されたクラスターの特性をさらに解釈することができます。

第3章 データベースにおける知識発見

KDDの定義(理解)

Knowledge Discovery in Data、データセットから信頼できる、新しい、潜在的に価値のある、理解可能な、煩雑でない処理プロセス(大部分のステップはシステムによって自動的に実行されます)。

KDDプロセスモデル

クラシックモデル

CRISP-DMビジネスモデル

オンラインモデルOLAM

データ前処理:ヒストグラム縮小、データ標準化、データ平滑化

ビンニング法:(ノイズ処理->データ平滑化) ==データをソート==します。例:3,6,12,22,24,26,27,30,30 「等高さ」で3つのビンに分割し、各ビンのデータ数を同じにします; 「等幅」で各ビンが固定の範囲をカバーします; 平均値、最小値、最大値を境界として保持し、他を近づける方法で平滑化します。

ヒストグラム縮小 等幅または等深のバケットに分割し、カウントし、ヒストグラムを描画します

データ標準化

  1. 最小-最大スケーリング(Min-Max Scaling):データを0-1の範囲にスケーリングし、元のデータに線形変換を適用して実現します。具体的には、最小-最大スケーリングは元のデータvを新しい取値範囲v’にスケーリングし、計算式は$v_{i}^{’}=\frac{v_{i}-minA}{maxA-minA}(b-a)+a$であり、b-aは区間の長さ、aは区間の開始点です。このようにして、正規化の結果を特定の区間にマッピングできます。特に指定がない場合は、区間のパラメータを無視できます。

  2. Zスコア標準化(Z-score normalization):データを平均0、標準偏差1の分布にスケーリングし、データを平均0、標準偏差1の正規分布にします。具体的には、Zスコア標準化は元のデータxを標準化して新しい取値範囲yにし、計算式はy = (x - μ) / σであり、μとσはそれぞれ元のデータの平均と標準偏差です。

  3. 小数定スケーリング(十進法スケーリング)(Decimal scaling):小数点の位置を移動させ、データを[-1,1]または[-0.5,0.5]の範囲にスケーリングします。具体的には、小数定スケーリングは元のデータxを10のk乗で割り、新しい取値範囲yを得る計算式はy = x / 10^kであり、kは10^(k-1) ≤ |x| < 10^kを満たす整数です。最大値に基づいて移動する桁数を決定します。

  4. 対数標準化は、非負数データを平滑化し、比較や分析を容易にするためにデータを対数に変換するデータ前処理方法です。具体的には、対数標準化は元のデータxを対数に取り、新しい取値範囲yを得る計算式はy = log(x)です。

  5. 正規化(Normalization):データを単位長または単位範囲にスケーリングし、一般的な正規化方法にはL1ノルム正規化とL2ノルム正規化があります。具体的には、L1ノルム正規化は元のデータxを新しい取値範囲yにスケーリングし、計算式はy = x / (|x1| + |x2| + … + |xn|)です;L2ノルム正規化は元のデータxを新しい取値範囲yにスケーリングし、計算式はy = x / sqrt(x1^2 + x2^2 + … + xn^2)です。

第5章 評価技術

分類型出力モデルの評価

真正例 真反例
予測正例 TP FP
予測反例 FN TN
$$正確率=\frac{TP+TN}{ALL}$$
$$誤差率=\frac{FN+FP}{ALL}$$
$$精度Precision=\frac{TP}{TP+FP}$$
$$再現率Recall=\frac{TP}{TP+FN}$$

数値型出力モデルの評価

$$MAE=\frac{|a_{1}-c_{1}|+|a_{2}-c_{2}|+…+|a_{n}-c_{n}|}{n}$$ $$MSE=\frac{(a_{1}-c_{1})^2+(a_{2}-c_{2})^2+…+(a_{n}-c_{n})^2}{n}$$ $$RMS=\sqrt{MSE}=\sqrt{\frac{(a_{1}-c_{1})^2+(a_{2}-c_{2})^2+…+(a_{n}-c_{n})^2}{n}}$$

第6章 ニューラルネットワーク

人工ニューロンモデル

image.png

R個の入力$p_i∈R$、すなわちR次元入力ベクトルp n: net input, $n=wp+b$。 R個の重み$wi∈R$、すなわちR次元重みベクトルw しきい値b 出力a=f(n), f: 伝達関数 一般的な活性化関数 $$a=f(n)=hardlim(n)=\begin{cases} {1},n>=0 \ {0} ,n<0\ \end{cases}$$ $$a=f(n)=hardlim \quad s(n)=\begin{cases} {1},n>=0 \ {-1} ,n<0\ \end{cases}$$ $$a=f(n)=n$$ $$a=f(n)=\frac{1}{1+e^{-n}}$$ シグモイド関数の最も重要な特徴は無限に微分可能であることです。

BPニューラルネットワーク

BPニューラルネットワーク構造、前向き計算プロセス

image.png

注意、各ニューロンは次の層と完全に接続され、同じ層間では接続されません。

BPアルゴリズムの一般的なプロセス

B-Pアルゴリズムの学習プロセスは次のとおりです: (1)トレーニングサンプルのセットを選択し、各サンプルは入力情報と期待される出力結果の2つの部分で構成されます。 (2)トレーニングサンプルセットから1つのサンプルを取り、入力情報をネットワークに入力します。 (3)各層のノードの出力を計算します。 (4)ネットワークの実際の出力と期待される出力の誤差を計算します。 (5)出力層から最初の隠れ層まで逆方向に計算し、誤差が減少する方向に発展する原則に従って、ネットワーク中の各ニューロンの接続重みを調整します。 (6)トレーニングサンプルセット中の各サンプルに対して(2)—(5)のステップを繰り返し、全体のトレーニングサンプルセットの誤差が要求に達するまで続けます。

CNN

畳み込み

image.gif

最初の神器は局所受容野です。画像中では、距離が近いピクセルはより密接に関連し、距離が遠いピクセルは関連性が弱いです。したがって、各ニューロンは実際には全体の画像を感知する必要はなく、局所を感知し、より高い層で局所の情報を統合することで全体の情報を得ます。 第二の神器は重み共有です。 重み共有をどのように理解するかというと、畳み込み操作を特徴を抽出する方法と見なすことができ、この方法は位置に依存しません。これには、画像の一部の統計的特性が他の部分と同じであるという原理が含まれています。つまり、この部分で学習した特徴は他の部分でも使用できるため、この画像上のすべての位置で同じ学習特徴を使用できます。 重み共有の利点は何ですか?一方で、繰り返し単位は特徴を認識でき、可視領域内の位置に関係なく機能します。 他方で、重み共有により、学習すべき自由変数の数を大幅に減少させることができます。モデルの規模を制御することで、畳み込みネットワークは視覚問題に対して非常に良い一般化能力を持つことができます。 畳み込み層を説明する最良の方法は、懐中電灯が画像の左上を照らしていると想像することです。懐中電灯が照らす領域が5 x 5の範囲であると仮定します。この懐中電灯が入力画像の各領域をスライドしていると想像します。機械学習用語では、この懐中電灯はフィルター(時にはニューロンまたは畳み込みカーネルとも呼ばれ)、照らしている領域は受容野と呼ばれます。このフィルターも一連のデータ(これらのデータは重みまたはパラメータと呼ばれます)です。

プーリング/サンプリング

image.png

最大プーリングは、プーリングウィンドウ内の最大値をサンプリング値として選択します 平均プーリングは、プーリングウィンドウ内のすべての値を合計して平均を取り、平均値をサンプリング値として使用します。 プーリングはパラメータ量を削減し、過適合のリスクを減少させることができます。

第7章 統計技術

回帰分析

回帰分析は、2つ以上の変数間の定量的な依存関係を特定し、一組の数値データを一般化するための数学的方程式を構築する統計分析方法です。 最小二乗法 誤差関数を目的関数として構築し(通常は二次の)、自変数に対して偏微分を求めます

ベイズ分析

未知のパラメータに関する事前情報とサンプル情報を組み合わせ(リスト)、ベイズの公式に基づいて条件付き確率を計算し、事後情報を得て未知のパラメータを推測するパラメータ推定方法です; $$P(H|E)=\frac{P(E|H)P(H)}{P(E)}$$ 存在する問題:

  1. 確率が0の場合–小さな定数を加える
  2. データの欠損–単純に無視し、確率を1とする

クラスタリング技術

クラスタリングには、分割クラスタリング(K-Means)、階層クラスタリング(凝集、分裂)、モデルクラスタリング(EMアルゴリズム)の3つの主要な種類があります;

凝集クラスタリングアルゴリズム 無指導クラスタリングアルゴリズムの1つです。 開始時、各インスタンスは異なる分類にあり、それぞれが単独でクラスターを形成します; 最も類似した2つのクラスターを見つけ、要求を満たすか1つのクラスターに統合されるまで合併します

Cobweb階層クラスタリング インクリメンタルな階層クラスタリングアルゴリズムの1つです。分類ツリーを使用してインスタンスを分類し、分類ツリーの構築プロセスは概念階層のプロセスです。ツリーのルートノードは最も高いレベルの概念であり、すべての領域インスタンスの集約情報を含みます;葉ノード以外のノードはすべてツリーの基層ノードであり、概念の階層を表現します。評価関数を使用して概念階層の品質を測定します。分類対象は分類型でなければなりません。 アルゴリズム

  • 1つのクラスを作成し、最初のインスタンスをその唯一のメンバーとして使用します;
  • 残りのインスタンスに対して、各ツリー層(概念階層)で評価関数を使用して次のアクションのいずれかを実行します:
    • 新しいインスタンスを既存のクラスターに配置します;
    • この新しいインスタンスだけを持つ新しい概念クラスターを作成します;

CU値の計算: $$CU=\frac{\sum\limits_{k=1}^{m}P(C_k)(\sum\limits_{i}\sum\limits_{j}P(A_{i}=V_{ij}|C_{k})^{2}-\sum\limits_{i}\sum\limits_{j}({A_{i}=V_{ij})^2})}{m}$$ $P(A_{i}=V_{ij}|C_k)$は$C_k$クラスのすべてのメンバー中で、属性$A_i$が値$V_{ij}$を取る確率を表します $P(A_{i}=V_{ij})$はデータセット全体で、属性$A_i$が値$V_{ij}$を取る確率を表します $P(C_k)$は各クラス$C_k$の確率を表します

長所:クラス(クラスター)の数を自動的に調整でき、ランダムに選択した分類数の不合理性によってクラスタリング結果が理想的でないことを防ぎます。 限界:

  • インスタンスの順序に敏感であり、感度を低下させるために2つの追加操作(合併と分解)を導入する必要があります。
  • 各属性の確率分布が互いに独立していると仮定していますが、実際にはこの仮定が常に成り立つわけではありません;
  • クラス(クラスター)の確率分布の表現、更新、保存の複雑さは、各属性の取値の数に依存します。属性の取値が多い場合、アルゴリズムの時間と空間の複雑さは非常に大きくなります。
  • 偏ったインスタンスデータは概念階層ツリーの高さを不均衡にし、時間と空間の複雑さの劇的な変化を引き起こす可能性があります。
Buy me a coffee~
Tim 支付宝支付宝
Tim 贝宝贝宝
Tim 微信微信
0%