Path: blob/master/site/ja/probability/examples/Probabilistic_PCA.ipynb
25118 views
Copyright 2018 The TensorFlow Probability Authors.
Licensed under the Apache License, Version 2.0 (the "License");
確率的主成分分析(PCA)
確率的主成分分析(PCA)は、低次元の潜在空間を介してデータを分析する次元削減手法です(Tipping and Bishop 1999)。データの値が欠落している場合や多次元スケーリングに多く使用されます。
インポート
モデル
データポイントのデータセット を検討します。各データポイントは -dimensional, です。低次元 で、潜在変数 で各 を表現したいと思います。主軸 のセットは、潜在変数をデータに関連付けます。
具体的には、各潜在変数は正規に分布されていると仮定します。
対応するデータポイントは、プロジェクションを介して生成されます。
上記の行列 は主軸として知られています。確率的 PCA では通常、主軸 とノイズ項 の推定に関心があります。
確率的 PCA は、古典的な PCA を一般化したものです。潜在変数を除外した場合、各データポイントの分布は、次のようになります。
古典的な PCA は、ノイズの共分散が のように非常に小さくなる確率的 PCA 特有のケースです。
モデルを以下のようにセットアップしました。この分析では、 が既知であると想定しており、 をモデルパラメータとして想定しているポイントの代わりに、主軸に対する分布を推論するために事前分布をかぶせています。このモデルを TFP JointDistribution として表現し、具体的に、JointDistributionCoroutineAutoBatched を使用します。
データ
このモデルを使用し、同時事前分布からサンプリングしてデータを生成することができます。
データセットを視覚化します。
最大事後確率推定
まず、事後確率密度を最大化する潜在変数の点推定を探します。これは、最大事後確率(MAP)推定法として知られており、事後確率密度 を最大化する と の値を計算することで行われます。
モデルを使用して、 と の推定値を得るデータをサンプリングし、条件を設定した実際のデータセットと比較します。
変分推論
MAP は、事後分布のモード(またはモードの 1 つ)を見つけるために使用できますが、それに関するインサイトは何も提供しません。次に、変分推論を使用してみましょう。事後分布 は でパラメーター化された変分分布 を使用して概算されます。q と事後分布の KL 発散を最小化する変分パラメーター を見つけること()または同様に、根拠の下限を最大化する変分パラメーター を見つけること()を目標とします。
謝辞
このチュートリアルは Edward 1.0 (出典) に掲載されたものです。そのバージョンの作成と改訂に貢献されたすべての人に感謝します。