ろむめも

気になったこととか、調べたことをゆるくまとめます。主にプログラミング関連の話題が多いです。

異常検知と変化検知のまとめ

経緯

現在以下の本の輪読を行っています。

その内容について、全てではないですが学習した内容をまとめておくことにします。

9章 部分空間法による変化検知

特異スペクトル変換法

イメージとしてはPCAの拡張版である。PCAは正方行列に対して行うものであるが、データの特徴量は時系列データに適用する窓の数に依存する。したがって必ずしも正方形になるわけではなく長方形になる場合も存在する。そこでPCAを拡張して長方行列に対しても適用できるように考えた。

10章 疎構造による異常検知

基本的な考え方

ホテリングT二乗法はデータが通常は一定でそこから突然外れるような異常データの検出が得意ですが、ある程度ノイズを持った出力値からの異常検出は不得意です。そういった出力値の異常値を検知するには変数そのものではなく、変数の関係性に着目すると良い場合があります。
この時変数同士の関係は対マルコフネットワークや、対マルコフグラフといった形で表します。
直接相関と間接相関の話。実際3変数のデータを見ると相関があるように見えるが、それを輪切りにして2変数の関係をみたときには相関がないことがある。これを間接相関という。つまり、3次元目の変数を介して、残りの2変数が相関を持っているという事である。

正規分布に基づく対マルコフネットワーク

M次元の正規分布に現れる精度行列のうち、iとjが異なる位置の要素が0の時、これは直接相関があるといいます。
反対に精度行列は0だが、その逆行列である共分散行列が0ではない場合、間接相関があるといいます。
結果として、精度行列は直接相関を、共分散行列は直接相関と間接相関の和をあらわします。

疎なガウス型グラフィカルモデルの学習

一般的にグラフの構造を疎にしたいというモチベーションが存在します。これは異常値検出におけるノイズへの頑強性という意味でも重要です。
どのように疎な構造を獲得しましょうか。グラフィカルラッソという手法を紹介します。
疎な構造を獲得するために適当な閾値を設定することは適当ではありません。なぜなら精度行列の中身を適当な閾値で操作してしまっては、それはもう確率分布の精度行列を表すものとは言えなくなるからです。確率分布の特性が失われてしまいます。ですのでそのような手法は望ましくありません。
そこで、精度行列に疎な解を好むような事前確率を与えたものを考えます。結果的にそれは正則化項の形で表現されることになります。

次にその値の最適化を考えます。
まず勾配を考えて勾配が0になるような式を解くことにします。ですが、行列式の勾配を最適にしていく操作は複数の行について考えると複雑になってしまいます。そこで、例えば行列の特定の位置の行を一番下に持ってきて、その行を最適化し、その操作を全ての行が最適になるまで繰り返すことを考えます。これをブロック座標降下法と本書では呼んでいます。

疎構造学習に基づく異常度の計算

応用例としては外れ値解析、異常解析があります。