データの形状から相関関係を推定する TDA

ReNom | TDA

「ReNom TDA」とは、高次元データを位相空間(集合に位相の情報を付加した空間距離のない空間)にマッピングし、可視化・分析するためのモジュール です。データの形状を把握することや、変数同士の関係性を直感的に把握することで、データを解析するエンジニアのモデリングを助けます。また、データの前処理や、データ構造の把握に限らず、高度なプロファイリングツールとして活用することができます。例えば、複雑なデータ間の繋がりを可視化することで、顧客データの分析、マシンデータの解析、金融や不正アクセス、サイバーセキュリティの解析など、アイディア次第でさまざまなデータを分析することが可能になります。

位相幾何学を用いたデータの可視化

位相幾何学とは、切り貼りせず連続的に変形しても保たれる性質(輪っかや、空洞を特徴として考える)に注目し、位相空間(集合に位相の情報を付加した空間距離のない空間)で、繋がりを考える数学の分野になります。位相幾何学では、従来の幾何学と異なり長さや角度といった情報を特徴と考えないので、可視化したときのデータの表現力が異なります。そのような空間にデータを投影することで、従来の次元削減手法では失われていたデータの特徴を取り出すことができます。 

 

 

目的変数と説明変数と見比べて 相関関係を推定する

位相空間にデータを投影することで、データの形状を可視化することができます。可視化したデータを分析するには2種類の方法があります。1つ目は、形状そのものに注目する方法です。「Renom TDA」の可視化結果では似ているデータ同士が1つのノードに含まれていて、共通するデータを含むノードが線で結ばれています。そのため、繋っていない塊が複数ある場合、それらがデータのクラスタになりうると考えられます。2つ目は、可視化結果のグラフの色に注目する方法です。目的変数でグラフを色付けた場合と同じような色のパターンを示す変数が見つかったら、それらの変数は相関が高いと考えられます。このように、データの形状や色といった目に見える特徴を使ってデータを直感的に分析することができます。

 

旧来の次元削減で起こる問題点を解決

PCAなどの次元削減手法では、データの情報量をできるだけ維持することができる軸を見つけることで、データの次元を削減していました。そのため、多次元の変数を持つデータの次元削減を行うと、軸に沿わない変数の情報が失われてしまうという問題があります。 「ReNom TDA」では、高次元でのデータの繋がりを保持したまま次元を落とすことができるので、旧来の手法では見ることができなかったデータの特徴を可視化することができます。

 

ReNom TDA GUIを使って さまざまなアルゴリズムで比較検討

「ReNom TDA」では、GUIベースのWEBアプリケーションで、さまざまなアルゴリズムでクラスタリングした結果を比較することができます。データを次元削減しただけの状態と、そこからTDAを行って得られた結果を比較したり、次元削減のアルゴリズムを変えて作成したTDAの結果を比較したりと、さまざまな組み合わせでデータの可視化結果を比較することが可能となります。また、TDAだけでなく、K-meansなどの教師なし分類、K-Nearest Neighbor、Random Forestなどの教師あり分類のアルゴリズムもGUI上でパラメータを選択して実行することができます。

上図の左の列は、アヤメの分類データをPCA、TSNE、AutoEncoderを用いて次元削減して可視化したものです。正解のラベルデータの値で各点の色がついています。中央の2列の画像は、これらのデータに対してK-means、 DBSCANと呼ばれる教師なしのクラスタリングを用いた図になります。クラスタリングで判定されたクラスのラベルを色付けています。正解ラベルと見比べると、PCAの場合は、K-means, DBSCAN共に分類ができていないことがわかります。TSNE, AutoEncoderについても、K-meansでは概ね正しくクラスが分類できていますが、DBSCANでは分類ができていません。一方、TDAの場合はグラフの点が、すでに1つのクラスタになっているので、境界付近のクラスタについては、複数のクラスのデータが混ざって存在することを表すために、緑と赤の間の黄色で色がつけられます。このように、明確に分類の境界面を定めないことで、データの意味や分け方を人が考える余地を与えてくれます。

 

ReNom TDA GUI

WEBアプリケーションでは、CSVファイルを読み込み、パラメータを設定するだけで、TDAの計算結果のグラフ構造を可視化することができるので、プログラミングをせずにデータを可視化・分析することができます。

 

Python API

Pythonのモジュールを使うと、WEBアプリケーションと比べて、より詳細にハイパーパラメータを設定することができます。複数の次元削減手法を組み合わせてポイントクラウドをつくることもできます。

 

応用分野

小売・顧客(マーケティング) ・・・ 各店舗の受発注や在庫データ などを分析し在庫を最適化

金融(クレジット) ・・・クレジットカード利用のデータを使い、さまざまな相関関係を分析し不正アクセス検知の精度向上

サイバーセキュリティ・・・重要データからの、ネットワークの接続やアクセスにおけるパターンを迅速に認識

製造・・・製造物から得るデータをもとに保守・保全と、オペレーション支援

プラント ・・・プラントを正常に運転するために、 データからプロセスを監視し制御

Page top