機械学習と統計分析に人気のチャートタイプ【EspressChart】


この記事では、機械学習、データ分析、統計分析に非常に役立つ3種類のチャートについて説明します。
それらは、ヒストグラムボックスチャート(箱ひげ図)ヒートマップです。これらのチャートタイプを使用すると、ユーザーはデータの分布を調べ、傾向を特定し、相関関係を視覚化できます。

本記事では、EspressChartを使用してチャートの作成を行っています。
EspressChartは、100% Javaで構成された、チャート・グラフ生成ツールです。
JDBC/ODBC対応データベースはもちろん、CSVやXMLなどのテキストファイル、さらにJavaのクラスファイルやEJB、Excelをデータソースとして、2D/3Dあわせて30種類以上のチャート・グラフを作成することができます。

ヒストグラム

ヒストグラムは、数値データの分布を表す棒グラフの一種です。指定された範囲(ビンと言います)内のデータポイントの頻度を視覚化するために使用されます。ヒストグラムの各バーは、特定のビンの中に含まれる観測値の数またはパーセンテージを表します。そのため、ヒストグラムはデータの形状、中心傾向、変動性を理解するための強力なツールとなります。

ヒストグラムは、歪度分布(単峰性、多峰性など)、外れ値の存在などのパターンを識別するのに特に役立ちます。統計では、大規模なデータセットの視覚的な概要を提供するためにヒストグラムがよく使用され、さまざまな間隔にわたってデータがどのように分布しているかを簡単に確認できます。

EspressChart では、ヒストグラムは基本的に、ヒストグラム形式オプションが適用された縦棒グラフ、または横棒グラフです。以下に例を示します。

まず、ヒストグラム形式を適用する変数を選択し、それをカテゴリ軸にします。

この例では、さまざまな属性を持つさまざまな自動車メーカーのデータセットを使用します。車両の重量の分布を確認したいとします。データシリーズには「なし」を選択します。カテゴリ(X軸)は「車両重量」で、データマッピングダイアログの残りのフィールドは重要ではありません。

 

次に「完了」をクリックした後、「形式」の「ヒストグラムオプション…」を選択します。

 

このヒストグラムチャートは、以下のように表示されます。

 

次に、必要な書式設定を適用して、次のヒストグラムチャートを取得します。
分布が正規曲線に近似しているかどうかを示すために、正規曲線をトレンドラインとして挿入することもできます。

 

EspressChartでは、ヒストグラムのカテゴリ軸をカテゴリ変数、つまり非数値にすることもできます。この場合、ヒストグラムは基本的にデータに対して「グループ化」を実行します。次に例を示します。

 

ボックスチャート(箱ひげ図)

ボックスチャート(ボックスプロットまたは箱ひげ図とも呼ばれます)は、データセットの分布を要約するために使用されるグラフィカル表現です。データの中心傾向変動性歪度を視覚的に要約し、外れ値を識別するのに特に役立ちます。

●ボックスチャートの主な要素:

1. 最小値:外れ値を除いた最小のデータポイント

2. 第1四分位数(Q1):データセットの下半分の中央値(25%)

3. 中央値(Q2):データセットの中央値(50%)

4. 第3四分位数(Q3):データセットの上半分の中央値(75%)

5. 最大値:外れ値を除いた最大のデータポイント

6. ひげ:ボックスから最小値と最大値まで伸びる線

7. 外れ値:ひげの外側にあるデータポイント。多くの場合、ドットまたはアスタリスクでマークされます

●ボックスチャートを使用する理由:

・比較:異なるグループ間の分布を簡単に比較します。

・外れ値:データ内の外れ値を素早く識別します。

・概要:データの分布の簡潔な概要を提供します。

ボックスチャートは、データの構造に関する洞察を提供し、さまざまなデータセットを効果的に比較するために、探索的データ分析で広く使用されています。

EspressChartでボックスチャートを作成するには、データソースを選択したら、チャートウィザードで「ボックスチャート」アイコンをクリックするだけです。

 

次に、カテゴリ軸と値軸のデータ列を選択して、データマッピングを実行します。

 

「完了」をクリックして次の手順に進み、チャートの書式設定と最後の仕上げを行います。

この例では、データセットは糖尿病患者の属性と、彼らが再入院するかどうかで構成されています。患者ケアの観点から、病院は患者が再入院する必要がないことを確認したいと考えています。
再入院と属性の相関関係はボックスチャートで確認できます。以下の2つのチャートでは、「入院時間」が再入院と相関していることがわかります(上の図)。一方、「検査手順の数」は再入院と相関していません(下の図)。

 

ヒートマップ

ヒートマップは、マトリックスの値を色で表すデータ視覚化ツールです。この方法は、大量のデータを一目で理解しやすい方法で表示する場合に特に効果的です。ヒートマップの色は通常、寒色系(青など)から暖色系(赤など)までの範囲で、各色は異なる値または値の範囲を表します。この視覚的表現により、データ内のパターン傾向外れ値をすばやく識別できます。

ヒートマップは、生物学、金融、マーケティングなど、さまざまな分野で広く使用されています。たとえば、生物学では、ヒートマップを使用して遺伝子発現データを表示できます。さまざまな色は、さまざまな条件やサンプルにわたるさまざまな遺伝子の発現レベルを示します。金融では、ヒートマップを使用して株式市場データを視覚化し、さまざまな株式やセクターのパフォーマンスを時間の経過とともに表示できます。マーケティングでは、ヒートマップはWebサイトのユーザ行動を分析し、訪問者から最も注目されている Webページの領域を強調表示するために使用されることがよくあります。

ヒートマップの作成には、データの収集と準備から始まるいくつかの手順が必要です。データは、各セルが特定の値を表すマトリックス形式に整理する必要があります。次に、データ内の値の範囲を表すために色のグラデーションを選択します。次に、マトリックス内の各値をグラデーション内の対応する色にマッピングすることで、ヒートマップが生成されます。このプロセスは、Excel、R、Python、およびEspressChartなどの専用のデータ視覚化ソフトウェアなど、さまざまなソフトウェアツールとプログラミング言語を使用して実行できます。

全体的に、ヒートマップはデータ分析とプレゼンテーションのための強力なツールです。ヒートマップは複雑なデータセットを視覚化する明確で直感的な方法を提供し、重要なパターンや洞察を容易に特定できるようにします。研究者、アナリスト、マーケティング担当者のいずれであっても、ヒートマップの作成方法と解釈方法を理解することで、データに基づく意思決定を行う能力が大幅に向上します。

以下は、EspressChartで作成されたヒートマップの例です。

 

入力データから直接(X,Y値)をプロットするだけでなく、データに適用できる相関オプションがあります。これにより、データソースの列のペア間の相関係数を簡単に視覚化できます。つまり、マトリックスの各エントリは、X軸とY軸の対応する列間の相関係数です。以下に例を示します。この例では、X軸の列はY軸の列と同じです。ただし、同じである必要はありません。

 

相関関数を適用せずにヒートマップのデータマッピングを行うのは簡単です。

 

相関関数を適用したヒートマップのデータマッピング「相関係数」チェックボックスがオンになっており、X軸とY軸にデータソース内の使用可能なすべての数値列が表示されることに注意してください。各軸で複数の列を選択できます。

 

前の例では、X軸のすべての列とY軸のすべての列を選択しました。ただし、軸ごとに異なる列を選択することもできます。

 

結論

優れた機械学習モデルを構築するには、機械学習エンジニアまたはデータサイエンティストが、データの分布、傾向、データ内の特徴間の相関関係に基づいてフィーチャーエンジニアリングを実行する必要があります。
EspressChartは、ユーザが目標を達成できるように、最も人気のあるチャートの種類をサポートしています。

EspressChartの利用をご希望のお客様や、ご不明点などございましたら、下記ページからお気軽にお問い合わせください。

クライム製品お問い合わせページ

関連するトピックス:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください