QC7つ道具「散布図」。チョーカンタンに相関係数を加えて「統計デキルヤツ」に大変身!

2023年7月30日日曜日

Excel QC7つ道具 品質管理

t f B! P L

最終更新日:2024年2月3日

どうも、おばんです。QCたかです。


「散布図」をスマートに使いこなしていると、「アイツ、デキル!」って一目置かれます。

統計用語をちょっと加えればいいだけ。

詳しいことを知っていれば一番いいのだけれど、まずはキッカケを作ることが大事です。

統計脳を体に植え付けてから、勉強していっても遅くありません。

「デキル、ジブン!」になるため、今回紹介するテクニックを、ぜひ、覚えましょう。

最後まで、見て行ってくださいね。


散布図とは?

散布図は、「方眼紙の上に点をちりばめたグラフ」と考えてよいでしょう。
グラフは、ヨコにX軸、タテにY軸を取るのが、一般的です。
そして、X軸に要因、Y軸に結果を示します。

例えば、「あるクラスの身長と体重のデータ」があったとします。
ここで「身長が高い方が、体重は重たい傾向にあるのでは?」と考えます。

この場合、X軸に「要因とした身長」、Y軸に「結果の体重」として、点をプロットします。


この点は、一人のデータを示します。

そしてクラスに100名いれば、100名分のデータ、つまり点が100個プロットされます。


このような感じで、散布図は、単純にデータの数だけ点をプロットするだけのグラフです。

ですが、このグラフ。
いろいろな点がプロットされると「関係性」が見えてきます。

上の散布図を見ると「右肩上がりの直線」に見えませんか?
これが、散布図が示す「関係性」です。

散布図は、直線に見える状態を「相関がある」とか「相関がない」と言って表現します。

そして、「相関がある、とか、ない」の程度を数字で表す手法として「相関係数」というものが用意されています。

この「相関係数」の大小で、相関に「強い」とか「弱い」という修飾語が付き、言葉の信頼性が上げます。

もう一つ、直線が「右肩上がり」か「右肩下がり」かも定義されています。

「右肩上がり」の場合は「の相関」、「右肩下がり」の場合は「の相関」と呼びます。

まとめますね。
散布図には、
  1. 直線性があるか:相関の有無
  2. 相関係数はいくつか:相関の強弱
  3. 直線の傾き:相関の正負
これらの、要素で表現することになります。


散布図 scatter diagram
 二つの特性を横軸と縦軸とし、観測値を打点して作るグラフ表示(Z8101-1)
QC七つ道具の一つとして、広く普及しており、主に二つの変数間の関連を調べるのに使われる。
ークォリティマネジメント用語辞典 2004年出版 吉澤正 日本規格協会より抜粋


相関係数とは?

先ほども書きましたが、相関係数は「相関の強弱」を数値で示すものです。
そして、その数値の範囲で強弱の言葉の表現が変わるのでした。

当然、数値で表現されるものですから、それを求める計算式があります。

ですが、この記事では、そんな計算式を示しません。

なにせ「チョーカンタン」としていますからね!

「あ~、Excelの関数を使うんでしょ?」

と言う方もいらっしゃると思いますが、それも使いません。

使い慣れない相関係数を求めるExcel関数など、覚えるだけムダというもの。

ボクも覚えていません。

じゃあ、何を使うの?って話なのですが、使うものは「√ルート機能のついた電卓」です。

もちろん、皆さんが持っているスマホでも良いです。

散布図を作って、そのまま電卓をたたき、相関係数を求め、

この2データは、相関係数○○なので、強い正の相関があります!

とカンタンに言えちゃいます。

まさに、デキルヤツ。。。

補足ですが、相関係数の強弱の範囲は、明確に「いくつ」とは決まっていません。

例えば、強い相関がある場合、先ほど「0.8~1.0」と書きましたが、別の書籍やサイトでは「0.7~1.0」としていたりしています。

なので、しきい値は少し曖昧なのですね。

ですから、求めた答えが0.7~0.8の範囲だった場合、どう表現するかは「あなた次第」です。
強いのか、普通なのか、あなた自身で判断すればよいのです。

もう一つ、補足しておきますが、相関係数は「-1.0~1.0」の範囲にしかなりません。

例えば、「-100.0」とか「2.5」とかにはならないのですね。

これは計算の都合ですから、計算式を見て頂ければ納得すると思います。
それは、別の機会でお話します。

散布図を描いて、相関係数を求める

それでは、さっそく描いてみましょう。
グラフを作るには、まずチェックシート作りからです。

チェックシートを作る

今回は、例題にも示した「クラス100名の身長と体重の散布図」を作ります。


身長と体重をヨコに並べてつくります。
これが100名分、ズラーっと並んでいます。

セルを選択する

それでは、散布図を描いていきましょう。
まずは、対象のセルを選択することからです。

身長と体重の先頭のセルを選択します。


そのまま、キーボードの「Shiftキー」+「Ctrlキー」を押してから、「↓キー」を押します。


一気に選択されました。
マウスカーソルをクリックしたまま、画面を動かすより圧倒的に早いです。
今回は100データしかありませんが、1000や10000とかになると実感できます。

仕組みとしては、「Ctrlキー」+「方向キー(今回は下キー)」を押すと、その方向の「空欄まで」のセルまで一気に動いてくれます。
そして「Shiftキー」は、セルが動いた分選択をしてくれます。

つまり、「空欄まで一気に選択しながら動いた」ということですね。

これは、チェックシートを「キレイに」「ムダなく」「わかりやすく」作ることで、このようなテクニックが使えて、結果的に時短になります。

すべては、チェックシートで決まるのです。

散布図を描く

散布図に描きたい範囲が選択されています。

その状態で、キーボードの「Altキー」→「Nキー」→「Dキー」と順番に押しましょう。

すると、Excelが「散布図のどれを使う?」と聞いてきますので、「左上の散布図」を選択しましょう。


はい、できました。


あとは、グラフのタイトルや、軸の説明、軸の範囲など見やすいように編集すると、


完成です。
カンタンですね。

近似曲線で線形近似する

いよいよ最終局面です。
(『いよいよ』と言うほど、工程は多くありませんでしたが・・・)

描いた散布図に「近似曲線」を追加します。

「何それ?」と考えず、
  1. グラフの上でクリック
  2. 右上に現れた「+」をクリック
  3. 「近似曲線」の左にある「チェックボックス」をクリック

すると、散布図上に「点線」が表示されます。


これが今回の100データに対する「近似曲線」になります。
Excelでは、自動的に「線形近似」つまり「直線」の近似線を描いてくれます。

補足ですが「相関係数を使った相関有無」は、あくまでも「直線」に対してです。
「曲線」「放物線」などに対しては、カバーできません。
(理論上、相関係数を求めることはできますが)
つまり、「曲線」「放物線」などには相関係数は使用しません。

ただし、注意しなければならないことは「曲線」「放物線」などの形にプロットが並んでいるのであれば、それは「曲線」「放物線」の関係に相関があることになります。
相関はあるが、相関係数では表現できないだけです。

相関係数が求められないから相関がない」ということではありませんので、お気をつけください。

「数式」と「Rの2乗」を表示する

次に「数式」と「Rの2乗」を表示させます。
  1. 散布図の「近似曲線」上で「右クリック」
  2. でてきたメニューの「近似曲線の書式設定」をクリック
  3. Excel右側に出てきた書式設定の最下部「グラフに数式を表示する」「グラフにR-2乗値を表示する」をチェック


すると、散布図内に「数式」と「Rの2乗」が表示されます。

相関係数を求める

今表示されたものを詳しく見てみましょう。


まず、「数式(y=の方)」から見ます。

「数式」を見ると相関係数がプラスなのかマイナスなのかがわかります。
見るところは「xの値」です。
  • xの値がプラスなら「正の相関」
  • xの値がマイナスなら「負の相関」
チョーカンタンですね。

次に、「Rの2乗」を見ましょう。
ここでは、「Rの『2乗』を取り除いた『R』の値」を電卓で求めます。

つまり、「Rの2乗」に√ルートをかけて、Rを求めればいいわけです。


はい、この「R」が相関係数として使えます。

これですべて完了です。
チョーカンタンですよね。

補足:回帰分析

疑問に思った方のために、少し補足しますと、今回使用した、
  • 数式は回帰式
  • Rの2乗は決定係数
と呼ぶもので、「回帰分析」というジャンルの手法を使っています。

回帰式は、各データをもとに最小二乗法という計算手法で求めたものですが、カンタンに表現すると「未来を予測するための式」と思ってよいでしょう。

「身長が210cmのヒトは体重いくつが予測できる?」を考えたときに、先ほどの回帰式のx(身長)に210cmを代入すれば、y(体重)が114.25kgと求まります。

実際に体重を量ったわけではありませんが、おおよその予想がつきます。

これが回帰式のスバラシイところです。

そして決定係数「Rの2乗」は、回帰式の確からしさを0~1で表したものです。

今回の事例で言えば「Rの2乗」は0.6547ですから、「65%は信頼できる」となります。

裏を返せば、先ほど求めた身長210cmの体重114.25kgも65%ぐらいしか信頼できません。

このように、回帰式の結果だけを見ていると、未来を読み誤ることが十分考えられます。
ですから、回帰式で未来を予想する際は、決定係数「Rの2乗」とセットで見ることで、どの程度未来を信じてよいのか、考えるクセをつけるようにすることが大切です。

決定係数「Rの2乗」についてもう少し補足をさせてください。

ボクたちは決定係数「Rの2乗」を√ルートして「R」を求め、結果を「相関係数」としました。

実はこれ、間違いです。

決定係数「Rの2乗」と「相関係数」は、求めている結果も計算の過程も異なります。

ただし、決定係数「Rの2乗」の√ルートが「相関係数」と近似しているため、使わせて頂こう、ということです。

「相関係数」を直接求めたわけではない、ということを理解しておけば、十分です。

オススメ書籍


散布図、相関係数に特化した書籍ではありませんが、回帰分析までざっくりと全体的に説明してくれる書籍です。
難易度は高めです。
難しい数式を気にしなければ、全体像を掴めると思います。

自己紹介

自分の写真
品質管理に関するブログ「QCたかのたか流QC」では、自身の経験を活かし、品質管理への疑問、新しい提案、QCスキルのテクニックなどを配信。 「みんながハッピ〜♫になる品質管理を!」をポリシーに活動中。 品質管理検定1級合格。 日本品質管理学会所属。 機械加工、設計を経て、現在は半導体業界のメーカーで品質管理に従事。

お問い合わせ

名前

メール *

メッセージ *

ブログサイト

QCたかのたか流QC - にほんブログ村

人気ブログランキングでフォロー

ブログサークル
ブログにフォーカスしたコミュニティーサービス(SNS)。同じ趣味の仲間とつながろう!

このブログを検索

ブログ アーカイブ

スマートデバイスでご覧の方へ

これ以降はアドセンス広告を表示いたします。 記事や関連リンクなどはございません。

QooQ