close

製品情報

おすすめ情報

  • よくあるご質問
  • お問い合わせ
  • 情報機器用語集

close

導入事例

新着導入事例

close

サポート

よくあるご質問、OS対応状況、お問い合わせ窓口を掲載しています。

かんたんサポートナビ

かんたんサポートナビでは製品カテゴリからサポート情報を素早く、簡単にお探しいただけます。

close

ダウンロード

各製品のドライバーやアップデートプログラム、関連ユーティリティー、ソフトウェアなどのダウンロードができます。

製品カテゴリからダウンロード情報を素早く、簡単にお探しいただけます。

  • プリンタードライバー
  • 関連ユーティリティー
  • ソフトウェア
  • カタログ(PDF形式)
  • ユーザーズガイド/取扱説明書(PDF形式)
  • お問い合わせ
  • OS対応状況

データの前処理と可視化
~苦労して集めたデータを活用するために不可欠な処理~
【スタッフブログ:第3回】

更新:2020年4月6日(月)| 公開:2020年4月6日(月)| その他

当社のデジタルマーケティングを担うメンバーが、日々の業務で蓄積したノウハウをご紹介する本シリーズ。

第3回目の今回は、データを本質的に活用するために欠かせない「前処理と可視化」について解説していきます。
データをどのように見て整形していくか、実際のステップに沿って説明。わかりやすい実例を選んでいますので、ぜひ気軽に読み進めてみてください。
日頃の業務に活かしていただければうれしく思います!

こんにちは、コニカミノルタジャパンの永井です。
気づけば春が訪れ、例年より早く桜を楽しむことができましたね。

第3回のテーマは「データの前処理と可視化」です。苦労してデータを集めても、そのまま使えるとは限りません。
しっかり前処理して、知見につながる可視化をしたいですね。

データを可視化してみよう

今回は、データ可視化の学習支援サイト「Make Over Monday」から、2019年40週目に公開された「London Population Predictions」を使った可視化を行います。使用ツールはTableau DesktopおよびTableau Prepです。
順番に進めてみましょう。

1.データの中身を確認する

London Population Predictions」からcentral_trend_2017_base.xlsxをダウンロードして、中身を見ます。
ファイルにタブは4つあります。そのうち、Population – Persons、Population – Males、Population – Femalesは、2011年から2050年までの、ロンドンの各地区における全人口/男性/女性の人口構成です。2017年の調査なので、2016年までは実際の数値で、それ以降は予測値です。外れ値や欠損値もなさそうです。
データは「YYYY年におけるX地区のN歳のY性はM人」という粒度です。YYYYは2011~2050、Yは両方/男性/女性です。

Xは、本来33地区のはずなのですが、34項目あります。LondonとCity of Londonという、一見重複している項目があるのです。
調べてみると、City of London は、東京でいうなら永田町のような地区だということが分かりました。Londonは、地区全体の合計のことでした。

Nは0~90歳(1歳刻み)ですが、91歳以上がありません。89歳と比べてみると、90歳で人数が跳ね上がるので、91歳以上は全員90歳に分類されているようです。

Mは人数なのに、小数の部分があるのが気になります。予測値部分ならともかく、2016年以前にも小数があります。…ひとまず、気にせず行きましょう。

gss_codeは、イギリスの政府統計コードです。Tableau上で地区を指定するのに使えます。

もうひとつ、Components of Changeというタブがあります。
これは、「YYYY年におけるX地区の出生、死亡、国内転入・転出、国際転入・転出といった人口増減」のデータのようです。

2.分析の方針を立てる

今回は、Population– Personsタブを使った少子高齢化の分析を行います。

まず、分析の粒度を決めます。年齢のデータは1歳刻みになっているので、年齢区分を作ってまとめましょう。
人間は一度に7つ以上の項目を認識するのが難しいので、5歳以下を乳幼児、6~14歳を児童、15~34歳を青年、35~64歳を壮年、65~74歳を前期高齢者、75歳以上を後期高齢者とする、6区分にします。

少子高齢化するということは、平均年齢が上昇するはずです。前処理で平均年齢の値を作ります。

地区によって平均年齢の上昇度合いは異なるでしょうか。
人口を考えるうえで忘れてはいけない要素が地価です。若者は地価の安い地域に住み、高齢者は逆になりそうです(この段階では仮説です)。
ロンドンは、歴史的建造物が多く地価が極めて高いPrime Central London、都心のInner London、郊外のOuter Londonの三地域に分けられるそうです。元データ内にはないデータですので、別タブに地区と地域を関連付ける表を作ります。

3.Tableau Prepで前処理を行う

年齢区分の推移、平均年齢の推移、地域ごとの平均年齢と、作るものが決まったので、さっそく前処理していきます。

Tableau Prepを起動し、接続>Microsoft Excelからcentral_trend_2017_base.xlsxに接続します。Population – Personsタブを読み込み、今回使わないデータを削除します。
次に、計算フィールド「年齢区分」を作って、条件分岐で乳幼児、児童、青年、壮年、前期高齢者、後期高齢者を付与し、区分ごとの人数を集計します。さらに、年をキーにピボットします。最後に、地域区分と結合して完成です。

言葉で説明すると難しいですが、出来上がりはこんなデータ。「2011年のWandsworth地区(Inner London)の青年は124,894人」という風に整形しました。


同様に、平均年齢を求めます。計算フィールド上に年齢×人数と記述して合計年齢を作り、地区で集計して…さまざまな処理を経て、こうなりました。


この前処理部分が頭の使いどころです。最初から最終イメージが見えているのではなく、求める形になるまで試行錯誤を繰り返します。Tableau Prepは、現在適用されている前処理がアイコンで記録されるので、好きな段階まで戻って修正することができます。


いったんフローを作れば、別のデータに適用することもできます。月次で落ちてくる同じ形式のデータに同じ前処理を施して可視化、という業務をされる方には、特におすすめです。

4.Tableau Desktopで整形したデータを可視化する

さて、分析の方針も決め、必要なデータもできました。
早速可視化です!


ぱっと目を引くのは、平均年齢の高低を色で表現した地図ではないでしょうか。Tableauの名物機能のひとつ、「地理的役割の付与」を使った可視化です。
前述のように、イギリスの政府統計コードgss_codeと、こちらの空間ファイルを結合させると、データを地図上にプロットすることができます。しかも、「ジオメトリをダブルクリックで地図を表示→Distinctを詳細にドラッグして地区分け→平均年齢を色にドラッグして塗り分け」の3ステップで実現できます。

右上のyearはスライダーフィルタです。移動させると赤い部分が増え、高齢化が進んでいるのが分かります。初期値は、最新データであろう2016年です。右下の平均年齢で、おおよその値が分かるようになっています。

左下のGreater Londonは地域区分です。Prime Central London、Inner London、Outer Londonのみを表示することができます。

さらに、地図自体を地区フィルタにしてあるので、興味のある地区をクリックすると、下の平均年齢推移と年齢区分別人口増加が変化します。最初はロンドン市全体の平均年齢推移と年齢区分別人口増加が表示されていて、ユーザが各地区にドリルダウンして分析できる仕組みです。

5.考察し、次のステップを考える

さて、こうして可視化したデータから何が見えるでしょうか。
高齢化が進んでいくこと、地区によって偏りがあることは、すぐにわかりますね。

最初「地価が安いところは若い人が集まるのでは?」と考えて地域区分を作ったのですが、そうとも限らないようです。
一番高齢化が激しいのは、Inner London にあるCity of Londonです。ここは古くからある金融街なので、納得です。
Outer Londonの海側、Havering、Bexley、Bromleyも高齢化が進んでいるようです。この三地区は地価が安めです。

逆に、Tower Hamlets、Newham、Barking and Dagenhamは最も若い地区です。Newham、Barking and Dagenhamの地価は安いですが、Tower Hamletsは地価が高いエリアです。

すると、次のステップは、「それぞれの地区はどんな街なのか?住民の平均所得や治安などのデータを重ね合わせたら深掘りできるのでは?」というあたりになるでしょうか。

私は、イギリスに行ったことがないので、データから想像する他ないのですが、現地の方のお話が聞ければ、もっと適切な分析ができるでしょうね。
大切なのは、想像力と、現地(現場)の意見です。

もし、分析仮説の構築、データの前処理、可視化、分析にお困りの方がいらっしゃいましたら、弊社にお手伝いさせてください。
お問い合わせは、お気軽にどうぞ。

それではまた、次のブログでお会いしましょう。

著者プロフィール

コニカミノルタジャパン株式会社
マーケティングサービス統括部
デジタルマーケティング戦略部 データサイエンティスト
永井 睦美

2019年にコニカミノルタジャパンに入社し、データ分析基盤の開発に携わる。
学生時代は、オンラインコミュニティにおける協働の特性について研究。電気通信大学データアントレプレナーフェロープログラム修了。
趣味はサイエンス雑貨集めと、歴史的建造物巡りです。毎朝ストームグラスを眺めて「よくわからん」と唸っています。

Web&デジタルマーケティングの お悩みを一緒に解決します!

WEBからのお問い合わせ

今後のセミナー開催情報をメルマガにてお送りします

メルマガ登録

お問い合わせ

お電話でのお問い合わせはこちら

03-6311-9161

 

[受付時間]

月曜~金曜 9:00~12:00/13:00~17:00
(土・日・祝祭日および年末年始・弊社休業日を除く)