30代から始める日々の備忘録

30代エンジニアが送る、モノづくりの面白さとTips講座

①データサイエンスって何?

f:id:big_bear:20210411210835j:plain

①データサイエンスって何?

データサイエンスについて学ぶ機会がありましたので、備忘録として自分なりにまとめていきます。

データサイエンス

データサイエンスとは数学や情報科学統計学的な観点からデータを分析し、データから有益な知見(データの傾向や相関性など)を得ようとするアプローチのことです。近年、様々な分野でデータの収集や利用がされるようになり、こういったビックデータを有効活用するために分析手法としてデータサイエンスが注目を集めているようです。

 

ビッグデータ国勢調査

余談ですが、ビッグデータはの身近な例としては、皆さんも知っている国勢調査などの統計調査があります。(国勢調査統計法という法律により、日本国内にすべての人・世帯に回答義務がある全数調査で、市区町村ごとの年齢別男女数、職業ごとの就業者数居住場所等について調べます。) ちなみに国が行っている様々な統計調査のデータについて、こちらのe-Statから無料で利用できるのでマーケティングにも使えそうです。

  

データ分析に用いるPython言語

データ分析はプログラミング言語を用いて行います。データサイエンスに人気なプログラミング言語は主にRやPythonがありますが、今はPythonの方がよく用いられていますPythonは無料で使うことができ、あらかじめデータ分析に必要な可視化手法や解析手法がモジュール(ライブラリ)というファイルで提供されており、ユーザーはこのモジュールを読み込むことでデータの分析を行うことができます。また、Pythonはコーディンング量が少ない、文法が簡単などの特徴もあり人気で、データ分析以外の分野(アプリ開発など)にも利用されています。

 

データサイエンスに必要なスキル

Pythonはライブラリが充実しているので、分析したいデータとPython環境(ライブラリ)+ちょっとしたプログラム知識があれば、何らかの分析結果は出るので、データサイエンスっぽいことは誰にでもできます。また、Python言語は人気があるため、学ぶためのプログラマー養成講座等もたくさんあります。しかし、データサイエンスを行ううえで、Pythpn言語はツールに過ぎません。データサイエンスを行うには、設定した課題に対して、分析するデータの適切な選定と前処理(クレンジングや外れ値の扱いなど)、分析手法の選択(統計学的な知識、適切な機械学習モデルの選択)、分析結果の妥当性評価と課題へのフィードバック等のスキルも必要だと思います。

 

統計検定

 これまでの文章中に何度か「統計」という言葉が出てきました。Pythonを用いたデータ分析を行っていると、データのばらつきや誤差の扱い方、平均値・中央値・最頻値のどれを用いるべきか、どういった回帰モデルが適切なのかなど、統計の基礎的な知識があった方が良いと思います。

統計については統計(データサイエンス)検定と呼ばれる検定試験がありますので、自分の知識の再確認や向上のために受けてみるのはいかがでしょうか。

 

【ゼロからおさらい】統計学の基礎講座

 

次の記事ではデータサイエンスを無料で学ぶ方法を紹介します。