データサイエンティスト
最近よく耳にするこの言葉。皆さんは理解されてますか?

近年、このデータサイエンティストが稼げる!みたいなことが言われ始めていますが、少しデータサイエンティストという言葉が独り歩きしている感じがありますね。

気になるけど、そもそもの定義がわかんない!と言う、企業における採用担当者も多いのではないでしょうか。Googleで検索しても、

ハードウェア・ソフトウェアの進歩に伴い、大規模で複雑な「ビッグデータ」の蓄積・分析が可能となり、ビジネス分野でのビッグデータ活用が進められています。 このビッグデータを分析する人材が「データサイエンティスト」です。―引用

…と、いまいちピンとこない説明ですね。

ここでは、今話題のデータサイエンティストに関して簡潔に述べ、実際のデータサイエンティストにインタビューして得た情報を公開します。気になるお給料もズバリわかりますよ

この記事を読んで、データサイエンティストに関する認識を改めてみてください。読まれた方にとって今後の有益な情報となることをお祈りします。

データを基にスキルセットする、データサイエンティスト

データサイエンティストとは、様々なビックデータを分析し、様々なスキルを駆使し、他の業務改善につなげるために活動する人々、です。

つまりデータサイエンティストは、統計学に基づいたビックデータを基に、数学・心理・プログラミングといった畑違いとも思える様々なスキルを駆使して問題を柔らかくし、整理します。
そして、業界の知識、文脈上の理解、既存の仮定に疑念を抱くすべての分析力を適用して、ビジネス上の課題に対する隠されたソリューションを発見します。

…と、まあ難しく言えばキリが無いのですが。これぐらいの認識で間違いないでしょう。

昔はプログラミングだけする人、営業電話をかけまくる人、といった会社組織においての役割分担が明確でしたが、それら業務の効率化を図るべく分析して提案するのが、データサイエンティストです。

目的意識なくプログラミングさせるのではなく、構築したプログラムを社内だけではなく外部サービスにもつなげるように指示したり、やみくもに営業電話をかけさせるのではなく、顧客データに基づいてテレアポ効率を引き上げる指示をする仕事、ですね。

実際のデータサイエンティストにインタビュー

海外サイトに、Airbnbのデータサイエンティストであるリサさんにインタビューしている記事があります。

それらを翻訳してみましたので、ここに掲載します。Airbnbの成功、彼らが仕事で使用するプログラミング言語、そして成功するために学生が知る必要があるデータサイエンティストの影響力について答えているようです。

Q:あなたの仕事の長所と短所は何ですか?

A:いい面は、急展開する状況に対して、データサイエンティストは大きな影響を与えることができる点です(次の質問への回答を参照)。
Airbnbでは、面白い問題がたくさんあり、興味深いデータを扱うことができます。同社の文化はまた、私たちがさまざまなことに取り組むことを奨励しています。

ネガティブな点として、私はAirbnbに2年も滞在していませんでした。私は既に全く異なる3つの製品チームに取り組んできました。本当に鈍い瞬間はありません。
これは、環境によっては仕事の”不成立”と捉えられる可能性があります。作業すべき面白い事案がたくさんあるので、プロジェクトにもっと深く関わりたいと思う事があります。

私はしばしば複数のプロジェクトを同時に扱うことがあります。そのうちの1つで90%が完了したら、もう何かに移ります。

Q:データサイエンティストがAIRBNBの全体的な成功にどのような影響を与えていますか?

データサイエンティストとして、私は製品のライフサイクルのすべてのステップに携わっています

たとえば、今私は検索チームの一員です。私は、データを使って投資すべき分野を特定し、これらの問題を解決するための具体的な製品アイデアを思いつくために、研究と戦略策定に深く関わっています。

そこから、ソリューションがデータ製品を作り出すのであれば、エンジニアと協力して製品を開発することができます。次に、製品の効果と影響を定量化し、実験を実行して分析するための実験を設計します。最後に、私が学んだことを踏まえて、次の製品の反復のための洞察と示唆を提供します。

Airbnbの各製品チームには、エンジニア、デザイナー、プロダクトマネージャー、および1人以上のデータサイエンティストがいます。

Q:どのスキルやプログラミング言語があなたの仕事で最も頻繁に使用しますか?その理由は何ですか?

A:Airbnbでは、Hive(これはSQLに似ています)を使用してデータをクエリし、派生テーブルを作成します。
私は分析を行い、モデルを構築するためにR言語を使用します。私は仕事の毎日HiveとR言語を使用します。
多くのデータ科学者がR言語の代わりにPythonを使用しています。これは、私たちが入ったときに慣れ親しんだことの問題です。
最近、Sparkを使って大規模な機械学習モデルを構築しようとしています。

Q:どのような人が最高のデータサイエンティストになれますか?

A:成功したデータサイエンティストは技術的背景が強いですが、最高のデータサイエンティストもデータについて直感的です。
可能なすべての機能をブラックボックスのマシン学習モデルに投入し、何が出てくるのかを見るのではなく、まずデータが理にかなっているかどうかを考える必要があります。

機能は意味がありますか?あなたは彼らが意味するべきことを反映していますか?データがどのように配布されるかを考えた際、どのモデルを使用するべきですか?価値がなくなった場合、それは何故ですか?そして、あなたはそれをどうしたらいいと考えますか?

これらの質問に対する答えは、あなたが解決している問題、データが記録された方法などによって異なり、データサイエンティストがこれらの異なるシナリオを探して適応する必要があります。

最高のデータサイエンティストは、他のデータサイエンティストと技術者以外の人々とのコミュニケーションにおいても優れています
Airbnbで解析効果を発揮するためには、分析は技術的に厳密であり、会社の他のメンバーに明確かつ実用的な方法で提示されなければなりません。

 Q:データサイエンティストとしての地位を育てる学生には、どのようなアドバイスをお願いしますか?

A:プログラミングや統計コースを聴く以外にも、手を動かし体験し、実際のデータを扱うためにできる限りのことをすることをお勧めします。

あなたがインターンシップをする時間がない場合は、サインアップしてハッカソンに参加したり、彼らが持っているデータ問題に取り組み、地元のスタートアップを手伝ってください。コースや本は基本的な技術スキルを開発するのに最適ですが、データセットが整備されている教室では、多くのデータ科学スキルを適切に開発できませんので。

以上が、インタビュー内容になります。

リサさん自身かなりプログラミングの技術もしっかり兼ね備えている、という印象ですね。データサイエンティストはあらゆるプロジェクトにおいて関わり合いを持てる立ち位置ですが、そのすべてを見届ける前にまた新たなプロジェクトを遂行する行動力が求められる、といったところでしょうか。

全体的なイメージと重要に感じたポイントは「他のスキルを有する人々とのコミュニケーション能力」の重要性。ここがベースにあれば、データサイエンティスト自身に直接的な技術スキルが多少不足していても改善業務を遂行できるのではないでしょうか

しかし、アサインする際にチンプンカンプンな提案をしていてはそもそもメンバーからの信頼も得れません。最低限の知識吸収は必要でしょうし、当然データサイエンティストにそのスキルを有するに越したことはありません。

気になるデータサイエンティストの給料

すでにアメリカをはじめとする海外企業では、データサイエンティストという役割は確立しています。当然そこには人件費、つまりお給料が発生しています。
非常にこれからのビジネスシーンにおいて重要なポジションを担うであろうデータサイエンティスト。彼らのお給料はどれぐらいが相場なのでしょうか。

未経験からデータサイエンティストになり仕事を得る方法はコチラ

アメリカのBurtch Workが調査した2014年のデータによると、その金額が見えてきます。データサイエンティストの36%が西海岸で働いている、なんていう結果もあるそうですよ。

Glassdoor 調べ
平均給与(2015年):年間$ 118,709
最低: $ 76,000
最大: $ 148,000

PayScale 調べ
Median Salary(2015):年間$ 93,991
合計支払額: $ 63,524 – $ 138,123

シニアデータサイエンティスト
PayScale 調べ
Median Salary(2015):年間$ 124,273
合計支払額: $ 89,801 – $ 179,445

あくまでも平均値ですが、およそ10万ドル/年間よりも高め、が相場と言えるでしょうか。日本で言う1000万円プレイヤーですね。
思ったよりも高くない印象ですが、これから需要が伸びてくるにつれてその価値はきっと見直されるに違いありません。

まとめ

ここでは、データサイエンティストに関してまとめてみました。
実際の業務に携わるデータサイエンティストのインタビューから、様々な役割や意識が確認できましたね。給与の相場が確認できたのも、採用者目線において重要でした。

日本でも間違いなく今後増えていく、このデータサイエンティストという役割。まだまだ目指す側も採用する側も、進むべき道のりは長そうです。