特集 データサイエンティストに聞く、AI時代に必須なスキル
門田 実(かどた みのる)氏
データサイエンティスト
立教大学社会情報教育研究センター助教
国際太平洋研究センター(IPRC)アナリスト、フィラデルフィア州立大学准教授、外資系ITデータサイエンティストなどを歴任。
・北海道大学、ロードアイランド州立大学 学士号(水産学、物理学)
・ロードアイランド州立大学 修士号(海洋物理)
・ニューヨーク大学クーラント数理科学研究所 修士号(数学)
・ニューヨーク大学クーラント数理科学研究所
(Columbia University) 博士号(応用数学)
ビッグデータの時代といわれ、そこで活躍する「データサイエンティスト」という職業がマスコミなどで取り上げられるようになってきた。この「データサイエンティスト」とは、どのような職業で、どういった仕事をする人なのか、そして、どのような可能性がある仕事なのだろうか。
データサイエンティストとして活躍しながら、立教大学助教、TAC統計検定®対策講座講師も務めている門田実氏に、データサイエンティストが社会から必要とされている時代背景や、求められるスキル、活躍の場などについてうかがった。
日米の大学で幅広く学ぶ
──データサイエンティストとして多方面で活躍される門田さんのご経歴を教えてください。
門田 私は鎌倉で生まれ、海のすぐそばで育ちました。海が好きで船乗りになりたいという思いがあったので、航海士資格を取得できるプログラムがある北海道大学水産学部に進みました。
そこで水産学を学んだあとは、アメリカ・ロードアイランド州立大学に入って物理学を勉強し、同大大学院に進み海洋学と海洋物理学を勉強しました。その頃は論文を書いてアメリカ航空宇宙局(NASA)の奨学金をもらっていました。
大学院を卒業後は数学を勉強しようと考えて、ニューヨーク大学クーラント数理科学研究所の博士課程に行きました。そこでは応用数学と気象学を学び、大学院で博士号(応用数学)を取得しました。
──日米の大学で幅広く学ばれたのですね。
門田 そうですね。博士号取得後は、ハワイにある国際太平洋研究センター(IPRC)に入りました。IPRCは日本とアメリカの共同研究機関として、1997年にハワイ大学海洋地球科学技術学部内に設立され、アジア・太平洋地域を中心に地球環境とその変動に関する研究を行っています。そこで私は気候変動の研究をしていました。
気がつくとアメリカ生活が15年に及んでいましたが、次は京都あたりに住んでみたいと思い、そのエリアで仕事を探していたところ、ちょうど近畿大学農学部でクロマグロの養殖において数学者を探していることを知りました。応募したところ採用されましたので、京都に住み、奈良の近畿大学に通う生活となりました。
その後、フィラデルフィア州立大学(Tokyo Campus)では准教授として国際ビジネス学科で教壇に立ち、並行して執筆活動などを行いました。さらに大手外資系IT企業でデータサイエンティストとしてマーケティングデータの分析に携わってきました。
──国内外で様々な研究や教育などにも携わってこられたのですね。現在はどのような仕事をされているのでしょうか。
門田 現在は、立教大学社会情報教育研究センターで助教を務めています。その他にも、データ活用に取り組み始めたばかりという企業をサポートしたり、スタートアップ企業にデータサイエンティストとして関わったりしています。また、自分の経験を活かして後進を育てるべく、社会人向けのデータ分析や統計学のセミナーに登壇するほか、TACの統計検定®対策講座の講師もしています。
数理科学の知識を使い、企業の課題解決をサポート
──最近ではニュースなどでデータサイエンティストの肩書を持つ方が登場することもありますが、そもそもデータサイエンティストとは、どのような仕事をする人なのでしょうか。
門田 データサイエンティストとは「データを分析・活用する技術者」のことですが、取り扱うデータによって仕事内容に大きな違いがあるので、ひとことで仕事内容を説明するのは難しいですね。
一般社団法人データサイエンティスト協会では、データサイエンティストを「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定義しています。
ここでの「ビジネス」の意味は企業の営利活動だけでなく、社会の役に立つ意味のある活動全般を指しています。そして「プロフェッショナル」とは、体系的にトレーニングされた専門的なスキルをベースに顧客に価値を提供し、その対価として報酬を得る人だとされています。
ただし、まだ新しい職業ですので、いろいろな捉え方があると思います。私自身は、幅広い分野・業界で、数理科学の知識を使って、企業などが抱えている課題を解決するためのお手伝いができたらいいな、というスタンスで仕事をしています。
──データサイエンティストにはどのようなスキルが求められるのでしょうか。
門田 データサイエンティスト協会にはスキル定義委員会という組織があり、以下の3つをデータサイエンティストに求められているスキルセットと定めています。
・ビジネス力(business problem solving):
課題背景を理解し、ビジネス課題を整理・解決に導く力
・データサイエンス力(data science):
情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力
・データエンジニアリング力(data engineering):
データサイエンスを意味のある形として扱えるようにして、実装・運用する力
この3つのスキルセットは、ひとつでも欠けるとデータサイエンティストとして十分な力を発揮できません。ただし現状では、3つのスキルセットをすべて兼ね備えている人材は多くありませんので、得意なスキルを活かしてチームで解決にあたるのが現実的だと思います。
──今、データサイエンティストが注目される理由、必要とされる理由について教えてください。
門田 2018年にIBMが推計したところでは、人類がこれまでに集めた全データのうちの80~90%が、過去2年間に蓄積されたものだったということです。ビッグデータの時代といわれるように、データが潤沢に存在するようになったことで、データを簡単に取得し、分析・活用できるようになったことが要因であるといえるでしょう。
なぜ急激にデータを集められるようになったかというと、理由のひとつとして、スマートフォンやSuicaなど交通系ICカードの普及が挙げられます。これらを多くの人が持ち歩くようになったことで、位置情報や利用履歴から、ユーザーのいる場所や行動を観察することができるようになったのです。
こうして集められたデータを分析・活用することで、新たなサービスの手法などが開発され、業界や事業に変革をもたらすことが可能になります。こうした背景から、データサイエンティストが必要とされているのです。
気候変動からクロマグロの行動解析まで
──これまでに門田さんが実際にデータサイエンティストとして取り組んできた課題について、どのようにアプローチしたのかなど、少し詳しく教えていただけますか。
門田 ハワイのIPRCでは気候変動に関するプロジェクトに参加し、NASAが持っている衛星データを分析して、将来の地球温暖化の影響を評価していました。具体的には、どうすれば気候変動の予測精度を上げることができるかという課題に対し、データマイニング(データベースから情報を抽出し、自動的にパターンを発見する分析手法)を行っていました。
──まずは、情報の抽出から始まるのですね。
門田 はい。気候変動の予測は天気予報の延長のようなイメージを持たれるかもしれませんが、実は大きく違います。天気予報は1~3週間先の天気を予測するために、天気が変化する地上20km程度までの対流圏を見て予測を行いますが、気候変動は3ヵ月から10年、50年といった長期予測になりますから、まずはその精度を上げるためにはどのような情報が必要かを検討することが大切です。これまで見ていなかった新しい情報を持ってこなければ予測精度は上がりませんので、まずは大気にはどのような情報が隠れているのかを探すのが仕事でした。
例えば地上約20~50km付近の成層圏の情報にまで広げて予測すれば、誰も使っていない情報があるのではないかと考えたり、成層圏の大気の変動が地上にどのようにして伝搬するのかといったデータを組み込んで予測すれば、精度が上がるのではないかと考えたりして、視野を広げながら隠れた情報を探っていきます。このケースでは、NASAが持っている衛星データが必要になり、モデルに使いましたね。
──何が「必要な情報」であるのかを見極める力が必要なのですね。そのあと近畿大学では、マスコミでも有名なクロマグロの養殖に関わっていたとうかがいました。
門田 はい、クロマグロの行動解析の研究をしていました。クロマグロは時速160kmくらいで遊泳しますので、養殖しているいけすの中ではしばしば衝突事故が起きます。コストをかけて養殖していたクロマグロが死亡すると生産性が下がり、大きな損失になってしまいますから、衝突事故を防ぐために、私はクロマグロに「データロガー」という電子機器をつけて、海の中のどこをどう泳いでいるのかを追ってその動きをモデリングし、数理モデルに載せるという研究をしました。それを元に、例えばどういう形状のいけすにすると事故率や死亡率が下がるのかといったことを調べていきます。クロマグロの行動解析ではたくさんの論文を書かせてもらいましたね。
また、最適な養殖生産量はどれくらいなのかということについても分析しました。実は、養殖でクロマグロを1トン育てるためにはサバやイワシといった餌が約15トンも必要なのです。今、世界では人口の増加と食料不足が問題になっていますので、クロマグロを1トン養殖するよりも、餌として消費される15トンの魚を人間の食糧に回したほうがいいのではという見方も当然あります。そうした観点から、最適な養殖生産量を分析して導き出すことも行っていました。マレーシア政府も同様の懸念をしていたようで、招かれて講演も行いました。
──IPRCでは気候変動予測、そして近畿大学ではクロマグロの養殖研究と、取り組まれた分野が様々ですね。
門田 そうですね。インタビューの冒頭で、データサイエンティストの仕事内容は取り扱うデータによって大きな違いがあるとお話ししたのは、こういうことです。
他には、企業の退職者予測モデルを作成したこともあります。企業はいい人材にはやめてほしくないので、さまざまなデータを分析して予測モデルを作成します。すると例えば残業時間の変化などから退職のサインを読み取ることができるようになり、対策をすることが可能になるのです。
また外資系IT企業では、広告の効果を測定するモデルを作りました。企業が広告を出稿する際に、出稿場所と出稿金額をどのように配分すれば最も効率よく売上を上げられるかというモデルです。
これ以外にも、広告代理店ではさまざまな商品の需要予測をしましたし、メーカーではエンジニアがシステムを作る際に必要となる数理モデルをひも解いて教えたこともあります。
今、ECサイトで顧客の購買履歴をもとにした購買予測を行っているデータサイエンティストは大勢います。大手ECサイトでは購買履歴などのビッグデータをデータサイエンティストが解析した結果、売れ筋ランキングによく入る商品は売上が増加していること、商品ジャンルを細かく設定したほうが全体の売上が上がることがわかりました。そこでランキングの更新頻度を上げ、商品ジャンルをより細分化することによって、売上を伸ばすことに成功しています。これはマーケティングの専門家が解決できなかったことを、データサイエンティストの活躍により解決できた代表的な例といっていいでしょう。
日本企業のデータリテラシー向上は急務
──お話をお聞きすると、国内でもデータサイエンティストが活躍し、データサイエンスやビッグデータが活用されているように思えますが、門田さんは日本の現状をどのように見ていますか。
門田 日本ではまだまだデータの活用はしきれていないと思います。マサチューセッツ工科大学(MIT)は、データリテラシーを「データを読み、処理し、分析し、議論する能力」と定義していて、さらに組織全体の意思決定のスピードを向上させるためにも、データリテラシーを高める必要があると謳っています。つまりデータリテラシーは、データサイエンティストだけでなく、企業で働く様々なレベルの人が持つべきスキルだということなのです。
ひとつの例があります。あるアメリカの食料品会社で、お客様からのクレームが急増した際にその内容をデータ分析した結果、ある工場で原材料の変更を行っていたことがわかり、そこで原材料を元に戻したところ、クレームを減らすことができたそうです。
日本企業では、このようなデータ分析に基づいた判断はなかなかできていないのが現状です。なぜかといえば、現場、バックオフィス問わず、従業員全体のデータリテラシーが十分ではない上に、分析できるだけの十分な量のデータを蓄積する環境が整っている企業も少ないからです。必要なデータが取れていなければ、分析は行えませんよね。
──日本では、ビジネスパーソンのデータリテラシーの向上とともに、データを蓄積する環境の整備が必要なのですね。
門田 その通りです。次のような調査もあります。アメリカのペンシルベニア大学ウォートン校と米調査会社のIHS Markitがデータリテラシーの必要性に焦点を当てた調査を行い、600社を超える企業のデータリテラシーを評価したところ、データリテラシーが高い企業は、同業他社よりも企業価値が3~5%高いという結果が出ました。
同調査では主要10ヵ国のデータリテラシーも比較していますが、100点満点で首位はシンガポール企業の84.1点、日本企業は最下位の54.9点。日本企業のデータリテラシー向上はまさに急務といえるもので、このままではグローバルでの競争についていくことはできないでしょう。
日米で大きく異なる数学教育、統計学の教え方
──アメリカを始めとする海外と比較し、日本はずいぶんと遅れている印象ですね。その理由について門田さんはどうお考えですか。
門田 何よりも、学べる場が少ないことが挙げられます。ここ数年で少しずつ増えてはいますが、日本の大学にはデータサイエンスを学べる学部や学科が以前はほとんどありませんでした。
私は日本とアメリカの大学で学びましたが、日米では数学教育、特に統計学の教え方に大きな違いがあると感じました。日本では大学1~2年次の共通科目として統計学を教えている大学はまずありません。専門の学科などに進んでから、その専門分野だけに特化した形で統計学を教えているのです。例えば農業学科の場合、農業を専門としている先生が自分の研究の際に使っている農業統計学を教えているケースがほとんどだと思います。つまり学生にしてみると、統計学を学んではいますが、統計学そのものを専門とする先生に教わっているわけではないため、ある特定の分野だけに偏った統計を学んでいるという状態なのです。
一方アメリカでは、統計学を専門とする先生がいて、学生がそれぞれ専門の学科に進んだあとでも、統計に関する授業はその先生が教えるのです。すると基盤となる統計の知識が幅広いものになり、さまざまな分野で応用が利くようになります。このギャップが私は大きいと思いますし、日本でデータ活用が広がっていかない理由のひとつではないかと考えています。
──確かに、日本には統計学を学べる大学が少ないと聞いたことがあります。
門田 日本では、大学受験に際しても統計学は出題されていません。おそらく、統計学はいろいろな見方によっていろいろな答えが出てくる、つまり答えがひとつではない学問のため、公平性が必要な受験には向かないと判断されているのだと思います。
けれども本当は、「数学」も答えはひとつではないのです。受験で出される、「答えはひとつ」と思われているものは「数学」ではなく「算術」なのです。この意味で、私は教育そのものを見直したほうがいいのではないかと思っています。実際、私が助教をしている立教大学では、そこをきちんと見直していこうとしており、統計学などの教育に取り組み始めています。
統計についての「体系的な学び」を
──これからのビジネス社会で活躍したいのであれば、職業としてデータサイエンティストにならないとしても、データサイエンスの知識は必須になりそうですね。
門田 そうですね。先ほどお話ししたデータサイエンティスト協会のデータサイエンティストに求められる3つのスキルセットや、MITのデータリテラシーの定義に書かれている知識やスキルを身につけることが必要になっていくと思います。
ビジネス社会で活躍する上で、数学や統計学の知識は活用できるようにしておくべきですし、コンピュータも使いこなせなければなりません。それだけでなく、ビジネス力、コミュニケーション能力、プレゼンテーション能力も必要になるでしょう。というのも、分析すべきいいデータを見つけたり、分析結果を元に新たな提案を行ったりする際には、上司や他部門を説得できなければ、そのデータや分析結果を実際のビジネスに活かすことはできないからです。また日本には、各部署でデータを持っていたとしても、部署間での共有や全社での共有ができていない企業がたくさんあります。そういう意味では、部署間をつなぐ力、つないでいく能力も大切になります。
──データサイエンスのスキルは、具体的にはどのようにして身につければいいのでしょうか。
門田 データサイエンティストに必要となる知識のひとつが統計学で、その先に多変量解析とか機械学習という数理の知識が求められます。しかし、これらを自分ひとりで勉強するのはかなり大変です。数学や統計学は自分で教科書を読んでもなかなか身につかないので、そこはお金がかかっても、体系的に学べるコースを利用するのが近道だと思います。
そして、座学で勉強した内容を理解しているか確認するためには、実際にプログラムを書くことをおすすめしています。プログラミングをするにはアルゴリズムを自分で理解していなければいけませんから、プログラムを書けるということはすなわち理解できているということなのです。システムのキットを使うと簡単に結果を出すことができますが、それを正しく評価するためには数理科学の知識が必要になります。
このインタビュー記事を読んでいる方は文系の方も多いと思いますので、どこまでデータサイエンスを自分自身で取り入れたいのか、どのレベルでやりたいのかを見極めることも必要だと思います。理系的な部分に手を出しにくければ、必要なスキルセットのうちビジネス力を高めるといった方法もあります。ただし、数学を学ぶことは論理的な思考を学び、身につけることにつながりますから、ぜひトライしてみるといいと思います。
データサイエンスはあくまでも「手段」
──公認会計士や税理士、社会保険労務士といった士業の方々は、企業から財務情報や労務情報など、さまざまなデータを預かる機会があります。そうしたデータに対して、データサイエンスを活かして新たな提案や課題解決などをすることは可能でしょうか。
門田 データサイエンスについて学ぶだけで何か答えが出てくるわけではありませんので、士業の方々がデータ活用に乗り出そうと思った場合には、まず目的を見つけることが大事です。データサイエンスやデータ分析は「手段」に過ぎませんから、目的がはっきりしていなければ、いくら良質なデータを持っていたとしても、そのデータを活かすことはできないのです。先ほど、私がこれまでに取り組んできた例として、残業時間の変化などから企業の退職者予測モデルを作成したケースをご紹介しましたが、「この企業は、最近退職者が増えて困っているのではないか」など、まずはクライアントを観察して課題を見つけることからスタートしてみてください。それから課題に沿って必要となるデータを集めるのですが、ここで統計学や機械学習の知識が必要になります。そしてデータを分析した結果を検証し、ビジネスに活用していくことになります。
つまり、どのような課題があるのかがわかれば、データサイエンスを使って解決につなげることができるのです。
──データサイエンスは問題を解決するための「手段」なのですね。
門田 そうですね。士業の方々も、クライアントのデータを分析して経営改善に役立てる意思決定のベースとしてデータを読み取る力をつければ、データを活かせるようになるでしょう。
ただ、繰り返しになりますが、データを読み取るには統計学的な力が必要になります。そして統計を分析するには数学が必要になります。特に文系の方の中には高校生以来数学には触れていないという方もいると思いますし、数字に接する機会が多く数字を読むことには慣れているという方でも、読んだ数字を論理的な思考で考えるスキルは必要です。また、コンサルティングを行うにはデータを読んで、そこから課題の解決につながるヒントを見つけ出すことが必要になりますから、やはり統計学は必要になります。
──文系の士業の方も、統計の勉強をするメリットは大いにあるということですね。
門田 そうですね。物事を分析するには論理的な思考が必要ですから、統計や数学の勉強を通じて論理的な思考を身につけることは大切ですし、分野によって単位は違えど、数そのものの関係性は変わりませんので、一度ベースとなる知識を身につければ、どの分野でも、世界中どこででも使えるのです。
統計学は社会人としての教養
──これからスキルアップをめざす方々にメッセージをお願いします。
門田 データサイエンスをビジネスで活かすためには、統計学や数学の知識を身につけることが必要になります。データを読む力やデータリテラシーを持つことは、これからの社会では必須となっていくでしょう。その基礎となるものが統計学なので、社会人としての教養として身につけておくといいと思います。実社会で役立つものとしては、記述統計学を学ぶのがおすすめです。記述統計学とは、データを整理・要約して、いかに可視化するかを学ぶもので、プレゼンテーションなどにも活かせる知識です。
今、世の中ではデータの活用によってイノベーションを起こすことが期待されています。一方で、力あるデータサイエンティストの不足が問題視されていますので、そうしたスキルを身につけ、データを分析して活用する力、企業の発展に寄与していく力を持つ人材が必要とされています。ですから、データサイエンティストにまでならずとも、データを読む力、統計学の知識を持った人材は活躍できる余地がたくさんあるのです。
AIの発展が目覚ましいことから、データ分析の仕事も将来的にAIに取って代わられてしまうのではないかと思う方もいるかもしれません。しかし先ほど話したように、「目的」を見つけられなければ、いくら「手段」があってもそれを活かすことはできないのです。計算能力や処理能力など、人間よりもAIのほうが速く正確な分野は確かにあります。しかし、どのようなデータをどういった形に処理し、その分析結果を使ってどのような価値を生み出していくかを考え、実行していくことは人間にしかできません。
私がこれまでに様々な研究に携わることができたことからもわかるように、データ分析を必要としている業界や企業は幅広く、さまざまな業界で必要とされていますので、その中から自分の好きな業界を見つけていくことができます。これからは、専門分野をひとつに限定せずに活躍できるスキルを身につけておくといいでしょう。いろいろな実務を通じて得意分野を作り上げてください。
そして統計学や数学の知識は自分ひとりで勉強するのは難しいので、TACの統計検定®対策講座などを活用していただければと思います。いろいろな業界の中にネットワークを作り、知識やスキルを高めるための仲間を作ることも大切です。ぜひがんばってください。
[『TACNEWS』 2020年12月号|特集]