ビッグデータを世界の天才たちが紐解くKaggle クラウドソーシング Tweet 近年ビッグデータの活用が話題になっていますが、どれだけの企業が手元にある膨大なデータを本当に活用しきれているのでしょうか?データは山のようにあるけれど、それを活かしきるための時間や人的リソースがないから放置・・・という企業も多いのではないのでしょうか? そんな課題を解決してくれる糸口となるクラウドソーシングサービスKaggleをご紹介しましょう。 Kaggleの仕組み Kaggleは、データと課題を抱えている依頼者と世界中に散らばるデータサイエンティストを引き合わせるプラットフォームです。 同社のサイトで、企業や研究者がデータを提供しその分析から課題を導きだすコンペをだすと、それを世界中に点在するデータサイエンティストが予測モデルやアルゴリズムを編み出し競い合うという仕組みです。 データ分析を依頼する側は、Microsoft、Merck、Facebook、GE、NASAなどの外資大企業が多く、それらの企業からの課題を世界中のデータ分析の専門家たちが解析します。 課題のタイプは製品の需要予測、マーケットセグメンテーション、流通改善、ソーシャルメディアのセンチメント分析などデータ分析であれば何でもありです。 依頼主にとってのメリット 何よりものメリットは、130,805人もの世界中にいるKaggleのデータサイエンティストにアクセスできるということ。 この名だたる依頼企業のリストをみても、彼らがデータ分析のリソースを社内に持っていないとは考えられません。それでもKaggleにコンペを出す理由は、やはりKaggleの分析力の高さからなのです。 同時に、データを出すというのは機密情報の流出も意味するのでは?と思われるでしょう。Kaggleはその点も考慮し、事前のデータ匿名化をサポートするコンサルティングサービスを提供しています。 このコンサルサービスは、130,805人のKaggleのデータサイエンティストのうちトップ0.5%のみが関わることを許されています。この中から1名が担当となり、$300/時間のフィーで通常8時間から40時間ほどかけて、データ準備から課題設定までをサポートするというものです。 データサイエンティストにとってのモチベーション Kaggleのデータサイエンティストは過去のコンペ実績から、その実力をランキング付けされており、顔写真・プロフィール・過去のコンペ実績・ランキング・得意分野などが右のような形で公開されます。これこそが彼らのモチベーションです。 実力のあるデータサイエンティストにとって、取り組み甲斐のある難題を解決することは、それだけでも楽しい仕事です。その上、「あのKaggleでランキングXX番」といった形で実力が評価されるのです。それにより世界が広がり、ハイレベルなネットワークも広がっていくとのこと。 ちなみに、現在、日本人の方がランキング第5位に位置しているのを発見し、私も誇らしい気持ちになりました! Kaggleの過去事例 過去、Kaggleで行われた代表的コンペ例は以下。 入院患者の予測:Heritage Health Prize Kaggleの最も有名な2011年から2年越しで行われたコンペ事例。$300万の賞金をかけて過去のデータから次年度の入院が予測される患者を特定するという課題です。USでは、毎年$300億以上もの費用が緊急入院によって不要にかかってしまっているところ、10万人の患者のデータを分析し、近々入院が予測される患者に早めのケアを行うことで、緊急入院を減らしコスト削減につなけるためのものです。 HIV感染の未来予測 2010年に行われた、むしろ少ないデータ量しかない場合に予測を立てられるかというチャレンジ。たった1000人の免疫不全ウィルスの遺伝子情報からHIV感染の未来を予測するという課題。(データは2000人分存在したが、半分はコンペ審査の際の予測アルゴリズム検証に使われた。)優勝者は$500(たったの!)の賞金とコンペ主催者である大学の研究員との共同論文を出せる権利を得るというもの。意外にもSEOのマーケターが優勝したそうです。 チェスの結果予測 半世紀前にEloという物理学者/チェスマスターによって作られたチェスの結果予測モデルElo Systemに勝る予測モデルを立てよという課題。2010年に世界チェス協会FIDEとデロイトによって主催されました。過去11年間に渡り54,000人のチェスプレーヤーが行った184万ゲームの膨大なデータが提供されています。主催者のデロイトより$1万が賞金として出ました。 どうでしょう?「社内で処理した方がコストが安い」「弊社のプロジェクトは社外の人間には分からない」「機密情報の流出リスクがあるから」など、こういったクラウドソーシングを利用しない理由はいくらでもあります。しかし、これからの時代、世界に無限に広がっているリソースを積極的に活用するか否かで、企業のできることは大きく変わってきます。 あなたの事業でも、難易度の高いデータ分析が必要であれば、Kaggleのコンペを利用してみてはいかがでしょうか。 Tweet Author: Kazuyo Nakatani 中谷和世 Kazuyo Nakatani: 音楽大学声楽科卒業後、留学斡旋企業の営業/マーケティングを担当。その後、USへ渡り2007年にミシガン大学MBA取得。2007年〜2012年P&GにてSK-IIのマーケティングに従事する。うち3年はシンガポールに駐在。現在は東京在住、オンライン動画配信ビジネスのMarketing Directorを勤める。 Prev Blog Next 2013年12月2日
ビッグデータを世界の天才たちが紐解くKaggle
近年ビッグデータの活用が話題になっていますが、どれだけの企業が手元にある膨大なデータを本当に活用しきれているのでしょうか?データは山のようにあるけれど、それを活かしきるための時間や人的リソースがないから放置・・・という企業も多いのではないのでしょうか?
そんな課題を解決してくれる糸口となるクラウドソーシングサービスKaggleをご紹介しましょう。
Kaggleの仕組み
Kaggleは、データと課題を抱えている依頼者と世界中に散らばるデータサイエンティストを引き合わせるプラットフォームです。
同社のサイトで、企業や研究者がデータを提供しその分析から課題を導きだすコンペをだすと、それを世界中に点在するデータサイエンティストが予測モデルやアルゴリズムを編み出し競い合うという仕組みです。
データ分析を依頼する側は、Microsoft、Merck、Facebook、GE、NASAなどの外資大企業が多く、それらの企業からの課題を世界中のデータ分析の専門家たちが解析します。
課題のタイプは製品の需要予測、マーケットセグメンテーション、流通改善、ソーシャルメディアのセンチメント分析などデータ分析であれば何でもありです。
依頼主にとってのメリット
何よりものメリットは、130,805人もの世界中にいるKaggleのデータサイエンティストにアクセスできるということ。
この名だたる依頼企業のリストをみても、彼らがデータ分析のリソースを社内に持っていないとは考えられません。それでもKaggleにコンペを出す理由は、やはりKaggleの分析力の高さからなのです。
同時に、データを出すというのは機密情報の流出も意味するのでは?と思われるでしょう。Kaggleはその点も考慮し、事前のデータ匿名化をサポートするコンサルティングサービスを提供しています。
このコンサルサービスは、130,805人のKaggleのデータサイエンティストのうちトップ0.5%のみが関わることを許されています。この中から1名が担当となり、$300/時間のフィーで通常8時間から40時間ほどかけて、データ準備から課題設定までをサポートするというものです。
データサイエンティストにとってのモチベーション
Kaggleのデータサイエンティストは過去のコンペ実績から、その実力をランキング付けされており、顔写真・プロフィール・過去のコンペ実績・ランキング・得意分野などが右のような形で公開されます。これこそが彼らのモチベーションです。
実力のあるデータサイエンティストにとって、取り組み甲斐のある難題を解決することは、それだけでも楽しい仕事です。その上、「あのKaggleでランキングXX番」といった形で実力が評価されるのです。それにより世界が広がり、ハイレベルなネットワークも広がっていくとのこと。
ちなみに、現在、日本人の方がランキング第5位に位置しているのを発見し、私も誇らしい気持ちになりました!
Kaggleの過去事例
過去、Kaggleで行われた代表的コンペ例は以下。
入院患者の予測:Heritage Health Prize
Kaggleの最も有名な2011年から2年越しで行われたコンペ事例。$300万の賞金をかけて過去のデータから次年度の入院が予測される患者を特定するという課題です。USでは、毎年$300億以上もの費用が緊急入院によって不要にかかってしまっているところ、10万人の患者のデータを分析し、近々入院が予測される患者に早めのケアを行うことで、緊急入院を減らしコスト削減につなけるためのものです。
HIV感染の未来予測
2010年に行われた、むしろ少ないデータ量しかない場合に予測を立てられるかというチャレンジ。たった1000人の免疫不全ウィルスの遺伝子情報からHIV感染の未来を予測するという課題。(データは2000人分存在したが、半分はコンペ審査の際の予測アルゴリズム検証に使われた。)優勝者は$500(たったの!)の賞金とコンペ主催者である大学の研究員との共同論文を出せる権利を得るというもの。意外にもSEOのマーケターが優勝したそうです。
チェスの結果予測
半世紀前にEloという物理学者/チェスマスターによって作られたチェスの結果予測モデルElo Systemに勝る予測モデルを立てよという課題。2010年に世界チェス協会FIDEとデロイトによって主催されました。過去11年間に渡り54,000人のチェスプレーヤーが行った184万ゲームの膨大なデータが提供されています。主催者のデロイトより$1万が賞金として出ました。
どうでしょう?「社内で処理した方がコストが安い」「弊社のプロジェクトは社外の人間には分からない」「機密情報の流出リスクがあるから」など、こういったクラウドソーシングを利用しない理由はいくらでもあります。しかし、これからの時代、世界に無限に広がっているリソースを積極的に活用するか否かで、企業のできることは大きく変わってきます。
あなたの事業でも、難易度の高いデータ分析が必要であれば、Kaggleのコンペを利用してみてはいかがでしょうか。