Netflix視聴の75%を支えるオススメ機能の秘密 Webマーケティング Tweet USでは、定額制動画配信サービスの絶対的王者であるNetflix。 視聴者データ分析をもとに1億ドルという巨額の制作費をつぎ込み成功させたエミー賞受賞ドラマ「ハウスオブカード」や、2014年にはネットワーク中立性の話題でも有名になりました。しかし、私が最も注目しているNetflixのすごさは、何よりもオススメ機能(レコメンデーションエンジン)です。 全視聴の75%がオススメ機能から。 Netflixのなんと75%もの視聴が、オススメ機能から始まっているといいます。これは驚異的な割合です。だって、想像してみてください。「XXって映画観たいな。検索、検索・・・」という前に「(オススメ欄に)XXがある!これ観よう。」となる状況を作っているのです。通常のケースでは、オススメ機能からの視聴なんて、Netflixの半分もないでしょう。 この75%という数字こそが、NetflixのプロダクトイノベーションのVP・Todd Yellin氏に「Search is Dead (サーチの時代は終わった)」と言わしめる、その自信の所以なのです。 執念のリバースエンジニアリング 昨年、How Netflix Reverse Engineered Hollywoodという記事がバズっていたのをご存知でしょうか。 あまりに長文のためか、日本ではそれほど話題になることがありませんでしたが、読んでみるとこの記事、かなり面白いのです。 当時Atlanticの編集者であったAlexis C. Madrical氏が、狂気の沙汰としか思えない執念のリバースエンジニアリングでNetflixのオススメ機能の秘密を紐解くというストーリーです。 具体的にどういうことかというと、いちユーザーとして、Netflixのオススメ機能の精度に魅惑された彼は、Netflix上で入手し得るデータをあらゆる手法を駆使して分析しまくり、どのようなアルゴリズムでNetflixがユーザーに好みの作品をお薦めしているのかを解明します。そして、その結果を携えて、NetflixののTodd Yellin氏(24ページもの提案書を自ら作り立ち上げ、オススメ機能を長年率いてきた張本人!)に会いに行くのです。 それに対し、Todd Yellin氏も「まさにこんな風に解明してくれる人を待っていた」とコメントしています。(知性の頂上決戦っぽくっていいですね!笑)Alexisの熱い執念に応え、長年自身が取り組んできたアルゴリズムの開発背景を語るという・・・まさに、ハリウッド映画か、桃太郎か(笑)と見紛うほどのワクワクするストーリーなのです。 データの整備から始まった長い道のり Netflixユーザーの総数は今やなんと、グローバルで5000万人(2014年7月時点)。その一人ひとりに、Netflixの配信する5万もの作品の中から好みにあったものをオススメするなんて、どんなアルゴリズムが隠れているのでしょうか。 まず、そもそもの出発点として、全ての作品をタイプ分けするために取り組まなければならなかったのが、作品のメタデータ作成。(メタデータ:その動画ファイルがどのような種類のものかを示すデータ) Netflixは、5万全ての作品について詳細なメタデータの項目を埋めることにしました。つまり、求める項目は作品に関するまさに「全て」。監督・出演者・制作者・制作国・制作年・受賞歴、さらには、主人公の社会的受容性・筋書きがハッピーエンドかどうか・ストーリー展開・主人公の職業・舞台となる場所…等、考え得る分類項目の「全て」です。しかも、単に「ロマンティックかどうか(Yes/No)」だけでなく「ロマンスレベルを5段階評価する」といった感じで、全てをグレード付けしているのです! 当然、要する作業量は膨大です。ここまでとなると、社外のリソースを活用する以外に手段はありません。こういった作業をアウトソースする際に重要なのは、人によって評価にばらつきがでないようトレーニングを徹底するということ。Netflixは、36ページもの書類を渡し、スコアの付け方を徹底的にトレーニングしたといいます。例えば、性的描写のある映画、暴力シーンのある映画、恋愛系であればそのロマンスレベル、筋書きのわかりやすさに至るまで、細かく点数の付け方を教え込まれるそうです。 76,897通り(!)もの作品分類 そして、そのメタデータをもとに、作品の種類を76,897通りにも分け、5000万人のNetflixユーザーの視聴行動に照らし合わせて、最適なカテゴリーを紐づけているのです。 では、その細かな作品のジャンル分けとは、どういったものになっているのでしょうか。 ユーザーの目に触れるのは、50文字以内におさめ、かつ3つ〜5つの形容詞で説明されたテーマです。 例えば・・・ 「ダークなサスペンス調サイエンスフィクション・ホラー映画」 「ウィリアム・ハートネルを主人公としたタイムトラベル映画」 「目を引くおちゃらけ系のアクション・アドベンチャー映画」 「1970年代のセンチメンタルな舞台におけるヨーロッパドラマ」 もちろん、ストーリーがネタバレするような形で紹介してしまっては本末転倒。細かなデータで作品を分類しつつも全てをユーザー向けに表示しないで、その裏に隠れた情報で更に精度の高いオススメをしているというのです。 あなたの全ての行動が見られている 細かに分類した作品を誰にオススメするのか。マッチングする上で必要なのは、もちろんユーザーの行動特性による分類です。 Netflix上でユーザーが残す行動履歴は(またもや)「全て」分析対象となっています。例えば、ビデオの再生パターン(一時停止・途中中断・巻き戻し等)・評価スコア・検索履歴・視聴時間・視聴日時・視聴している地理的位置・視聴デバイス・Netflix上のページの閲覧やスクロールなど・・・行動の全てが分析されています。 その上、マルコフ連鎖という確率モデルに従い、ある映画から映画へと移る可能性を導き出し、次にどの映画をオススメすればユーザーが視聴するのかを推測しているのです。 2006年Netflix Prizeからの道のり Netflixは2006年よりも前からこの レコメンデーションエンジンの重要性に着目し、より精度の高いものを開発し続けてきました。そのためにNetflix Prizeというコンペティションまで開催し、実際Netflixのオススメ機能の精度を10.06%改善するアルゴリズムを提案したBellKor’s Pragmatic Chaos チームに$100万を賞金として授与しています。(結果的には、3年間のコンペの期間にDVD中心のレンタルからストリーミング配信が主流になったことにより、アルゴリズムが合わなくなり、実際のオススメ機能に反映されることはありませんでした) 今でこそ、機械ラーニングにもとづくオススメ機能の開発が、あちこちで話題になっていますが、9年も前からずっとこの領域に取り組んでいるNetflixの執念は凄まじいものがあります。 サーチの時代は終わった…? この記事を読んでから、私はNetflixのレコメンデーションエンジンを作り上げたTodd Yellin氏に会ってみたくてしょうがありませんでした。 そんな折に、参加を予定していた昨年3月にAustinで行われたSXSWのスピーカー欄に彼の名前を見つけたのです!当然、彼の登壇したパネルディスカッション「Search is Dead」に前のめりで参加し、その後の突撃リクエストで、1時間のアポをとることができました。 Todd Yellin氏いわく、今までは、検索で人が求める情報に行き着く時代でした。対し、これからは検索されるよりも先に相手のニーズを汲み取り、先回りしておすすめする時代。 そのおすすめを可能にしているのが、データです。中でも、この記事に取り上げられているような、ユーザーの行動データが重要ということ。アンケート等で自己申告する「明確なデータ(Explicit Data)」よりも、時には本人さえも自覚していない価値観が現れる行動データ、つまり「潜在的なデータ(Implicit Data)」が鍵を握っています。実際、Netflixのアルゴリズムは、ほとんど全てが潜在的データにより成り立っているのです。 検索をしなくても欲しいものが欲しいときに現れる・・・そんな世界を実現しようとしているNetflix。彼らのつくる動画視聴の世界は、未来を切り開こうとしています。 参考: How Netflix Reverse Engineered Hollywood Netflix Recommendations: Beyond the 5 stars Netflix Prize Big Data at Netflix Drives Business Decisions 画像: 2点目UI画像は、How Netflix Reverse Engineered Hollywoodより Tweet Author: Kazuyo Nakatani 中谷和世 Kazuyo Nakatani: 音楽大学声楽科卒業後、留学斡旋企業の営業/マーケティングを担当。その後、USへ渡り2007年にミシガン大学MBA取得。2007年〜2012年P&GにてSK-IIのマーケティングに従事する。うち3年はシンガポールに駐在。現在は東京在住、オンライン動画配信ビジネスのMarketing Directorを勤める。 Prev Blog Next 2015年2月2日
Netflix視聴の75%を支えるオススメ機能の秘密
USでは、定額制動画配信サービスの絶対的王者であるNetflix。
視聴者データ分析をもとに1億ドルという巨額の制作費をつぎ込み成功させたエミー賞受賞ドラマ「ハウスオブカード」や、2014年にはネットワーク中立性の話題でも有名になりました。しかし、私が最も注目しているNetflixのすごさは、何よりもオススメ機能(レコメンデーションエンジン)です。
全視聴の75%がオススメ機能から。
Netflixのなんと75%もの視聴が、オススメ機能から始まっているといいます。これは驚異的な割合です。だって、想像してみてください。「XXって映画観たいな。検索、検索・・・」という前に「(オススメ欄に)XXがある!これ観よう。」となる状況を作っているのです。通常のケースでは、オススメ機能からの視聴なんて、Netflixの半分もないでしょう。
この75%という数字こそが、NetflixのプロダクトイノベーションのVP・Todd Yellin氏に「Search is Dead (サーチの時代は終わった)」と言わしめる、その自信の所以なのです。
執念のリバースエンジニアリング
昨年、How Netflix Reverse Engineered Hollywoodという記事がバズっていたのをご存知でしょうか。
あまりに長文のためか、日本ではそれほど話題になることがありませんでしたが、読んでみるとこの記事、かなり面白いのです。
当時Atlanticの編集者であったAlexis C. Madrical氏が、狂気の沙汰としか思えない執念のリバースエンジニアリングでNetflixのオススメ機能の秘密を紐解くというストーリーです。
具体的にどういうことかというと、いちユーザーとして、Netflixのオススメ機能の精度に魅惑された彼は、Netflix上で入手し得るデータをあらゆる手法を駆使して分析しまくり、どのようなアルゴリズムでNetflixがユーザーに好みの作品をお薦めしているのかを解明します。そして、その結果を携えて、NetflixののTodd Yellin氏(24ページもの提案書を自ら作り立ち上げ、オススメ機能を長年率いてきた張本人!)に会いに行くのです。
それに対し、Todd Yellin氏も「まさにこんな風に解明してくれる人を待っていた」とコメントしています。(知性の頂上決戦っぽくっていいですね!笑)Alexisの熱い執念に応え、長年自身が取り組んできたアルゴリズムの開発背景を語るという・・・まさに、ハリウッド映画か、桃太郎か(笑)と見紛うほどのワクワクするストーリーなのです。
データの整備から始まった長い道のり
Netflixユーザーの総数は今やなんと、グローバルで5000万人(2014年7月時点)。その一人ひとりに、Netflixの配信する5万もの作品の中から好みにあったものをオススメするなんて、どんなアルゴリズムが隠れているのでしょうか。
まず、そもそもの出発点として、全ての作品をタイプ分けするために取り組まなければならなかったのが、作品のメタデータ作成。(メタデータ:その動画ファイルがどのような種類のものかを示すデータ)
Netflixは、5万全ての作品について詳細なメタデータの項目を埋めることにしました。つまり、求める項目は作品に関するまさに「全て」。監督・出演者・制作者・制作国・制作年・受賞歴、さらには、主人公の社会的受容性・筋書きがハッピーエンドかどうか・ストーリー展開・主人公の職業・舞台となる場所…等、考え得る分類項目の「全て」です。しかも、単に「ロマンティックかどうか(Yes/No)」だけでなく「ロマンスレベルを5段階評価する」といった感じで、全てをグレード付けしているのです!
当然、要する作業量は膨大です。ここまでとなると、社外のリソースを活用する以外に手段はありません。こういった作業をアウトソースする際に重要なのは、人によって評価にばらつきがでないようトレーニングを徹底するということ。Netflixは、36ページもの書類を渡し、スコアの付け方を徹底的にトレーニングしたといいます。例えば、性的描写のある映画、暴力シーンのある映画、恋愛系であればそのロマンスレベル、筋書きのわかりやすさに至るまで、細かく点数の付け方を教え込まれるそうです。
76,897通り(!)もの作品分類
そして、そのメタデータをもとに、作品の種類を76,897通りにも分け、5000万人のNetflixユーザーの視聴行動に照らし合わせて、最適なカテゴリーを紐づけているのです。
では、その細かな作品のジャンル分けとは、どういったものになっているのでしょうか。
ユーザーの目に触れるのは、50文字以内におさめ、かつ3つ〜5つの形容詞で説明されたテーマです。
例えば・・・
もちろん、ストーリーがネタバレするような形で紹介してしまっては本末転倒。細かなデータで作品を分類しつつも全てをユーザー向けに表示しないで、その裏に隠れた情報で更に精度の高いオススメをしているというのです。
あなたの全ての行動が見られている
細かに分類した作品を誰にオススメするのか。マッチングする上で必要なのは、もちろんユーザーの行動特性による分類です。
Netflix上でユーザーが残す行動履歴は(またもや)「全て」分析対象となっています。例えば、ビデオの再生パターン(一時停止・途中中断・巻き戻し等)・評価スコア・検索履歴・視聴時間・視聴日時・視聴している地理的位置・視聴デバイス・Netflix上のページの閲覧やスクロールなど・・・行動の全てが分析されています。
その上、マルコフ連鎖という確率モデルに従い、ある映画から映画へと移る可能性を導き出し、次にどの映画をオススメすればユーザーが視聴するのかを推測しているのです。
2006年Netflix Prizeからの道のり
Netflixは2006年よりも前からこの レコメンデーションエンジンの重要性に着目し、より精度の高いものを開発し続けてきました。そのためにNetflix Prizeというコンペティションまで開催し、実際Netflixのオススメ機能の精度を10.06%改善するアルゴリズムを提案したBellKor’s Pragmatic Chaos チームに$100万を賞金として授与しています。(結果的には、3年間のコンペの期間にDVD中心のレンタルからストリーミング配信が主流になったことにより、アルゴリズムが合わなくなり、実際のオススメ機能に反映されることはありませんでした)
今でこそ、機械ラーニングにもとづくオススメ機能の開発が、あちこちで話題になっていますが、9年も前からずっとこの領域に取り組んでいるNetflixの執念は凄まじいものがあります。
サーチの時代は終わった…?
この記事を読んでから、私はNetflixのレコメンデーションエンジンを作り上げたTodd Yellin氏に会ってみたくてしょうがありませんでした。
そんな折に、参加を予定していた昨年3月にAustinで行われたSXSWのスピーカー欄に彼の名前を見つけたのです!当然、彼の登壇したパネルディスカッション「Search is Dead」に前のめりで参加し、その後の突撃リクエストで、1時間のアポをとることができました。
Todd Yellin氏いわく、今までは、検索で人が求める情報に行き着く時代でした。対し、これからは検索されるよりも先に相手のニーズを汲み取り、先回りしておすすめする時代。
そのおすすめを可能にしているのが、データです。中でも、この記事に取り上げられているような、ユーザーの行動データが重要ということ。アンケート等で自己申告する「明確なデータ(Explicit Data)」よりも、時には本人さえも自覚していない価値観が現れる行動データ、つまり「潜在的なデータ(Implicit Data)」が鍵を握っています。実際、Netflixのアルゴリズムは、ほとんど全てが潜在的データにより成り立っているのです。
検索をしなくても欲しいものが欲しいときに現れる・・・そんな世界を実現しようとしているNetflix。彼らのつくる動画視聴の世界は、未来を切り開こうとしています。
参考:
How Netflix Reverse Engineered Hollywood
Netflix Recommendations: Beyond the 5 stars
Netflix Prize
Big Data at Netflix Drives Business Decisions
画像:
2点目UI画像は、How Netflix Reverse Engineered Hollywoodより