こんにちは、ビデオリサーチのヤナギタです。 今日は、ビデオリサーチが進めている生成AIに関する取り組みについてお話ししたいと思います!
皆さんご存じの通り生成AIは近年急速に注目を集めている技術です。
例えば、文章生成や画像生成、さらには音楽の作曲まで多岐にわたる分野で活用されはじめています。 OpenAIのChatGPTやGoogleのGeminiなどが代表的ですが、さまざまな企業がこの技術を活用して新しいサービスを開発・提供しはじめており、これらの技術は、今後数年内に日常生活やビジネスの効率化に大きく貢献していくことが見込まれています。
ビデオリサーチといえば、テレビ視聴率調査やマーケティングリサーチをイメージされるかと思いますが、そのような生成AI活用の研究にも、力を入れています!
生成AIの研究とひとことで言ってもいろんな手法や研究対象が考えられますし、ビデオリサーチとしても様々なテーマに対し取り組みを行っていますが、その中で私が取り組んでいる一つについて本日はご紹介したいと思います。
- 1. モデルのカスタマイズ
- 2. 調査票作成業務を効率化
- 3. オンプレ環境を選択
- 4. ベースとするモデル
- 5. システム構成(アルゴリズム)
- 6. 精度評価
- 7. 現状の課題感
- 8. 今後の研究について
1. モデルのカスタマイズ
さて、生成AIを自分たちの事業で活用しようとした際、汎用的なLLM(Large Language Model、大規模言語モデル)をそのまま利用することでも一定の活用(たとえば、メールや資料の初案作成などによる業務効率化)はできるのですが、自分たちが行っている業務の中には、これまでの経験で培った暗黙知などが必要な面も多く、そういった部分を生成AIが考慮してくれないと業務の効率化も充分に見込めないことが予想されます。そこで、LLMをそのまま用いるだけでなく、自分たちの業務に特化するためのカスタマイズを行って、生成AIの活用を行っていくケースも増えてきています。
LLMをカスタマイズする手法としては、いくつかの方法が考えられますが、代表的なものとしては次のようなものがあります。
- a.プロンプトチューニング
- b.RAG(Retrieval-Augmented Generation)
- c.ファインチューニング
- ①調査の背景や目的から様々な観点の設問を作成する設問作成処理
- ②作成された設問ごとに必要な選択肢を作成する選択肢作成処理
ビデオリサーチではa、b、cとも取り組んでいますが、今回はbとcを組み合わせたモデルのカスタマイズを行って、特定の業務をより効率的に行うことを目指した研究のお話です。
簡単にですが、この2つの概要に軽く触れておくと、RAGは情報検索と生成を組み合わせた手法です。これにより、データベースから必要な情報を迅速に取得し、モデルの精度向上などを見込むことができます。一方のファインチューニングは、既存のAIモデルを特定のタスクに最適化するプロセスです。これにより、独自のデータセットを活用し、より精度の高い予測や分析を実現できます。
2. 調査票作成業務を効率化
ではどのような業務を効率化対象としたかというと、ビデオリサーチが持っているデータと言えばやはり一番代表的なものは視聴率データです。ただ、視聴率データは独自性、特殊性も強く、また生成AIの活用研究については、まだまだ世の中にも私たちにも知見が溜まっていないものですので、まずは知見の蓄積という面も重視して、生成AIと相性がいいと思われるテキスト形式のデータを用いた、調査業務における調査票作成というのをターゲットの一つとしました。
調査票作成処理は大きくわけると次の2つのステップになります。
この2つの処理を、生成AIを用いて効率化することを目指します。ただ、調査票作成業務においても、これまでの業務で培った暗黙知が非常に重要です。ビデオリサーチでも、当然独自のノウハウがあり、そういった暗黙知の積み重ねで品質を担保している部分があります。そこで、私たちのこれまでの業務における実際のデータを教師データとしてモデルのカスタマイズまで行い、より実践的で精度の高いAI活用が行えることを研究の成果として目指します。
3. オンプレ環境を選択
もう一つ今回の研究の特徴として、用いるデータの機密性も考慮して、LLMを使う環境はクラウドではなくオンプレとしたという点があります。 ご承知のように、すでにいろんなクラウドプラットフォーム上に様々なLLMの利用サービスが用意されていますので、クラウドのLLMを使った方が初期の環境構築の手間も軽かったり、モデルの精度なども安定したものになる可能性も高いかもしれませんが、クラウドのAIを活用するにあたってデータの機密性を気にする企業は少なくありません。
加えて、特定のタスクに特化した作業は、LLMの中でもパラメータ数が小さめのモデル(LLMに対して、SLM、小規模言語モデルともいわれます)で充分に対応できる面もあります。そのような点を重要視して今回の研究ではオンプレ環境での活用を選択しています。
4. ベースとするモデル
さて、ここから具体的な研究の中身の話です。
LLMを活用するにあたって、すでに多数のモデルが世の中に出ていますが、その中で今回の対象業務に特に適したモデルをベースとして選択する必要があります。 特に今回の研究では、3で書いたようにオンプレで利用できることを一つの条件としましたので、その条件に適していることも必要です。 そのようなモデルとして、まずはgemma-2b, gemma-7b, llama2-13bの3つを最初の候補として、それぞれのモデルに自分たちのデータを用いたファインチューニングを行って、生成される結果の比較を行いました。
比較の内容はこの後に述べるとして、いったんモデル選択の結論まで書いておきますと、さらに研究過程で新たに出てきたllama3-8b, StableLM2, Rakuten AIなども追加の候補としてカスタマイズを行って、結果として、現在はllama3 8Bモデルを利用しています。現状では、このモデルが性能と効率のバランスが取れており、今回の対象業務には最適と考えています。
5. システム構成(アルゴリズム)
次に、どのようなシステム構成(アルゴリズム)で出力を生成するか、についてですが、2で書いたように今回効率化を目指した調査票作成処理は大きく①設問作成処理と②選択肢作成処理の2つのステップに分かれています。
①はシンプルにファインチューニングしたモデルで設問を作成する、でよさそうですが、②は、生成した設問に適切に対応する内容を選びながら、かつこれまでの調査の傾向も踏まえた選択肢にする必要がありましたので、RAGのような枠組みで処理することにしました。詳細までは書きませんが簡単に言うと、これまでの調査で用いられたデータをベースにLLMで選択肢の幅を広げつつ、それらの結果からRAGのように検索を行って抽出する、という形です。
①のファインチューニングでは、もちろんチューニングするデータとしてこれまでの実際の調査データを用いています。 このような形でこれまでの私たちの調査データを活用することで、シンプルに汎用LLMを活用する場合に比べて、より独自の知見を組みこんだ回答が得られています。
6. 精度評価
では、上に書いたモデルとシステム構成で生成された結果をどのように評価するか、ですが、重要視したのは、これまでの実際の調査データの傾向を踏まえているかという類似性と、より広い観点から設問が生成できているかを示す多様性になります。もちろん日本語としての流暢さも必要ではありますが、オンプレ用のモデルを選択している時点で限界もありますので、そこは最終段階の人の手が介在するタイミングで吸収することにしています。
定量的には、生成結果をベクトル化して類似性と多様性を評価しました。類似性と多様性がどの程度あればよいかというのも難しい点ではありましたが、人の目による定性的な確認と比較しつつ評価し、研究を続ける中で徐々に精度の向上が見えてきています。
7. 現状の課題感
とはいえ、まだまだ課題も残っています。
例えば、設問作成処理の中で、多様な観点の設問を作成したいという点を優先しすぎると、全然調査の目的と関係ない設問を作ってしまうケースも増えてしまう為、両方のバランスが非常に難しいです。また、選択肢作成処理では、設問に現れた固有名詞の理解をどう選択肢に繋げるか、といった点などに課題が見え始めています。
今後は、これらの課題解決に向けた対応策を考えていかなければなりません。
8. 今後の研究について
ということで、非常に簡単にですが、私たちが行っている生成AI活用の研究、特に、ファインチューニングやRAGを用いてモデルカスタマイズを実現するための研究について紹介させて頂きました。 実際の業務への活用可能性も見えてきている一方、新たな課題なども出てきています。
ご承知のように、世の中の生成AIの発展速度はすさまじい勢いです。ベースとなるLLMも、それを動かすハードウェア環境もどんどん新しいものが現れてきています。そのような世の中の動きにも柔軟に対応しつつ、これからも効率的な生成AI活用を目指して研究を続けていきたいと思います。 (ちなみに、これまではNVidia A100の環境で研究を行ってきましたが、新たにNVidia H100の環境を社内に構築していく予定です。)
このブログを通じて、ビデオリサーチがどのように生成AIを活用しているのかを一部だけでもお伝えできれば幸いです。