VOOZH about

URL: https://zenn.dev/knowledgesense/articles/c2baff28b7b2fa

⇱ RAGが苦手な「膨大な会話データ」を検索可能に


👁 Image
ナレッジセンス - 生成AIとRAGの実装戦略・技術ブログPublicationへの投稿

導入

こんにちは、株式会社ナレッジセンスの須藤英寿です。
今回は、過去の対話情報をもとに、LLMと一貫した会話を続けられる仕組み「Hindsight」について紹介します。

https://arxiv.org/pdf/2512.12818

👁 Image

サマリー

RAGの代表的な活用方法の一つとして、過去のメールやチャットを情報源に、それまでのやり取りを前提とした会話を成立させる手法があります。

しかし、やり取りのデータは時間とともにどんどん増えていきます。さらに事実と意見が混在したデータも多く存在するため、標準的なRAGを導入してもうまく会話を成立させることができません。

「Hindsight」は、過去のやり取りを構造化し検索性を上げることで、高い精度で関連する情報を検索しつつ、LLMが認識しやすい形で情報を渡すことができるようになっています。

手法

👁 Image

「Hindsight」は、保存する会話データの分類に鍵があります。会話データは以下の4種類のいずれかに分類され保存されます。

  • World: 客観的な事実、例えば「Aさんの家は東京にあります。」など立場によっても変わらない情報を保存します。
  • Experience: LLMの行動の記録、例えば「昼ご飯のオススメに〇〇屋をおすすめした」などのLLMが思考し出力した内容を保存します。
  • Opinion: LLMの主張、例えば「データの分析にはPythonを使用するのがよい」などのLLMの主観的な判断や価値観を保存します。
  • Observation: 複合的な情報から生み出された特定の対象の情報、例えば「ユーザーの生年月日」や「兄弟の通っていた学校」など、任意の対象に関するプロフィールを保存します。

このように情報を分類しておくことで、検索時にユーザーの入力した内容にあわせて、ノイズを削減した検索を実現できるようになっています。

評価

👁 Image

まず、ベースラインとなるFull-contextのパターンと比較すると、OSS-20Bで、Full-contextの場合に39.0%でHindsightでは、83.6%と44.6%分精度が改善しています。
Gemini-3を使用したSupermemoryと比較しても、Supermemoryでは85.2%で、Hindsightでは91.4%と6.2%分の精度改善が見られます。

まとめ

今回は、会話データを分類して保管することで精度の高いメモリ機能を実現する「Hindsight」を紹介しました。やりとりの内容が事実なのか、意見なのか、普段の会話でも重要な観点でデータを分類することで精度を改善できるという面白い手法です。過去のやり取りを引き継いだチャットを実現したい場合には、ぜひ参考にしていただければと思います。

👁 ナレッジセンス - 生成AIとRAGの実装戦略・技術ブログ

株式会社ナレッジセンスは、「大企業の知的活動を最速にする」をミッションに掲げ、社内データ検索ができるAIチャットボットを開発・提供しているスタートアップです。このブログでは、LLMや検索技術、RAGの実装戦略について知見を共有します。生成AIやRAG技術を使って最高品質の実装をしたいエンジニア向けのコンテンツです

Discussion

👁 Image