こんな現場、放置していませんか?
テストでは動く、本番でしくじる
デモは完璧。でも本番のロングテール質問で破綻し、現場の信頼を失う。誰もそれを定量的に語れない。
Hallucination を誰も計測していない
もっともらしい嘘で意思決定が歪む前に、検出する仕組みがない。サンプリング目視には限界がある。
改善が職人芸になっている
誰かのプロンプトと chunk size に依存。担当者が変われば再現できない。改善サイクルが回らない。
評価から始める、3 ステップ
GQO は「まず計測」が出発点。改善は計測できなければ始まらない。
計測する(Evaluate)
本番の RAG / LLM 出力に対して、ハイブリッド評価を回す。スコア・根拠一致率・失敗パターンが見える化される。
改善する(Optimize)
Query 最適化と RAG チューニングを評価指標ドリブンで実行。何が精度を上げたかが定量的に分かる。
回し続ける(Loop)
本番フィードバックを学習信号として取り込み、改善案の生成・回帰テスト・本番適用を継続自動化する。
評価 を中心に、改善まで一気通貫
GQO は RAG 評価を起点に、最適化・自動改善まで地続きで提供します。
回答評価(Evaluate)
LLM-as-a-Judge × 原文照合の二段構えで、Hallucination を見逃さない。正確性スコアと根拠一致率を本番のリクエストに対して常時計測。
- ハイブリッド評価(LLM 判定 + 原文 grounding 照合)
- 回答ごとのスコアと根拠リンクを自動生成
- 閾値割れを Slack / Webhook で即通知
Query 最適化(Optimize)
ユーザーの曖昧な質問を、検索に最適な形へ自動変換。Recall と Precision を同時に底上げします。
- 業務ドキュメント文脈に合わせた書き換え
- 略語・社内用語・年度表現を正規化
- 失敗パターンを学習し再発を防止
RAG チューニング
Embedding / Chunk サイズ / Retrieval パラメータを評価指標ベースで自動調整。手動の試行錯誤を排除します。
- chunk size / overlap / top-k の自動探索
- Embedding モデル比較(OpenAI / Cohere / 国産)
- 実データで A/B 評価し最適構成を提案
自動改善ループ
本番フィードバックを学習信号として取り込み、プロンプトと Retrieval を継続的に改善し続けます。
- 失敗ケースを自動収集
- プロンプト・パラメータの改善案を生成
- リグレッションテストで安全に投入
適用領域の 例
「答えの正しさ」が業務リスクに直結する領域ほど、GQO は効きます。
決算 Q&A・有価証券報告書ボットの回答を年度横断で検証。数字の取り違えを根拠照合で検出。
契約書要約・条文検索の根拠一致率を担保。誤引用ゼロを目標にした改善ループを回す。
ナレッジベースを参照する LLM ボットの精度を継続評価。クレームに繋がる Hallucination を未然に防ぐ。
膨大なマニュアル・規格書から正確に拾うための Retrieval 最適化と評価を自動化。
SDK と API、5 分 で計測開始
Python / Node SDK で既存パイプラインに数行差し込むだけ。低レベル制御は HTTP API でも可能。OpenAI / Claude / Gemini に対応。
from gqo import GQO
gqo = GQO(api_key="...")
# 回答評価(メイン)
result = gqo.evaluate(
query="去年の決算で売上が伸びた事業は?",
answer="ITサービス事業が前年比15%増です。",
sources=["fy2025_ir.pdf"],
)
print(result.score) # 0.0 - 1.0
print(result.grounding_rate) # 根拠一致率
print(result.issues) # ['数値の引用元が特定できない', ...]curl -X POST https://api.gqo.io/evaluate \
-H "Authorization: Bearer $GQO_KEY" \
-H "Content-Type: application/json" \
-d '{
"query": "去年の決算で売上が伸びた事業は?",
"answer": "ITサービス事業が前年比15%増です。",
"sources": ["fy2025_ir.pdf"]
}'まず 計測 から始める料金
Free 枠だけで PoC が完結するボリューム。試してから本番へ。価格は税抜。
まず、自社の RAG を 測ろう。
β アクセスは限定枠。Waitlist にご登録いただいた方から優先案内します。