RAG Evaluation Platform · Early Access

そのRAG、
本当に正確ですか?

GQO は RAG 評価から始める精度改善エンジン。 LLM-as-a-Judge と原文照合のハイブリッド評価で Hallucination を可視化し、 Query 最適化・RAG チューニング・自動改善まで SDK と API で回し続けます。

OpenAI / Anthropic Claude / Google Gemini に対応 · Python / Node SDK 提供予定

30〜80%
回答精度の改善
−60%
Hallucination 削減
5 分
SDK で計測開始

こんな現場、放置していませんか?

テストでは動く、本番でしくじる

デモは完璧。でも本番のロングテール質問で破綻し、現場の信頼を失う。誰もそれを定量的に語れない。

Hallucination を誰も計測していない

もっともらしい嘘で意思決定が歪む前に、検出する仕組みがない。サンプリング目視には限界がある。

改善が職人芸になっている

誰かのプロンプトと chunk size に依存。担当者が変われば再現できない。改善サイクルが回らない。

評価から始める、3 ステップ

GQO は「まず計測」が出発点。改善は計測できなければ始まらない。

STEP 01

計測する(Evaluate)

本番の RAG / LLM 出力に対して、ハイブリッド評価を回す。スコア・根拠一致率・失敗パターンが見える化される。

STEP 02

改善する(Optimize)

Query 最適化と RAG チューニングを評価指標ドリブンで実行。何が精度を上げたかが定量的に分かる。

STEP 03

回し続ける(Loop)

本番フィードバックを学習信号として取り込み、改善案の生成・回帰テスト・本番適用を継続自動化する。

評価 を中心に、改善まで一気通貫

GQO は RAG 評価を起点に、最適化・自動改善まで地続きで提供します。

01

回答評価(Evaluate)

MAIN

LLM-as-a-Judge × 原文照合の二段構えで、Hallucination を見逃さない。正確性スコアと根拠一致率を本番のリクエストに対して常時計測。

  • ハイブリッド評価(LLM 判定 + 原文 grounding 照合)
  • 回答ごとのスコアと根拠リンクを自動生成
  • 閾値割れを Slack / Webhook で即通知
02

Query 最適化(Optimize)

ユーザーの曖昧な質問を、検索に最適な形へ自動変換。Recall と Precision を同時に底上げします。

  • 業務ドキュメント文脈に合わせた書き換え
  • 略語・社内用語・年度表現を正規化
  • 失敗パターンを学習し再発を防止
03

RAG チューニング

Embedding / Chunk サイズ / Retrieval パラメータを評価指標ベースで自動調整。手動の試行錯誤を排除します。

  • chunk size / overlap / top-k の自動探索
  • Embedding モデル比較(OpenAI / Cohere / 国産)
  • 実データで A/B 評価し最適構成を提案
04

自動改善ループ

本番フィードバックを学習信号として取り込み、プロンプトと Retrieval を継続的に改善し続けます。

  • 失敗ケースを自動収集
  • プロンプト・パラメータの改善案を生成
  • リグレッションテストで安全に投入

適用領域の

「答えの正しさ」が業務リスクに直結する領域ほど、GQO は効きます。

金融 / IR

決算 Q&A・有価証券報告書ボットの回答を年度横断で検証。数字の取り違えを根拠照合で検出。

法務 / 契約

契約書要約・条文検索の根拠一致率を担保。誤引用ゼロを目標にした改善ループを回す。

カスタマーサポート

ナレッジベースを参照する LLM ボットの精度を継続評価。クレームに繋がる Hallucination を未然に防ぐ。

製造 / 技術文書

膨大なマニュアル・規格書から正確に拾うための Retrieval 最適化と評価を自動化。

SDK と API、5 分 で計測開始

Python / Node SDK で既存パイプラインに数行差し込むだけ。低レベル制御は HTTP API でも可能。OpenAI / Claude / Gemini に対応。

evaluate.pypip install gqo
from gqo import GQO

gqo = GQO(api_key="...")

# 回答評価(メイン)
result = gqo.evaluate(
    query="去年の決算で売上が伸びた事業は?",
    answer="ITサービス事業が前年比15%増です。",
    sources=["fy2025_ir.pdf"],
)

print(result.score)            # 0.0 - 1.0
print(result.grounding_rate)   # 根拠一致率
print(result.issues)           # ['数値の引用元が特定できない', ...]
POST /evaluatecurl
curl -X POST https://api.gqo.io/evaluate \
  -H "Authorization: Bearer $GQO_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "去年の決算で売上が伸びた事業は?",
    "answer": "ITサービス事業が前年比15%増です。",
    "sources": ["fy2025_ir.pdf"]
  }'
POST
/evaluate
回答の正確性スコアと根拠一致率を計測
POST
/optimize
ユーザークエリを検索に最適なクエリへ変換

まず 計測 から始める料金

Free 枠だけで PoC が完結するボリューム。試してから本番へ。価格は税抜。

Free

¥0/月

個人 / PoC 向け

  • 回答評価 500 回/月
  • ハイブリッド評価
  • コミュニティサポート
無料で評価を試す

Pro

人気
¥6,800/月

スタートアップ向け

  • 回答評価 10,000 回/月
  • Query 最適化
  • 評価ダッシュボード
  • Slack / Webhook 通知
  • Email サポート
Pro を試す

Business

¥39,800/月

成長企業向け

  • 回答評価 100,000 回/月
  • RAG チューニング
  • 自動改善ループ
  • SSO / 監査ログ
  • 優先サポート
Business を選ぶ

Enterprise

¥150,000+/月〜

大企業 / 規制業界向け

  • 無制限リクエスト
  • オンプレ / VPC デプロイ
  • 専任サポート
  • SLA / カスタム契約
問い合わせる

まず、自社の RAG を 測ろう。

β アクセスは限定枠。Waitlist にご登録いただいた方から優先案内します。

登録は無料。リリース情報のみ送信し、第三者には共有しません。