RAG Evaluation Platform · Early Access

そのRAG、
本当に正確ですか？

GQO は RAG 評価から始める精度改善エンジン。 LLM-as-a-Judge と原文照合のハイブリッド評価で Hallucination を可視化し、 Query 最適化・RAG チューニング・自動改善まで SDK と API で回し続けます。

無料で評価を試す仕組みを見る

OpenAI / Anthropic Claude / Google Gemini に対応 · Python / Node SDK 提供予定

30〜80%

回答精度の改善

−60%

Hallucination 削減

5 分

SDK で計測開始

こんな現場、放置していませんか？

テストでは動く、本番でしくじる

デモは完璧。でも本番のロングテール質問で破綻し、現場の信頼を失う。誰もそれを定量的に語れない。

Hallucination を誰も計測していない

もっともらしい嘘で意思決定が歪む前に、検出する仕組みがない。サンプリング目視には限界がある。

改善が職人芸になっている

誰かのプロンプトと chunk size に依存。担当者が変われば再現できない。改善サイクルが回らない。

評価から始める、3 ステップ

GQO は「まず計測」が出発点。改善は計測できなければ始まらない。

STEP 01

計測する（Evaluate）

本番の RAG / LLM 出力に対して、ハイブリッド評価を回す。スコア・根拠一致率・失敗パターンが見える化される。

STEP 02

改善する（Optimize）

Query 最適化と RAG チューニングを評価指標ドリブンで実行。何が精度を上げたかが定量的に分かる。

STEP 03

回し続ける（Loop）

本番フィードバックを学習信号として取り込み、改善案の生成・回帰テスト・本番適用を継続自動化する。

評価を中心に、改善まで一気通貫

GQO は RAG 評価を起点に、最適化・自動改善まで地続きで提供します。

回答評価（Evaluate）

MAIN

LLM-as-a-Judge × 原文照合の二段構えで、Hallucination を見逃さない。正確性スコアと根拠一致率を本番のリクエストに対して常時計測。

ハイブリッド評価（LLM 判定 + 原文 grounding 照合）
回答ごとのスコアと根拠リンクを自動生成
閾値割れを Slack / Webhook で即通知

Query 最適化（Optimize）

ユーザーの曖昧な質問を、検索に最適な形へ自動変換。Recall と Precision を同時に底上げします。

業務ドキュメント文脈に合わせた書き換え
略語・社内用語・年度表現を正規化
失敗パターンを学習し再発を防止

RAG チューニング

Embedding / Chunk サイズ / Retrieval パラメータを評価指標ベースで自動調整。手動の試行錯誤を排除します。

chunk size / overlap / top-k の自動探索
Embedding モデル比較（OpenAI / Cohere / 国産）
実データで A/B 評価し最適構成を提案

自動改善ループ

本番フィードバックを学習信号として取り込み、プロンプトと Retrieval を継続的に改善し続けます。

失敗ケースを自動収集
プロンプト・パラメータの改善案を生成
リグレッションテストで安全に投入

適用領域の例

「答えの正しさ」が業務リスクに直結する領域ほど、GQO は効きます。

金融 / IR

決算 Q&A・有価証券報告書ボットの回答を年度横断で検証。数字の取り違えを根拠照合で検出。

法務 / 契約

契約書要約・条文検索の根拠一致率を担保。誤引用ゼロを目標にした改善ループを回す。

カスタマーサポート

ナレッジベースを参照する LLM ボットの精度を継続評価。クレームに繋がる Hallucination を未然に防ぐ。

製造 / 技術文書

膨大なマニュアル・規格書から正確に拾うための Retrieval 最適化と評価を自動化。

SDK と API、5 分で計測開始

Python / Node SDK で既存パイプラインに数行差し込むだけ。低レベル制御は HTTP API でも可能。OpenAI / Claude / Gemini に対応。

evaluate.pypip install gqo

from gqo import GQO

gqo = GQO(api_key="...")

# 回答評価（メイン）
result = gqo.evaluate(
    query="去年の決算で売上が伸びた事業は？",
    answer="ITサービス事業が前年比15%増です。",
    sources=["fy2025_ir.pdf"],
)

print(result.score)            # 0.0 - 1.0
print(result.grounding_rate)   # 根拠一致率
print(result.issues)           # ['数値の引用元が特定できない', ...]

POST /evaluatecurl

curl -X POST https://api.gqo.io/evaluate \
  -H "Authorization: Bearer $GQO_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "去年の決算で売上が伸びた事業は？",
    "answer": "ITサービス事業が前年比15%増です。",
    "sources": ["fy2025_ir.pdf"]
  }'

POST

/evaluate

回答の正確性スコアと根拠一致率を計測

POST

/optimize

ユーザークエリを検索に最適なクエリへ変換

まず計測から始める料金

Free 枠だけで PoC が完結するボリューム。試してから本番へ。価格は税抜。

Free

¥0/月

個人 / PoC 向け

回答評価 500 回/月
ハイブリッド評価
コミュニティサポート

無料で評価を試す

Pro

Business

¥39,800/月

成長企業向け

回答評価 100,000 回/月
RAG チューニング
自動改善ループ
SSO / 監査ログ
優先サポート

Business を選ぶ

Enterprise

¥150,000+/月〜

大企業 / 規制業界向け

無制限リクエスト
オンプレ / VPC デプロイ
専任サポート
SLA / カスタム契約

問い合わせる

まず、自社の RAG を測ろう。

β アクセスは限定枠。Waitlist にご登録いただいた方から優先案内します。

そのRAG、本当に正確ですか？