プロンプトチューニング

プロンプトチューニング

エージェントの応答を理解する

すべてのエージェントの応答には、Themisがどのように回答に至ったかを確認できるメタデータが含まれています。

ツール呼び出し

会話中にThemisが外部サービスを使用すると、応答にツール呼び出しインジケーターが表示されます。これは、どのツールが呼び出されたかを示します。例えば、GitHubからPRのdiffを取得したり、Metabaseからデータをクエリしたり、Linearでイシューを作成したりします。この透明性により、エージェントがどのデータを使用したかを理解できます。

モデル情報

各応答には使用されたモデルが表示されます（例：Claude Sonnet、Claude Opus）。スペースが2層エージェントアーキテクチャを使用している場合、簡単な質問は軽量なTier 1モデルで処理され、複雑な質問は自動的にフルのTier 2モデルにエスカレーションされます。

推論ログと統計

エージェントの応答の推論ログを展開すると、何が起こったかの完全なトレースを確認できます：

思考ステップ — エージェントの内部推論プロセス
ツール呼び出しと結果 — すべてのツール呼び出しの入力と出力
トークン使用量とコスト — 消費されたトークン数と推定コスト

これは、エージェントが特定の回答をした理由を理解し、問題を診断するのに非常に役立ちます。

受信トレイエントリからの継続

すべての受信トレイエントリは、会話だけでなく、フルチャットに拡張できます。エントリのチャットボタンをクリックすると、元のコンテキストが読み込まれた状態で会話を開始できます：

エントリの種類	できること
自動化の結果	発見事項の議論、フォローアップの質問、分析の改善
コード生成	生成されたコードのレビュー、変更の要求、アプローチの反復
PRレビュー	レビューコメントの議論、明確化の要求、代替案の検討
@メンション応答	GitHubやLinearから開始された会話の継続

新しい会話は完全なコンテキストを引き継ぎます。何が起こったかを再度説明する必要はありません。

自動化のデバッグ

自動化がうまく機能しない場合（品質の低い結果、頻繁な失敗、高コスト）、デバッグワークフローを使用して改善します。

問題の発見

自動化の詳細ページに移動して、実行履歴を確認します：

頻繁な失敗 — エージェントがエラーに遭遇したり、ループに陥ったりしている
高コスト — エージェントがツールを呼びすぎたり、過剰なトークンを使用している
スキップされた実行 — エージェントがスキップすべきでないときにスキップしている（またはその逆）
推論ログ — 個々の実行を展開して、問題がどこで発生したかを確認

プロンプトの改善

完了または失敗した自動化の実行を開く
チャットをクリックして、実行コンテキストを含む会話を開始
デバッグモードを切り替える — これにより完全な推論ログとプロンプトが会話に読み込まれます
Themisに何が問題だったかを分析させ、改善を提案させる：
- 「この自動化はなぜ失敗したのですか？プロンプトをどう改善できますか？」
- 「コストがかかりすぎています。プロンプトをより効率的にするにはどうすればよいですか？」
- 「出力品質が一貫していません。原因は何ですか？」
提案された変更を自動化のプロンプトテンプレートに適用

このフィードバックループは、自動化の品質を反復改善する最速の方法です。エージェントは実行中に何が起こったかを正確に把握できます。どのツールが呼び出されたか、どこで推論が軌道を外れたか、最終出力がどのようなものだったかを確認し、的を絞ったプロンプトの改善を提案します。

よくあるプロンプトの問題

症状	原因の可能性	修正方法
エージェントがツールを呼びすぎる	プロンプトが取得するデータについて曖昧すぎる	使用するツールと探す内容を具体的に指定する
出力が一貫しない	プロンプトに構造の期待値がない	明確な出力フォーマットの指針を追加する
スキップすべきでないときにスキップする	スキップ条件が広すぎる	スキップ基準を狭めるか、スキップの指示を削除する
トークンコストが高い	エージェントがデータを取りすぎている	スコープを制限する（例：「過去24時間のPRのみ」）
頻繁な失敗	エージェントがサポートされていない操作を試みている	推論ログで失敗したツール呼び出しを確認し、プロンプトを調整する

より良い会話のためのヒント

具体的に — 「このPRをセキュリティの問題についてレビューして」は「このPRを見て」よりも効果的
コンテキストを提供する — リンクを貼り付け、ファイルを共有し、関連するプロジェクトやサービスに言及する
反復する — 最初の回答が完璧でなくても、フォローアップする。Themisは会話全体を記憶しています
適切なエントリポイントを使う — 受信トレイのエントリ（レビュー、自動化、コード生成）から開始すると、コンテキストが自動的に読み込まれ、再度説明する手間が省けます
推論ログを確認する — 回答がおかしいと感じたら、推論を展開して理由を理解し、エージェントを誘導する