プロンプトチューニング
エージェントの応答を理解する
すべてのエージェントの応答には、Themisがどのように回答に至ったかを確認できるメタデータが含まれています。
ツール呼び出し
会話中にThemisが外部サービスを使用すると、応答にツール呼び出しインジケーターが表示されます。これは、どのツールが呼び出されたかを示します。例えば、GitHubからPRのdiffを取得したり、Metabaseからデータをクエリしたり、Linearでイシューを作成したりします。この透明性により、エージェントがどのデータを使用したかを理解できます。
モデル情報
各応答には使用されたモデルが表示されます(例:Claude Sonnet、Claude Opus)。スペースが2層エージェントアーキテクチャを使用している場合、簡単な質問は軽量なTier 1モデルで処理され、複雑な質問は自動的にフルのTier 2モデルにエスカレーションされます。
推論ログと統計
エージェントの応答の推論ログを展開すると、何が起こったかの完全なトレースを確認できます:
- 思考ステップ — エージェントの内部推論プロセス
- ツール呼び出しと結果 — すべてのツール呼び出しの入力と出力
- トークン使用量とコスト — 消費されたトークン数と推定コスト
これは、エージェントが特定の回答をした理由を理解し、問題を診断するのに非常に役立ちます。
受信トレイエントリからの継続
すべての受信トレイエントリは、会話だけでなく、フルチャットに拡張できます。エントリのチャットボタンをクリックすると、元のコンテキストが読み込まれた状態で会話を開始できます:
| エントリの種類 | できること |
|---|---|
| 自動化の結果 | 発見事項の議論、フォローアップの質問、分析の改善 |
| コード生成 | 生成されたコードのレビュー、変更の要求、アプローチの反復 |
| PRレビュー | レビューコメントの議論、明確化の要求、代替案の検討 |
| @メンション応答 | GitHubやLinearから開始された会話の継続 |
新しい会話は完全なコンテキストを引き継ぎます。何が起こったかを再度説明する必要はありません。
自動化のデバッグ
自動化がうまく機能しない場合(品質の低い結果、頻繁な失敗、高コスト)、デバッグワークフローを使用して改善します。
問題の発見
自動化の詳細ページに移動して、実行履歴を確認します:
- 頻繁な失敗 — エージェントがエラーに遭遇したり、ループに陥ったりしている
- 高コスト — エージェントがツールを呼びすぎたり、過剰なトークンを使用している
- スキップされた実行 — エージェントがスキップすべきでないときにスキップしている(またはその逆)
- 推論ログ — 個々の実行を展開して、問題がどこで発生したかを確認
プロンプトの改善
- 完了または失敗した自動化の実行を開く
- チャットをクリックして、実行コンテキストを含む会話を開始
- デバッグモードを切り替える — これにより完全な推論ログとプロンプトが会話に読み込まれます
- Themisに何が問題だったかを分析させ、改善を提案させる:
- 「この自動化はなぜ失敗したのですか?プロンプトをどう改善できますか?」
- 「コストがかかりすぎています。プロンプトをより効率的にするにはどうすればよいですか?」
- 「出力品質が一貫していません。原因は何ですか?」
- 提案された変更を自動化のプロンプトテンプレートに適用
このフィードバックループは、自動化の品質を反復改善する最速の方法です。エージェントは実行中に何が起こったかを正確に把握できます。どのツールが呼び出されたか、どこで推論が軌道を外れたか、最終出力がどのようなものだったかを確認し、的を絞ったプロンプトの改善を提案します。
よくあるプロンプトの問題
| 症状 | 原因の可能性 | 修正方法 |
|---|---|---|
| エージェントがツールを呼びすぎる | プロンプトが取得するデータについて曖昧すぎる | 使用するツールと探す内容を具体的に指定する |
| 出力が一貫しない | プロンプトに構造の期待値がない | 明確な出力フォーマットの指針を追加する |
| スキップすべきでないときにスキップする | スキップ条件が広すぎる | スキップ基準を狭めるか、スキップの指示を削除する |
| トークンコストが高い | エージェントがデータを取りすぎている | スコープを制限する(例:「過去24時間のPRのみ」) |
| 頻繁な失敗 | エージェントがサポートされていない操作を試みている | 推論ログで失敗したツール呼び出しを確認し、プロンプトを調整する |
より良い会話のためのヒント
- 具体的に — 「このPRをセキュリティの問題についてレビューして」は「このPRを見て」よりも効果的
- コンテキストを提供する — リンクを貼り付け、ファイルを共有し、関連するプロジェクトやサービスに言及する
- 反復する — 最初の回答が完璧でなくても、フォローアップする。Themisは会話全体を記憶しています
- 適切なエントリポイントを使う — 受信トレイのエントリ(レビュー、自動化、コード生成)から開始すると、コンテキストが自動的に読み込まれ、再度説明する手間が省けます
- 推論ログを確認する — 回答がおかしいと感じたら、推論を展開して理由を理解し、エージェントを誘導する