プロンプトチューニング

エージェントの応答を理解する

すべてのエージェントの応答には、Themisがどのように回答に至ったかを確認できるメタデータが含まれています。

ツール呼び出し

会話中にThemisが外部サービスを使用すると、応答にツール呼び出しインジケーターが表示されます。これは、どのツールが呼び出されたかを示します。例えば、GitHubからPRのdiffを取得したり、Metabaseからデータをクエリしたり、Linearでイシューを作成したりします。この透明性により、エージェントがどのデータを使用したかを理解できます。

モデル情報

各応答には使用されたモデルが表示されます(例:Claude Sonnet、Claude Opus)。スペースが2層エージェントアーキテクチャを使用している場合、簡単な質問は軽量なTier 1モデルで処理され、複雑な質問は自動的にフルのTier 2モデルにエスカレーションされます。

推論ログと統計

エージェントの応答の推論ログを展開すると、何が起こったかの完全なトレースを確認できます:

  • 思考ステップ — エージェントの内部推論プロセス
  • ツール呼び出しと結果 — すべてのツール呼び出しの入力と出力
  • トークン使用量とコスト — 消費されたトークン数と推定コスト

これは、エージェントが特定の回答をした理由を理解し、問題を診断するのに非常に役立ちます。

受信トレイエントリからの継続

すべての受信トレイエントリは、会話だけでなく、フルチャットに拡張できます。エントリのチャットボタンをクリックすると、元のコンテキストが読み込まれた状態で会話を開始できます:

エントリの種類できること
自動化の結果発見事項の議論、フォローアップの質問、分析の改善
コード生成生成されたコードのレビュー、変更の要求、アプローチの反復
PRレビューレビューコメントの議論、明確化の要求、代替案の検討
@メンション応答GitHubやLinearから開始された会話の継続

新しい会話は完全なコンテキストを引き継ぎます。何が起こったかを再度説明する必要はありません。

自動化のデバッグ

自動化がうまく機能しない場合(品質の低い結果、頻繁な失敗、高コスト)、デバッグワークフローを使用して改善します。

問題の発見

自動化の詳細ページに移動して、実行履歴を確認します:

  • 頻繁な失敗 — エージェントがエラーに遭遇したり、ループに陥ったりしている
  • 高コスト — エージェントがツールを呼びすぎたり、過剰なトークンを使用している
  • スキップされた実行 — エージェントがスキップすべきでないときにスキップしている(またはその逆)
  • 推論ログ — 個々の実行を展開して、問題がどこで発生したかを確認

プロンプトの改善

  1. 完了または失敗した自動化の実行を開く
  2. チャットをクリックして、実行コンテキストを含む会話を開始
  3. デバッグモードを切り替える — これにより完全な推論ログとプロンプトが会話に読み込まれます
  4. Themisに何が問題だったかを分析させ、改善を提案させる:
    • 「この自動化はなぜ失敗したのですか?プロンプトをどう改善できますか?」
    • 「コストがかかりすぎています。プロンプトをより効率的にするにはどうすればよいですか?」
    • 「出力品質が一貫していません。原因は何ですか?」
  5. 提案された変更を自動化のプロンプトテンプレートに適用

このフィードバックループは、自動化の品質を反復改善する最速の方法です。エージェントは実行中に何が起こったかを正確に把握できます。どのツールが呼び出されたか、どこで推論が軌道を外れたか、最終出力がどのようなものだったかを確認し、的を絞ったプロンプトの改善を提案します。

よくあるプロンプトの問題

症状原因の可能性修正方法
エージェントがツールを呼びすぎるプロンプトが取得するデータについて曖昧すぎる使用するツールと探す内容を具体的に指定する
出力が一貫しないプロンプトに構造の期待値がない明確な出力フォーマットの指針を追加する
スキップすべきでないときにスキップするスキップ条件が広すぎるスキップ基準を狭めるか、スキップの指示を削除する
トークンコストが高いエージェントがデータを取りすぎているスコープを制限する(例:「過去24時間のPRのみ」)
頻繁な失敗エージェントがサポートされていない操作を試みている推論ログで失敗したツール呼び出しを確認し、プロンプトを調整する

より良い会話のためのヒント

  • 具体的に — 「このPRをセキュリティの問題についてレビューして」は「このPRを見て」よりも効果的
  • コンテキストを提供する — リンクを貼り付け、ファイルを共有し、関連するプロジェクトやサービスに言及する
  • 反復する — 最初の回答が完璧でなくても、フォローアップする。Themisは会話全体を記憶しています
  • 適切なエントリポイントを使う — 受信トレイのエントリ(レビュー、自動化、コード生成)から開始すると、コンテキストが自動的に読み込まれ、再度説明する手間が省けます
  • 推論ログを確認する — 回答がおかしいと感じたら、推論を展開して理由を理解し、エージェントを誘導する