1773939433
2026-03-19 16:01:00
Aakash と私は以前、Windsurf、Cognition、Google で AI コーディング ツールを構築しました。 AI ツールのおかげで、各チームの出荷作業は迅速化されましたが、マージ前に実際のユーザーの行動をテストする人は誰もいませんでした。 PR は大きくなり、レビューは引き続きファイルの差分で発生し、きれいに見えた変更は実稼働環境でのチェックアウト、認証、請求を破壊しました。私たちはそれを直接見ました。私たちはそのギャップを埋めるために Canary を立ち上げました。仕組みは次のとおりです。
Canary は、コードベースに接続することから開始し、ルート、コントローラー、検証ロジックなど、アプリがどのように構築されているかを理解します。 PR をプッシュすると、Canary は差分を読み取り、変更の背後にある意図を理解して、プレビュー アプリに対してテストを生成して実行し、実際のユーザー フローをエンドツーエンドでチェックします。 PR に直接コメントし、何が変更されたかを示すテスト結果と記録を示し、期待どおりに動作しないものにはフラグを立てます。 PR コメントを介して特定のユーザー ワークフロー テストをトリガーすることもできます。
PR テストを超えて、PR から生成されたテストを回帰スイートに移動できます。テストしたい内容を平易な英語で入力するだけでテストを作成することもできます。 Canary は、コードベースから完全なテスト スイートを生成し、スケジュールを設定して、継続的に実行します。当社の建設技術顧客の 1 つは、請求額が当初の提案総額から最大 1,600 ドルもずれていた請求フローを抱えていました。 Canary は、リリース前に請求書フローの回帰を発見しました。
これは、単一の基礎モデル ファミリだけで実行できるものではありません。 QA は、ソース コード、DOM/ARIA、デバイス エミュレーター、視覚的検証、画面記録の分析、ネットワーク/コンソール ログ、ライブ ブラウザーの状態など、専門化する単一モデルのような多くの手法にまたがります。また、テストを確実に実行するには、カスタム ブラウザー フリート、ユーザー セッション、一時的な環境、オンデバイス ファーム、およびデータ シーディングも必要です。さらに、コード変更の二次効果を捕捉するには、通常のハッピー パス テスト フローでは不可能な、さまざまなタイプのユーザー間で複数の可能な方法でアプリケーションを中断する特殊なハーネスが必要です。
専用に構築された QA エージェントがどの程度うまく機能するかを測定するために、コード検証の最初のベンチマークである QA-Bench v0 を公開しました。実際の PR を考慮すると、AI モデルは影響を受けるすべてのユーザー ワークフローを特定し、関連するテストを生成できるでしょうか?私たちは、Grafana、Mattermost、Cal.com、および Apache Superset 上の 35 の実際の PR にわたって、GPT 5.4、Claude Code (Opus 4.6)、および Sonnet 4.6 に対して専用の QA エージェントを、関連性、カバレッジ、一貫性の 3 つの次元でテストしました。ギャップが最も大きかったのはカバレッジです。カナリアは GPT 5.4 に対して 11 ポイント、クロード コードに対して 18 ポイント、ソネット 4.6 に対して 26 ポイントリードしています。完全な方法論とリポジトリごとの内訳については、ベンチマーク レポートを参照してください。 https://www.runcanary.ai/blog/qa-bench-v0
ここで製品デモをチェックできます。 https://youtu.be/NeD9g1do_BU
コード検証に取り組んでいる方、またはこれを別の方法で測定する方法を考えている方からのフィードバックをお待ちしています。
#Canary #W26 #を起動 #コードを理解する