HN: Canary (YC W26) を起動 – コードを理解する AI QA

1773939433
2026-03-19 16:01:00

おい、HN！私たちは Aakash と Viswesh で、Canary (https://www.runcanary.ai）。コードベースを読み取り、プルリクエストが実際に何を変更したかを把握し、影響を受けるすべてのユーザーワークフローに対してテストを生成して実行する AI エージェントを構築します。

Aakash と私は以前、Windsurf、Cognition、Google で AI コーディングツールを構築しました。 AI ツールのおかげで、各チームの出荷作業は迅速化されましたが、マージ前に実際のユーザーの行動をテストする人は誰もいませんでした。 PR は大きくなり、レビューは引き続きファイルの差分で発生し、きれいに見えた変更は実稼働環境でのチェックアウト、認証、請求を破壊しました。私たちはそれを直接見ました。私たちはそのギャップを埋めるために Canary を立ち上げました。仕組みは次のとおりです。

Canary は、コードベースに接続することから開始し、ルート、コントローラー、検証ロジックなど、アプリがどのように構築されているかを理解します。 PR をプッシュすると、Canary は差分を読み取り、変更の背後にある意図を理解して、プレビューアプリに対してテストを生成して実行し、実際のユーザーフローをエンドツーエンドでチェックします。 PR に直接コメントし、何が変更されたかを示すテスト結果と記録を示し、期待どおりに動作しないものにはフラグを立てます。 PR コメントを介して特定のユーザーワークフローテストをトリガーすることもできます。

PR テストを超えて、PR から生成されたテストを回帰スイートに移動できます。テストしたい内容を平易な英語で入力するだけでテストを作成することもできます。 Canary は、コードベースから完全なテストスイートを生成し、スケジュールを設定して、継続的に実行します。当社の建設技術顧客の 1 つは、請求額が当初の提案総額から最大 1,600 ドルもずれていた請求フローを抱えていました。 Canary は、リリース前に請求書フローの回帰を発見しました。

これは、単一の基礎モデルファミリだけで実行できるものではありません。 QA は、ソースコード、DOM/ARIA、デバイスエミュレーター、視覚的検証、画面記録の分析、ネットワーク/コンソールログ、ライブブラウザーの状態など、専門化する単一モデルのような多くの手法にまたがります。また、テストを確実に実行するには、カスタムブラウザーフリート、ユーザーセッション、一時的な環境、オンデバイスファーム、およびデータシーディングも必要です。さらに、コード変更の二次効果を捕捉するには、通常のハッピーパステストフローでは不可能な、さまざまなタイプのユーザー間で複数の可能な方法でアプリケーションを中断する特殊なハーネスが必要です。

専用に構築された QA エージェントがどの程度うまく機能するかを測定するために、コード検証の最初のベンチマークである QA-Bench v0 を公開しました。実際の PR を考慮すると、AI モデルは影響を受けるすべてのユーザーワークフローを特定し、関連するテストを生成できるでしょうか?私たちは、Grafana、Mattermost、Cal.com、および Apache Superset 上の 35 の実際の PR にわたって、GPT 5.4、Claude Code (Opus 4.6)、および Sonnet 4.6 に対して専用の QA エージェントを、関連性、カバレッジ、一貫性の 3 つの次元でテストしました。ギャップが最も大きかったのはカバレッジです。カナリアは GPT 5.4 に対して 11 ポイント、クロードコードに対して 18 ポイント、ソネット 4.6 に対して 26 ポイントリードしています。完全な方法論とリポジトリごとの内訳については、ベンチマークレポートを参照してください。 https://www.runcanary.ai/blog/qa-bench-v0

ここで製品デモをチェックできます。 https://youtu.be/NeD9g1do_BU

コード検証に取り組んでいる方、またはこれを別の方法で測定する方法を考えている方からのフィードバックをお待ちしています。

#Canary #W26 #を起動 #コードを理解する

Tagged Canary, W26, コードを理解する, を起動

HN: Canary (YC W26) を起動 – コードを理解する AI QA

Related

Leave a Reply Cancel reply

HN: Canary (YC W26) を起動 – コードを理解する AI QA

Share this:

Related

Leave a Reply Cancel reply