#!/usr/bin/env bats
# Tests for benchmark script filtering flags

load test_helper.sh

@test "baseline --help shows usage and exits 0" {
    run bash "$PROJECT_ROOT/scripts/benchmark/run-baseline.sh" --help
    assert_success
    assert_output --partial "Usage"
    assert_output --partial "--max-size"
    assert_output --partial "--category"
    assert_output --partial "--skip-longctx"
    assert_output --partial "--kv-types"
}

@test "run-suite --help shows usage and exits 0" {
    run bash "$PROJECT_ROOT/scripts/benchmark/run-suite.sh" --help
    assert_success
    assert_output --partial "Usage"
    assert_output --partial "--max-size"
    assert_output --partial "--category"
    assert_output --partial "--skip-longctx"
    assert_output --partial "--tag"
    assert_output --partial "--kv-types"
}

@test "benchmark dispatcher shows help with no args" {
    run bash "$PROJECT_ROOT/bin/benchmark"
    assert_failure
    assert_output --partial "Commands"
    assert_output --partial "--max-size"
    assert_output --partial "--skip-longctx"
    assert_output --partial "--kv-types"
}

@test "benchmark dispatcher passes --help through to baseline" {
    run bash "$PROJECT_ROOT/bin/benchmark" baseline --help
    assert_success
    assert_output --partial "Usage"
}