Add "Extended" clickbench queries #8861

alamb · 2024-01-14T12:34:21Z

Which issue does this PR close?

Rationale for this change

I would like to have benchmarks that allow us to show improvements such as #8827 and #8849 are significant

What changes are included in this PR?

Add new "Extended" datafusion specific clickbench queries:

to run:

./benchmarks/bench.sh run clickbench_extended

Example:

***************************
DataFusion Benchmark Script
COMMAND: run
BENCHMARK: clickbench_extended
DATAFUSION_DIR: /Users/andrewlamb/Software/arrow-datafusion/benchmarks/..
BRACH_NAME: alamb_clickbench_extended
DATA_DIR: /Users/andrewlamb/Software/arrow-datafusion/benchmarks/data
RESULTS_DIR: /Users/andrewlamb/Software/arrow-datafusion/benchmarks/results/alamb_clickbench_extended
CARGO_COMMAND: cargo run --profile release-nonlto
***************************
RESULTS_FILE: /Users/andrewlamb/Software/arrow-datafusion/benchmarks/results/alamb_clickbench_extended/clickbench_extended.json
Running clickbench (1 file) extended benchmark...
   Compiling datafusion-benchmarks v34.0.0 (/Users/andrewlamb/Software/arrow-datafusion/benchmarks)
     Running `/Users/andrewlamb/Software/arrow-datafusion/target/release-nonlto/dfbench clickbench --iterations 5 --path /Users/andrewlamb/Software/ar
row-datafusion/benchmarks/data/hits.parquet --queries-path /Users/andrewlamb/Software/arrow-datafusion/benchmarks/queries/clickbench/extended.sql -o /Users/andrewlamb/Software/arrow-datafusion/benchmarks/results/alamb_clickbench_extended/clickbench_extended.json`
Running benchmarks with the following options: RunOpt { query: None, common: CommonOpt { iterations: 5, partitions: None, batch_size: 8192, debug: false }, path: "/Users/andrewlamb/Software/arrow-datafusion/benchmarks/data/hits.parquet", queries_path: "/Users/andrewlamb/Software/arrow-datafusion/benchmarks/queries/clickbench/extended.sql", output_path: Some("/Users/andrewlamb/Software/arrow-datafusion/benchmarks/results/alamb_clickbench_extended/clickbench_extended.json") }
Q0: SELECT COUNT(DISTINCT "SearchPhrase"), COUNT(DISTINCT "MobilePhone"), COUNT(DISTINCT "MobilePhoneModel") FROM hits;
Query 0 iteration 0 took 5614.0 ms and returned 1 rows
Query 0 iteration 1 took 5652.6 ms and returned 1 rows
Query 0 iteration 2 took 5554.3 ms and returned 1 rows
Query 0 iteration 3 took 5511.4 ms and returned 1 rows
Query 0 iteration 4 took 5554.3 ms and returned 1 rows
Done

Are these changes tested?

I tested this (and clickbench_1) manually

Are there any user-facing changes?

this is a development tool only

alamb · 2024-01-14T19:15:11Z

Thank you for the review @andygrove

Dandandan · 2024-01-16T08:51:27Z

Thank you @alamb

Add "Extended" clickbench queries

c588909

alamb added the development-process Related to development process of DataFusion label Jan 14, 2024

github-actions bot removed the development-process Related to development process of DataFusion label Jan 14, 2024

alamb mentioned this pull request Jan 14, 2024

Optimize COUNT( DISTINCT ...) for strings (up to 9x faster) #8849

Merged

andygrove approved these changes Jan 14, 2024

View reviewed changes

Dandandan approved these changes Jan 15, 2024

View reviewed changes

jackwener approved these changes Jan 16, 2024

View reviewed changes

Dandandan merged commit 08de64d into apache:main Jan 16, 2024
22 checks passed

alamb deleted the alamb/clickbench_extended branch January 16, 2024 11:44

alamb mentioned this pull request Jan 22, 2024

Minor: Add new Extended ClickBench benchmark queries #8950

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add "Extended" clickbench queries #8861

Add "Extended" clickbench queries #8861

alamb commented Jan 14, 2024

alamb commented Jan 14, 2024

Dandandan commented Jan 16, 2024

Add "Extended" clickbench queries #8861

Add "Extended" clickbench queries #8861

Conversation

alamb commented Jan 14, 2024

Which issue does this PR close?

Rationale for this change

What changes are included in this PR?

Are these changes tested?

Are there any user-facing changes?

alamb commented Jan 14, 2024

Dandandan commented Jan 16, 2024