GH-39704: [C++][Parquet] Benchmark levels decoding by mapleFU · Pull Request #39705 · apache/arrow

mapleFU · 2024-01-19T13:25:47Z

Rationale for this change

This patch add the level-decoding benchmark. It test:

Different max-level (for flat type, maximum level would be 1, for nested type, it would grows)
With different repeat ( repeated null / non-null is different from non-repeated data)
With different read-batch size. This part of logic is a bit tricky in original code

What changes are included in this PR?

Add Level decoding benchmark

Are these changes tested?

No need

Are there any user-facing changes?

no

Closes: [C++][Parquet] Benchmark Level Decoding #39704

github-actions · 2024-01-19T13:26:14Z

⚠️ GitHub issue #39704 has been automatically assigned in GitHub to PR creator.

mapleFU · 2024-01-19T13:26:25Z

@pitrou @emkornfield @wgtmac Would you mind take a look?

Also cc @Hattonuri

mapleFU · 2024-01-19T13:36:38Z

Benchmark on my MacOS with Release (-O2)

--------------------------------------------------------------------------------------------------------------------
Benchmark                                                                          Time             CPU   Iterations
--------------------------------------------------------------------------------------------------------------------
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          2771 ns         2725 ns       244327
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          9603 ns         9281 ns        74978
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024        534 ns          508 ns      1391429
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          2111 ns         2007 ns       348569
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          2078 ns         1993 ns       352508
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1731 ns         1728 ns       404636
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          8545 ns         8236 ns        84408

mapleFU · 2024-01-19T13:50:45Z

This benchmark shows that, when not highly repeated, the RLE without bitpacking is slow 😅

After changing RLE to BIT_PACKED, the speed gets a bit faster when repeat is not high:

--------------------------------------------------------------------------------------------------------------------
Benchmark                                                                          Time             CPU   Iterations
--------------------------------------------------------------------------------------------------------------------
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1072 ns         1069 ns       658198
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1056 ns         1051 ns       646001
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024       1088 ns         1057 ns       662383
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1075 ns         1033 ns       683908
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1123 ns         1121 ns       627145
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1093 ns         1091 ns       637848
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1183 ns         1135 ns       616930

We should mentioned that, our native unpack to int16 is slow =_=, this making decoding a bit slow.

alippai · 2024-01-20T03:36:21Z

Is this use case relevant here? #34510

Reading a non nullable fixed size list is missing the fast path, it’d nice to see it in the benchmark (even if not improving yet). With all the AI nowadays I assume tensor storage will be more and more common.

mapleFU · 2024-01-20T03:38:56Z

Reading a non nullable fixed size list is missing the fast path

Yeah I think it's related, I think I can optimize unpack later, but maybe I need some help in optimizing RLE

pitrou

Good idea @mapleFU . Please see my comments below.

cpp/src/parquet/column_reader_benchmark.cc

mapleFU · 2024-01-26T11:04:15Z

@emkornfield @pitrou Updated, so sorry for the delaying

mapleFU · 2024-01-26T11:05:05Z

Result in my MacOS with Release(-O2):

ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1                  3122 ns         3123 ns       225916 bytes_per_second=4.8286G/s items_per_second=2.59233G/s
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7                  8642 ns         8640 ns        81130 bytes_per_second=1.74531G/s items_per_second=937.005M/s
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024               1124 ns         1124 ns       617709 bytes_per_second=13.4136G/s items_per_second=7.20137G/s
ReadLevels/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1                  2412 ns         2414 ns       290082 bytes_per_second=6.24778G/s items_per_second=3.35425G/s
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1                  2403 ns         2401 ns       292828 bytes_per_second=6.27942G/s items_per_second=3.37124G/s
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1                  2201 ns         2202 ns       320742 bytes_per_second=6.84694G/s items_per_second=3.67592G/s
ReadLevels/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7                  7836 ns         7829 ns        90506 bytes_per_second=1.92618G/s items_per_second=1034.11M/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1724 ns         1726 ns       397519 bytes_per_second=8.73636G/s items_per_second=4.6903G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1694 ns         1695 ns       411450 bytes_per_second=8.89878G/s items_per_second=4.7775G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024       1694 ns         1695 ns       409966 bytes_per_second=8.89797G/s items_per_second=4.77706G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1668 ns         1669 ns       414886 bytes_per_second=9.03668G/s items_per_second=4.85153G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1760 ns         1761 ns       395125 bytes_per_second=8.56206G/s items_per_second=4.59672G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1733 ns         1734 ns       402188 bytes_per_second=8.69522G/s items_per_second=4.66821G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1754 ns         1756 ns       396380 bytes_per_second=8.58685G/s items_per_second=4.61003G/s

mapleFU · 2024-01-30T14:33:53Z

Ping @pitrou @emkornfield for help

cpp/src/parquet/column_reader_benchmark.cc

pitrou · 2024-01-31T10:20:38Z

Strange phenomenon: we get results like bytes_per_second=11.7241G/s items_per_second=6.29431G/s, where bytes_per_second is not equal to 2 * items_per_second.

pitrou · 2024-01-31T10:26:03Z

Oh, it seems Google benchmark has a weird behavior here. Unrelated to this PR though.

pitrou · 2024-01-31T10:37:24Z

Posted google/benchmark#1749 for the Google benchmark oddity.

pitrou · 2024-02-01T15:50:46Z

FTR, benchmark numbers here:

--------------------------------------------------------------------------------------------------------------------------------------------
Benchmark                                                                                  Time             CPU   Iterations UserCounters...
--------------------------------------------------------------------------------------------------------------------------------------------
ReadLevels_Rle/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1              2487 ns         2488 ns       288334 bytes_per_second=6.06116Gi/s items_per_second=3.25406G/s
ReadLevels_Rle/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7              8071 ns         8072 ns        86861 bytes_per_second=1.86809Gi/s items_per_second=1.00292G/s
ReadLevels_Rle/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024            826 ns          828 ns       841216 bytes_per_second=18.2145Gi/s items_per_second=9.77881G/s
ReadLevels_Rle/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1              2209 ns         2211 ns       314019 bytes_per_second=6.81903Gi/s items_per_second=3.66094G/s
ReadLevels_Rle/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1              2110 ns         2112 ns       331250 bytes_per_second=7.13955Gi/s items_per_second=3.83302G/s
ReadLevels_Rle/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1              1904 ns         1906 ns       368359 bytes_per_second=7.91382Gi/s items_per_second=4.2487G/s
ReadLevels_Rle/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7              7673 ns         7675 ns        90873 bytes_per_second=1.96488Gi/s items_per_second=1.05489G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1338 ns         1342 ns       522900 bytes_per_second=11.2397Gi/s items_per_second=6.03429G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1342 ns         1345 ns       521761 bytes_per_second=11.2118Gi/s items_per_second=6.01927G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1024       1340 ns         1343 ns       520704 bytes_per_second=11.2263Gi/s items_per_second=6.02705G/s
ReadLevels_BitPack/MaxLevel:1/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1327 ns         1330 ns       526037 bytes_per_second=11.3356Gi/s items_per_second=6.08578G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:1          1335 ns         1338 ns       520920 bytes_per_second=11.2687Gi/s items_per_second=6.04985G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:2048/LevelRepeatCount:1          1327 ns         1329 ns       526969 bytes_per_second=11.3443Gi/s items_per_second=6.09043G/s
ReadLevels_BitPack/MaxLevel:3/NumLevels:8096/BatchSize:1024/LevelRepeatCount:7          1336 ns         1338 ns       522798 bytes_per_second=11.2696Gi/s items_per_second=6.05033G/s

mapleFU · 2024-02-05T05:07:36Z

@pitrou I think the benchmark result shows "batch_size" should be take into consideration, for example, when the batchsize grows, BITPACK doesn't get improved, however, RLE is well optimized

mapleFU · 2024-02-05T16:57:39Z

Mybad, change vector for output to batch_size

conbench-apache-arrow · 2024-02-06T00:54:07Z

After merging your PR, Conbench analyzed the 5 benchmarking runs that have been run so far on merge-commit 0c88d13.

There were no benchmark performance regressions. 🎉

The full Conbench report has more details.

### Rationale for this change This patch add the level-decoding benchmark. It test: 1. Different max-level (for flat type, maximum level would be 1, for nested type, it would grows) 2. With different repeat ( repeated null / non-null is different from non-repeated data) 3. With different read-batch size. This part of logic is a bit tricky in original code ### What changes are included in this PR? Add Level decoding benchmark ### Are these changes tested? No need ### Are there any user-facing changes? no * Closes: apache#39704 Authored-by: mwish <maplewish117@gmail.com> Signed-off-by: Antoine Pitrou <antoine@python.org>

Add levels decoding basic benchmark

51529e0

mapleFU requested a review from wgtmac as a code owner January 19, 2024 13:25

github-actions bot added Component: Parquet Component: C++ awaiting review Awaiting review labels Jan 19, 2024

Fix repeated issue

9d393ee

pitrou requested changes Jan 22, 2024

View reviewed changes

github-actions bot added awaiting committer review Awaiting committer review and removed awaiting review Awaiting review labels Jan 22, 2024

emkornfield reviewed Jan 22, 2024

View reviewed changes

cpp/src/parquet/column_reader_benchmark.cc Outdated Show resolved Hide resolved

github-actions bot added awaiting changes Awaiting changes and removed awaiting committer review Awaiting committer review labels Jan 22, 2024

emkornfield reviewed Jan 22, 2024

View reviewed changes

cpp/src/parquet/column_reader_benchmark.cc Show resolved Hide resolved

Merge branch 'main' into level-decoding-benchmark

4377930

mapleFU mentioned this pull request Jan 23, 2024

[C++][Parquet] Add ability to write/read repetition/definition levels with PLAIN encoding #39581

Closed

Merge branch 'main' into level-decoding-benchmark

c9e2007

github-actions bot added awaiting change review Awaiting change review and removed awaiting changes Awaiting changes labels Jan 26, 2024

fix comments

fc0c1a5

mapleFU force-pushed the level-decoding-benchmark branch from b402c93 to fc0c1a5 Compare January 26, 2024 11:08

mapleFU requested review from emkornfield and pitrou January 26, 2024 12:54

wgtmac approved these changes Jan 28, 2024

View reviewed changes

pitrou reviewed Jan 31, 2024

View reviewed changes

cpp/src/parquet/column_reader_benchmark.cc Outdated Show resolved Hide resolved

pitrou reviewed Jan 31, 2024

View reviewed changes

cpp/src/parquet/column_reader_benchmark.cc Outdated Show resolved Hide resolved

pitrou reviewed Jan 31, 2024

View reviewed changes

cpp/src/parquet/column_reader_benchmark.cc Outdated Show resolved Hide resolved

mapleFU added 2 commits February 1, 2024 22:56

Merge branch 'main' into level-decoding-benchmark

24b9677

Resolve some comments

53f2e32

change output_levels.size() to batch_size

3aea8a3

mapleFU requested a review from pitrou February 5, 2024 17:34

pitrou merged commit 0c88d13 into apache:main Feb 5, 2024

pitrou removed the awaiting change review Awaiting change review label Feb 5, 2024

mapleFU mentioned this pull request Feb 5, 2024

GH-39402: [C++] bit_util TrailingBits faster #39403

Closed

mapleFU deleted the level-decoding-benchmark branch February 5, 2024 18:07

mapleFU mentioned this pull request Mar 27, 2024

[C++][Parquet] Investigate optimizing level decoding #40845

Closed

Conversation

mapleFU commented Jan 19, 2024 • edited by github-actions bot Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Rationale for this change

What changes are included in this PR?

Are these changes tested?

Are there any user-facing changes?

Uh oh!

github-actions bot commented Jan 19, 2024

Uh oh!

mapleFU commented Jan 19, 2024

Uh oh!

mapleFU commented Jan 19, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

mapleFU commented Jan 19, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

alippai commented Jan 20, 2024

Uh oh!

mapleFU commented Jan 20, 2024

Uh oh!

pitrou left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

mapleFU commented Jan 26, 2024

Uh oh!

mapleFU commented Jan 26, 2024

Uh oh!

mapleFU commented Jan 30, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

pitrou commented Jan 31, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

pitrou commented Jan 31, 2024

Uh oh!

pitrou commented Jan 31, 2024

Uh oh!

pitrou commented Feb 1, 2024

Uh oh!

mapleFU commented Feb 5, 2024

Uh oh!

mapleFU commented Feb 5, 2024

Uh oh!

conbench-apache-arrow bot commented Feb 6, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

mapleFU commented Jan 19, 2024 •

edited by github-actions bot

Loading

mapleFU commented Jan 19, 2024 •

edited

Loading

mapleFU commented Jan 19, 2024 •

edited

Loading

mapleFU commented Jan 30, 2024 •

edited

Loading

pitrou commented Jan 31, 2024 •

edited

Loading