DOC: provide methods to circumvent unknown chunk sizes by stsievert · Pull Request #637 · dask/dask-ml

stsievert · 2020-04-08T17:44:17Z

What does this PR implement?
It makes the conversion to Dask Array more clear. This reflects the documentation in dask/dask#4516

Reference issues/PRs

The motivation is Support DataFrame in IncrementalSearchCV #628. I started to support Dataframes in IncrementalSearchCV. However, I'm not sure how feasible this is: train_test_split requires known chunk sizes.

stsievert · 2020-04-09T18:50:08Z

I think the CI failure is unrelated. Here's the error:

Details

================================== FAILURES ===================================
______________________ test_singular_values[randomized] _______________________

svd_solver = 'randomized'

    @pytest.mark.parametrize("svd_solver", ["full", "auto", "randomized"])
    def test_singular_values(svd_solver):
        # Check that the IncrementalPCA output has the correct singular values
    
        rng = np.random.RandomState(0)
        n_samples = 1000
        n_features = 100
    
        X = datasets.make_low_rank_matrix(
            n_samples, n_features, tail_strength=0.0, effective_rank=10, random_state=rng
        )
        X = da.from_array(X, chunks=[200, -1])
    
        pca = PCA(n_components=10, svd_solver=svd_solver, random_state=rng).fit(X)
        ipca = IncrementalPCA(n_components=10, batch_size=100, svd_solver=svd_solver).fit(X)
        assert_array_almost_equal(pca.singular_values_, ipca.singular_values_, 2)
    
        # Compare to the Frobenius norm
        X_pca = pca.transform(X)
        X_ipca = ipca.transform(X)
        assert_array_almost_equal(
            np.sum(pca.singular_values_ ** 2.0), np.linalg.norm(X_pca, "fro") ** 2.0, 12
E        x: array(6.38)
E        y: array(6.39)

tests\test_incremental_pca.py:368: AssertionError

TomAugspurger · 2020-04-09T19:19:34Z

Thanks. This looks like a nice change until we can support them directly.

stsievert added 3 commits April 8, 2020 12:47

DOC: make dataframe conversion more clear

fdcabae

MAINT: remove some imports

a83f0ab

Add statement on test fail

1eac415

stsievert force-pushed the incremental-search-dataframes branch from 3ab5e16 to 1eac415 Compare April 8, 2020 17:48

stsievert added 3 commits April 8, 2020 12:51

Add comment explaining

dbae80a

Remove unused impl

9bcaa24

isort

a5e4234

TomAugspurger merged commit b9d903e into dask:master Apr 9, 2020

stsievert mentioned this pull request Apr 13, 2020

ENH: provide monitoring of model selection searches #528

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

DOC: provide methods to circumvent unknown chunk sizes#637

DOC: provide methods to circumvent unknown chunk sizes#637
TomAugspurger merged 6 commits intodask:masterfrom
stsievert:incremental-search-dataframes

stsievert commented Apr 8, 2020

Uh oh!

stsievert commented Apr 9, 2020

Uh oh!

TomAugspurger commented Apr 9, 2020

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Uh oh!

Conversation

stsievert commented Apr 8, 2020

Uh oh!

stsievert commented Apr 9, 2020

Uh oh!

TomAugspurger commented Apr 9, 2020

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants