Дистилляция данных (Data Distillation)

2020/10/212020/10/22 alexanderdyakonov исследования data, distillation, градиентный спуск, данные, дистилляция, нейросети

Расскажем об одном DL-подходе к задаче сокращения размера выборки, а на самом деле, даже более амбициозной задаче — создания синтетических данных, хранящих всю полезную информацию о выборке.

Читать далее →

Самообучение (Self-Supervision)

2020/06/032020/06/04 alexanderdyakonov обзор contrastive learning, downstream task, машинное обучение, обучение без учителя, самообучение, pretext task, pseudo label

Сейчас расскажем о самообучении – способе многому научить модель без ручной разметки и, в некотором смысле, отказаться от глубокого обучения при настройке модели для решения нужной Вам задачи. Материал требует среднего уровня подготовки, даётся много ссылок на оригинальные работы.

Читать далее →

Ответы на вопросы в канале

2020/04/30 alexanderdyakonov вопрос-ответ анализ данных, викторина, телеграм

В своём телеграм-канале я периодически публикую вопросы-викторины на темы анализа данных, математики и т.п. Здесь перечислены последние вопросы с моими комментариями, правильными ответами (отмечены зелёным) и статистикой ответов. Есть также полезные ссылки с первоисточниками.

вопросы

Читать далее →

Проблема калибровки уверенности

2020/03/272020/04/09 alexanderdyakonov обзор вероятность, калибровка, focal loss, энтропия

Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и правильно оценивают свою уверенность в выданном ответе. Этот обзор не начального уровня — необходимо представлять, как работают и используются алгоритмы классификации, хотя автор существенно упростил изложение, например, обошёлся без условных вероятностей в определениях (из-за чего немного пострадала строгость изложения).

calibration2

Читать далее →

Итоги OneTwoTrip Contest

2020/01/28 alexanderdyakonov обзор бустинг, опрос, lightgbm, соревнование, статистика, xgboost

Недавно завершилось соревнование «OneTwoTrip Contest» на платформе Boosters. Здесь представлено некоторое саммари результатов.

соревнование

Читать далее →

С Новым 2020 годом!

2019/12/312019/12/31 alexanderdyakonov поздравление новый год, статистика

По традиции раз в год поздравляю всех читателей блога с праздником! Немного статистики и небольшой подарок читателям.

stat2019

Читать далее →

Токенизация на подслова (Subword Tokenization)

2019/11/292019/11/28 alexanderdyakonov обзор NLP, сегментация, слово, текст, токен, токенизация, subword, tokenization

Эта заметка для более продвинутых в ML (в отличие от основной массы предыдущих постов): для тех, кто постигает таинства анализа текстов, поскольку речь пойдёт о предобработке текстовых данных, которая может улучшить качество в некоторых задачах.

subword

Читать далее →

Линейная регрессия++

2019/10/31 alexanderdyakonov образование линейная регрессия, elastic net, lasso, регрессия, RANSAC, ridge

Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).

Читать далее →

Python и Pandas: делаем быстрее

2019/09/232019/09/26 alexanderdyakonov код pandas, python

Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я специально писал неоптимально, а в некоторых думал, что оптимально… сейчас расскажу, что из этого получилось. При чтении старайтесь не пролистывать быстро вниз: попробуйте догадаться, какие из предложенных вариантов кода самые быстрые.

Читать далее →

Кривые в машинном обучении

2019/08/292019/08/31 alexanderdyakonov образование AUC, бинарная классификация, кривые, метрика качества

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

ML_curves

Читать далее →

	alexanderdyakonov к записи Как бенчмарк попал в приз…
	shhhidan к записи Как бенчмарк попал в приз…
	alexanderdyakonov к записи Знакомьтесь, Джини
	Стас к записи Знакомьтесь, Джини
	User к записи Формула Байеса
	Иван к записи AUC ROC (площадь под кривой…
	alexanderdyakonov к записи Линейная регрессия++

Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Дистилляция данных (Data Distillation)

Самообучение (Self-Supervision)

Ответы на вопросы в канале

Проблема калибровки уверенности

Итоги OneTwoTrip Contest

С Новым 2020 годом!

Токенизация на подслова (Subword Tokenization)

Линейная регрессия++

Python и Pandas: делаем быстрее

Кривые в машинном обучении