Машинное обучение в R, Python и H2O. Модуль 1. Предварительная подготовка данных.
$50.00
Минимальная цена
$92.00
Рекомендованная цена

Машинное обучение в R, Python и H2O. Модуль 1. Предварительная подготовка данных.

О книге

Об авторе

Artyom Gruzdev
Artyom Gruzdev

Заместитель директора по научной работе ИЦ «Гевисста», переводчик бестселлеров – книги Райан Митчелл «Скрапинг веб-сайтов с помощью Python». https://www.ozon.ru/context/detail/id/136423991/ и книги Андреаса Мюллера и Сары Гвидо «Введение в машинное обучение с помощью

Python» https://www.ozon.ru/context/detail/id/140891479/, автор книг «Прогнозное моделирование в IBM SPSS Statistics, R и Python. Деревья решений и случайный лес» https://www.ozon.ru/context/detail/id/142702694/ и «Изучаем pandas» https://www.ozon.ru/context/detail/id/149717036/, автор более трех десятков статей по прогнозному моделированию.

Исследовательский центр «Гевисста» с 2009 г. осуществляет разработку, валидацию, внедрение и мониторинг риск-моделей, моделей оттока, моделей отклика на базе IBM SPSS Statistics, IBM SPSS Modeler, SAS Enterprise Miner, SAS Enterprise Guide, R, Python. Осуществляет подготовку специалистов в сфере прогнозного моделирования и анализа данных. Основное направление – разработка новых высокоточных и одновременно интерпретируемых алгоритмов машинного обучения. Клиентами являются Citibank N.A., TransUnion, DBS Bank и Banco Galicia.

Содержание

СОДЕРЖАНИЕ I. Вводная часть I.1. Типы данных I.2. Типы переменных I.2.1. Количественная переменная I.2.2. Категориальная переменная II. Знакомство с Python II.1. Установка Anaconda II.2. IPython и Jupyter Notebook II.3. NumPy II.4. SciPy II.5. matplotlib II.6. pandas II.7. scikit-learn II.7.1. Понятие массива признаков и массива меток II.7.2. Валидация II.7.3. Классы, строящие модели предварительной подготовки данных, и классы, строящие модели машинного обучения II.7.4. Работа с классами, строящими модели предварительной подготовки данных II.7.5. Работа с классами, строящими модели машинного обучения II.7.6. Наиболее часто используемые классы и функции II.7.6.1. Класс SimpleImputer II.7.6.2. Класс OneHotEncoder II.7.6.3. Класс Pipeline II.7.6.4. Класс ColumnTransformer II.7.6.5. Функция cross_val_score() II.7.6.6. Класс GridSearchCV II.7.6.7. Классы PowerTransformer, KBinsDiscretizer и FunctionTransformer III. Знакомство с R IV. Знакомство с H2O IV.1. Установка пакета h2o для R и пакета h2o для Python IV.2. Запуск кластера H2O IV.3. Преобразование данных во фреймы H2O IV.3.1. Получение фреймов H2O из датафреймов R и pandas IV.3.2. Получение фреймов H2O напрямую IV.4. Знакомство с содержимым фрейма IV.5. Определение имени зависимой переменной и списка имен предикторов IV.6. Обучение модели машинного обучения IV.7. Вывод модели IV.8. Получение прогнозов V. Формирование выборки V.1. Определение «окна выборки» и «окна созревания» V.2. Определение зависимой переменной V.3. Определение размера выборки VI. План предварительной подготовки VI.1. Случайное разбиение на обучающую и тестовую выборки (только для построения базовых моделей, без подбора гиперпараметров) VI.2. Комбинированная проверка через конвейер (можно использовать для подбора гиперпараметров) VII. Загрузка данных VIII. Удаление бесполезных переменных, переменных «из будущего», нестабильных переменных IX. Преобразование типов переменных X. Нормализация строковых значений XI. Обработка дублирующихся наблюдений XII. Обработка редких категорий XIII. Появление новых категорий в новых данных XIV. Импутация пропусков XIV.1. Способы импутации количественных и бинарных переменных XIV.2. Способы импутации категориальных переменных XV. Обработка выбросов XVI. Описательные статистики XVI.1. Cреднее, медиана и мода XVI.2. Квантиль XVI.3. Дисперсия и стандартное отклонение XVI.4. Корреляция и ковариация XVI.5. Получение сводки описательных статистик в R XVI.6. Получение сводки описательных статистик в библиотеке pandas XVII. Нормальное распределение XVIII. Обзор преобразований, максимизирующих нормальность XVIII.1. Обратное преобразование, отрицательное обратное преобразование XVIII.2. Логарифм XVIII.3. Корень четвертой степени, кубический корень, квадратный корень XVIII.4. Экспоненциальное преобразование XVIII.5. Квадратный корень разности между константой и исходным значением переменной XVIII.6. Логарифм разности между константой и исходным значением переменной XVIII.7. Возведение в степень XVIII.8. Арксинус XVIII.9. Пример подбора оптимального преобразования из ранее рассмотренных для переменной с правосторонней асимметрией XVIII.10. Преобразование Бокса-Кокса XVIII.11. Преобразование Йео-Джонсона XVIII.12. Построение гистограммы и графика квантиль-квантиль для подбора преобразований, максимизирующих нормальность XVIII.12.1. Обратное преобразование XVIII.12.2. Логарифмическое преобразование XVIII.12.3. Логарифмическое преобразование по формуле log(x/mean(x)+k), где k – значение, близкое к 0 XVIII.12.4. Логарифмическое преобразование по формуле log(x/mean(x)+k), где k – значение, близкое к 1 XVIII.12.5. Преобразование корнем четвертой степени XVIII.12.6. Преобразование кубическим корнем XVIII.12.7. Преобразование квадратным корнем XVIII.12.8. Преобразование Бокса-Кокса через функцию boxcox() питоновской библиотеки SciPy XVIII.12.9. Преобразование Бокса-Кокса/преобразование Йео-Джонсона через класс PowerTransformer питоновской библиотеки scikit-learn XIX. Конструирование признаков XIX.1. Статическое конструирование признаков, исходя из предметной области XIX.1.1. Поиск сильных переменных XIX.1.2. Агрегаты XIX.1.3. Создание переменной, у которой значения основаны на значениях исходной переменной XIX.1.4. Создание бинарной переменной на основе значений количественной переменной XIX.1.5. Создание переменной, у которой каждое значение - среднее значение количественной переменной, взятое по уровню категориальной переменной XIX.1.6. Объединение нескольких бинарных переменных в одну количественную переменную XIX.1.7. Вычисление расстояния между двумя точками по географическим координатам (через формулу гаверсинусов) XIX.1.8. Геохеширование XIX.1.9. Выделение из дат единиц времени XIX.1.10. Учет цикличности временных признаков XIX.1.11. Макроэкономические переменные XIX.2. Статическое конструирование признаков, исходя из особенностей алгоритма XIX.2.1. Дамми-кодирование (One-Hot Encoding) XIX.2.1.1. Дамми-кодирование по методу неполного ранга XIX.2.1.2. Дамми-кодирование по методу полного ранга XIX.2.1.3. Дамми-кодирование с помощью функции get_dummies() библиотеки pandas XIX.2.1.4. Дамми-кодирование с помощью класса OneHotEncoder XIX.2.2. Кодирование контрастами (Effect Encoding) XIX.2.3. Присвоение категориям в лексикографическом порядке целочисленных значений, начиная с 0 (Label Encoding) XIX.2.4. Кодирование частотами (Frequency Encoding) XIX.2.5. Кодирование вероятностями (Likelihood Encoding) XIX.2.5.1. Кодирование простым средним значением зависимой переменной XIX.2.5.2. Кодирование простым средним значением зависимой переменной по схеме leave-one-out XIX.2.5.3. Кодирование простым средним значением зависимой переменной по схеме K-fold XIX.2.5.4. Кодирование средним значением зависимой переменной, сглаженным через сигмоидальную функцию XIX.2.5.5. Кодирование средним значением зависимой переменной, сглаженным через сигмоидальную функцию, по схеме K-fold XIX.2.5.6. Кодирование средним значением зависимой переменной, сглаженным через параметр регуляризации XIX.2.5.7. Кодирование средним значением зависимой переменной, вычисленным по «прошлому» (упрощенный вариант кодировки, применяющейся в библиотеке CatBoost) XIX.2.6. Присвоение категориям в зависимости от порядка их появления целочисленных значений, начиная с 1 ( Ordinal Encoding) XIX.2.7. Присвоение категориям, отсортированным по процентной доле наблюдений положительного класса зависимой переменной, целочисленных значений, начиная с 0 ( еще одна схема Ordinal Encoding) XIX.2.8. Бинарное кодирование (Binary Encoding) XIX.2.9. Бинарное кодирование с хешированием (Hashing) XIX.2.10. Создание переменных-взаимодействий (interactions) XIX.2.11. Биннинг переменных XIX.2.11.1. Биннинг на основе интервалов, созданных вручную или одинаковой ширины XIX.2.11.2. Биннинг на основе децилей XIX.2.11.3. Биннинг на основе WoE и IV XIX.2.11.4. Биннинг на основе CHAID XIX.3. Динамическое конструирование признаков, исходя из особенностей алгоритма XIX.3.1. Преобразование категориальных признаков в количественные внутри библиотеки CatBoost XIX.3.2. Биннинг категориальных признаков внутри библиотеки H2O XIX.3.3. Связывание взаимно исключающих признаков внутри библиотеки LightGBM XX. Стандартизация

60-дневная гарантия 100% удовлетворения от Leanpub

В течение 60 дней после покупки вы можете получить 100% возврат средств за любую покупку на Leanpub всего в два клика.

Технически это рискованно для нас, поскольку файлы книги или курса останутся у вас в любом случае. Но мы настолько уверены в наших продуктах и услугах, а также в наших авторах и читателях, что с радостью предлагаем полную гарантию возврата денег за всё, что мы продаем.

Узнать, насколько что-то хорошо, можно только попробовав, а благодаря нашей 100% гарантии возврата денег это можно сделать без всякого риска!

Так что нет причин не нажать кнопку "Добавить в корзину", не так ли?

Ознакомьтесь с полными условиями...

Получайте $8 с покупки за $10 и $16 с покупки за $20

Мы выплачиваем 80% роялти за покупки от $7.99 и выше, и 80% роялти минус фиксированную комиссию 50 центов за покупки в диапазоне от $0.99 до $7.98. Вы зарабатываете $8 с продажи за $10 и $16 с продажи за $20. Таким образом, если мы продадим 5000 невозвращенных копий вашей книги по $20, вы заработаете $80,000.

(Да, некоторые авторы уже заработали намного больше этого на Leanpub.)

Фактически, авторы заработалиболее $14 миллионов, создавая, публикуя и продавая на Leanpub.

Узнайте больше о писательстве на Leanpub

Бесплатные обновления. Без DRM.

Если вы покупаете книгу на Leanpub, вы получаете бесплатные обновления, пока автор обновляет книгу! Многие авторы используют Leanpub для публикации своих книг в процессе написания. Все читатели получают бесплатные обновления, независимо от того, когда они купили книгу и сколько заплатили (включая бесплатные книги).

Большинство книг Leanpub доступны в форматах PDF (для компьютеров) и EPUB (для телефонов, планшетов и Kindle). Форматы, в которых доступна книга, показаны в правом верхнем углу этой страницы.

Наконец, книги Leanpub не имеют никакой бессмысленной DRM-защиты, поэтому вы можете легко читать их на любом поддерживаемом устройстве.

Узнайте больше о форматах электронных книг Leanpub и где их читать

Пишите и публикуйте на Leanpub

Вы можете использовать Leanpub для простого написания, публикации и продажи электронных книг и онлайн-курсов в процессе работы над ними или уже завершённых!

Leanpub - это мощная платформа для серьёзных авторов, сочетающая простой, элегантный процесс написания и публикации с магазином, ориентированным на продажу книг в процессе их создания.

Leanpub - это волшебная печатная машинка для авторов: просто пишите обычным текстом, и для публикации вашей электронной книги достаточно нажать одну кнопку. (Или, если вы создаёте свою электронную книгу собственным способом, вы даже можете загрузить свои собственные файлы PDF и/или EPUB и затем опубликовать их одним щелчком мыши!) Это действительно так просто.

Узнайте больше о публикации на Leanpub