Машинное обучение в R, Python и H2O. Модуль 1. Предварительная подготовка данных.
$50.00
Минимальная цена
$92.00
Рекомендуемая цена

Машинное обучение в R, Python и H2O. Модуль 1. Предварительная подготовка данных.

О книге

Об авторе

Artyom Gruzdev
Artyom Gruzdev

Заместитель директора по научной работе ИЦ «Гевисста», переводчик бестселлеров – книги Райан Митчелл «Скрапинг веб-сайтов с помощью Python». https://www.ozon.ru/context/detail/id/136423991/ и книги Андреаса Мюллера и Сары Гвидо «Введение в машинное обучение с помощью

Python» https://www.ozon.ru/context/detail/id/140891479/, автор книг «Прогнозное моделирование в IBM SPSS Statistics, R и Python. Деревья решений и случайный лес» https://www.ozon.ru/context/detail/id/142702694/ и «Изучаем pandas» https://www.ozon.ru/context/detail/id/149717036/, автор более трех десятков статей по прогнозному моделированию.

Исследовательский центр «Гевисста» с 2009 г. осуществляет разработку, валидацию, внедрение и мониторинг риск-моделей, моделей оттока, моделей отклика на базе IBM SPSS Statistics, IBM SPSS Modeler, SAS Enterprise Miner, SAS Enterprise Guide, R, Python. Осуществляет подготовку специалистов в сфере прогнозного моделирования и анализа данных. Основное направление – разработка новых высокоточных и одновременно интерпретируемых алгоритмов машинного обучения. Клиентами являются Citibank N.A., TransUnion, DBS Bank и Banco Galicia.

Оглавление

СОДЕРЖАНИЕ I. Вводная часть I.1. Типы данных I.2. Типы переменных I.2.1. Количественная переменная I.2.2. Категориальная переменная II. Знакомство с Python II.1. Установка Anaconda II.2. IPython и Jupyter Notebook II.3. NumPy II.4. SciPy II.5. matplotlib II.6. pandas II.7. scikit-learn II.7.1. Понятие массива признаков и массива меток II.7.2. Валидация II.7.3. Классы, строящие модели предварительной подготовки данных, и классы, строящие модели машинного обучения II.7.4. Работа с классами, строящими модели предварительной подготовки данных II.7.5. Работа с классами, строящими модели машинного обучения II.7.6. Наиболее часто используемые классы и функции II.7.6.1. Класс SimpleImputer II.7.6.2. Класс OneHotEncoder II.7.6.3. Класс Pipeline II.7.6.4. Класс ColumnTransformer II.7.6.5. Функция cross_val_score() II.7.6.6. Класс GridSearchCV II.7.6.7. Классы PowerTransformer, KBinsDiscretizer и FunctionTransformer III. Знакомство с R IV. Знакомство с H2O IV.1. Установка пакета h2o для R и пакета h2o для Python IV.2. Запуск кластера H2O IV.3. Преобразование данных во фреймы H2O IV.3.1. Получение фреймов H2O из датафреймов R и pandas IV.3.2. Получение фреймов H2O напрямую IV.4. Знакомство с содержимым фрейма IV.5. Определение имени зависимой переменной и списка имен предикторов IV.6. Обучение модели машинного обучения IV.7. Вывод модели IV.8. Получение прогнозов V. Формирование выборки V.1. Определение «окна выборки» и «окна созревания» V.2. Определение зависимой переменной V.3. Определение размера выборки VI. План предварительной подготовки VI.1. Случайное разбиение на обучающую и тестовую выборки (только для построения базовых моделей, без подбора гиперпараметров) VI.2. Комбинированная проверка через конвейер (можно использовать для подбора гиперпараметров) VII. Загрузка данных VIII. Удаление бесполезных переменных, переменных «из будущего», нестабильных переменных IX. Преобразование типов переменных X. Нормализация строковых значений XI. Обработка дублирующихся наблюдений XII. Обработка редких категорий XIII. Появление новых категорий в новых данных XIV. Импутация пропусков XIV.1. Способы импутации количественных и бинарных переменных XIV.2. Способы импутации категориальных переменных XV. Обработка выбросов XVI. Описательные статистики XVI.1. Cреднее, медиана и мода XVI.2. Квантиль XVI.3. Дисперсия и стандартное отклонение XVI.4. Корреляция и ковариация XVI.5. Получение сводки описательных статистик в R XVI.6. Получение сводки описательных статистик в библиотеке pandas XVII. Нормальное распределение XVIII. Обзор преобразований, максимизирующих нормальность XVIII.1. Обратное преобразование, отрицательное обратное преобразование XVIII.2. Логарифм XVIII.3. Корень четвертой степени, кубический корень, квадратный корень XVIII.4. Экспоненциальное преобразование XVIII.5. Квадратный корень разности между константой и исходным значением переменной XVIII.6. Логарифм разности между константой и исходным значением переменной XVIII.7. Возведение в степень XVIII.8. Арксинус XVIII.9. Пример подбора оптимального преобразования из ранее рассмотренных для переменной с правосторонней асимметрией XVIII.10. Преобразование Бокса-Кокса XVIII.11. Преобразование Йео-Джонсона XVIII.12. Построение гистограммы и графика квантиль-квантиль для подбора преобразований, максимизирующих нормальность XVIII.12.1. Обратное преобразование XVIII.12.2. Логарифмическое преобразование XVIII.12.3. Логарифмическое преобразование по формуле log(x/mean(x)+k), где k – значение, близкое к 0 XVIII.12.4. Логарифмическое преобразование по формуле log(x/mean(x)+k), где k – значение, близкое к 1 XVIII.12.5. Преобразование корнем четвертой степени XVIII.12.6. Преобразование кубическим корнем XVIII.12.7. Преобразование квадратным корнем XVIII.12.8. Преобразование Бокса-Кокса через функцию boxcox() питоновской библиотеки SciPy XVIII.12.9. Преобразование Бокса-Кокса/преобразование Йео-Джонсона через класс PowerTransformer питоновской библиотеки scikit-learn XIX. Конструирование признаков XIX.1. Статическое конструирование признаков, исходя из предметной области XIX.1.1. Поиск сильных переменных XIX.1.2. Агрегаты XIX.1.3. Создание переменной, у которой значения основаны на значениях исходной переменной XIX.1.4. Создание бинарной переменной на основе значений количественной переменной XIX.1.5. Создание переменной, у которой каждое значение - среднее значение количественной переменной, взятое по уровню категориальной переменной XIX.1.6. Объединение нескольких бинарных переменных в одну количественную переменную XIX.1.7. Вычисление расстояния между двумя точками по географическим координатам (через формулу гаверсинусов) XIX.1.8. Геохеширование XIX.1.9. Выделение из дат единиц времени XIX.1.10. Учет цикличности временных признаков XIX.1.11. Макроэкономические переменные XIX.2. Статическое конструирование признаков, исходя из особенностей алгоритма XIX.2.1. Дамми-кодирование (One-Hot Encoding) XIX.2.1.1. Дамми-кодирование по методу неполного ранга XIX.2.1.2. Дамми-кодирование по методу полного ранга XIX.2.1.3. Дамми-кодирование с помощью функции get_dummies() библиотеки pandas XIX.2.1.4. Дамми-кодирование с помощью класса OneHotEncoder XIX.2.2. Кодирование контрастами (Effect Encoding) XIX.2.3. Присвоение категориям в лексикографическом порядке целочисленных значений, начиная с 0 (Label Encoding) XIX.2.4. Кодирование частотами (Frequency Encoding) XIX.2.5. Кодирование вероятностями (Likelihood Encoding) XIX.2.5.1. Кодирование простым средним значением зависимой переменной XIX.2.5.2. Кодирование простым средним значением зависимой переменной по схеме leave-one-out XIX.2.5.3. Кодирование простым средним значением зависимой переменной по схеме K-fold XIX.2.5.4. Кодирование средним значением зависимой переменной, сглаженным через сигмоидальную функцию XIX.2.5.5. Кодирование средним значением зависимой переменной, сглаженным через сигмоидальную функцию, по схеме K-fold XIX.2.5.6. Кодирование средним значением зависимой переменной, сглаженным через параметр регуляризации XIX.2.5.7. Кодирование средним значением зависимой переменной, вычисленным по «прошлому» (упрощенный вариант кодировки, применяющейся в библиотеке CatBoost) XIX.2.6. Присвоение категориям в зависимости от порядка их появления целочисленных значений, начиная с 1 ( Ordinal Encoding) XIX.2.7. Присвоение категориям, отсортированным по процентной доле наблюдений положительного класса зависимой переменной, целочисленных значений, начиная с 0 ( еще одна схема Ordinal Encoding) XIX.2.8. Бинарное кодирование (Binary Encoding) XIX.2.9. Бинарное кодирование с хешированием (Hashing) XIX.2.10. Создание переменных-взаимодействий (interactions) XIX.2.11. Биннинг переменных XIX.2.11.1. Биннинг на основе интервалов, созданных вручную или одинаковой ширины XIX.2.11.2. Биннинг на основе децилей XIX.2.11.3. Биннинг на основе WoE и IV XIX.2.11.4. Биннинг на основе CHAID XIX.3. Динамическое конструирование признаков, исходя из особенностей алгоритма XIX.3.1. Преобразование категориальных признаков в количественные внутри библиотеки CatBoost XIX.3.2. Биннинг категориальных признаков внутри библиотеки H2O XIX.3.3. Связывание взаимно исключающих признаков внутри библиотеки LightGBM XX. Стандартизация

Безусловная 100% гарантия счастья без риска от Leanpub

В течение 60 дней с момента покупки вы можете получить 100% возврат средств на любую покупку в Leanpub всего в два клика. Мы обрабатываем заявки на возврат средств вручную, так что этот процесс может занять несколько дней. Смотрите полные условия.

Earn $8 on a $10 Purchase, and $16 on a $20 Purchase

We pay 80% royalties on purchases of $7.99 or more, and 80% royalties minus a 50 cent flat fee on purchases between $0.99 and $7.98. You earn $8 on a $10 sale, and $16 on a $20 sale. So, if we sell 5000 non-refunded copies of your book for $20, you'll earn $80,000.

(Yes, some authors have already earned much more than that on Leanpub.)

In fact, authors have earnedover $14 millionwriting, publishing and selling on Leanpub.

Learn more about writing on Leanpub

Free Updates. DRM Free.

If you buy a Leanpub book, you get free updates for as long as the author updates the book! Many authors use Leanpub to publish their books in-progress, while they are writing them. All readers get free updates, regardless of when they bought the book or how much they paid (including free).

Most Leanpub books are available in PDF (for computers), EPUB (for phones and tablets) and MOBI (for Kindle). The formats that a book includes are shown at the top right corner of this page.

Finally, Leanpub books don't have any DRM copy-protection nonsense, so you can easily read them on any supported device.

Learn more about Leanpub's ebook formats and where to read them

Пишите и публикуйте на Leanpub

Авторы и издатели используют Leanpub для публикации замечательных ещё незаконченных и уже завершенных книг, как эта. Вы можете использовать Leanpub для написания, публикации и продажи своей книги! Leanpub - мощная платформа для серьезных авторов, сочетающая простой, элегантный письменный и издательский процесс с магазином, ориентированным на продажу продвигаемых электронных книг. Leanpub - волшебная пишущая машинка для авторов: просто пишите в текстовом виде и опубликуйте свою книгу, просто нажимая кнопку. Это действительно проще простого.

Узнать подробнее о написании на Leanpub