3. Краткая информация о данных
Создать модель машинного обучения для предсказания рейтинга отеля и примерить роль дата-сайнтиста в компании Booking.
Представьте, что вы работаете дата-сайентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов обнаружения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить.
Датасет, в котором содержатся сведения о 515 000 отзывов на отели Европы. Датасет доступен по ссылке: https://www.kaggle.com/code/ruslansenzhapov/sf-dst-eda-project-3/input
-
Загрузка данных и первичное исследование
-
Очистка данных
-
Создание новых признаков
-
Кодирование признаков
-
Нормализация чисовых признаков
-
Отбор признаков
-
Обучение модели и получение предсказания
-
Произведен предварительный анализ данных
-
Данные очищены от дупликатов и пропущенных значений
-
Слзданы новые признаки
-
Произведена кодировка категориальных признаков
-
Отобраны наиболее информативные и полезные признаки
-
Обучена модель и получено предсказание