Data Science
Материал из Documentation.
Data Science (DS) — наука об анализе данных и поиске лучших решений на их основе.[1]
В рамках DS обрабатываются и анализируются большие объёмы неструктурированной информации (Big Data) из различных систем-источников и с помощью математических моделей и новых технологий находятся в них закономерности, делаются выводы и строятся прогнозы.[2][3]
DS объединяет сразу несколько направлений в IT-области: сбор и анализ больших данных, статистику, программирование, машинное обучение и ИИ.[4] Основа DS — высшая математика, специалисту в области DS нужны знания в статистике, теории вероятностей, математическом анализе.[5] Важной особенностью работы с данными на этапах анализа и разработки моделей машинного обучения является необходимость глубокого понимания протекающих бизнес-процессов.[6]
Типичный процесс работы DS-специалиста выглядит примерно так: данные нужно выгрузить из систем-источников, очистить, визуализировать, трансформировать, обогатить, разработать, например, предиктивную модель машинного обучения и загрузить в конечную систему.[7]
В целом деятельность DS-специалистов направлена на решение большой бизнес-задачи: увеличения выручки компании или конверсии, автоматизации рабочих процессов, которые ранее выполняли люди.[8][9]
Содержание |
[править] Программное обеспечение
В список технологий и инструментов DS-специалистов в коммерческих компаниях, как правило, входят Python, SQL, Hadoop, Spark, Presto, Jupyter Notebook, библиотеки работы с данными и библиотеки машинного обучения.[10]
[править] Навыки, необходимые DS-специалисту
Список необходимых Data Scientist знаний ориентировочно выглядит так:[11]
- математика на уровне понимания дифференциалов, производных и других понятий схожего уровня сложности;
- математическая статистика;
- программирование на языке Python, знание фреймворков;
- алгоритмы машинного обучения;
- работа с базами данных и знание SQL;
- применение инструментария для анализа big data: Apache Spark и Hadoop Mapreduce;
- создание готового продукта из моделей.
[править] Применение
Data Science применяется практически во всех отраслях: от прогнозирования работы машин и механизмов до определения узких мест при прохождении кредитных заявок внутри банка.[12]
Традиционной для DS является задача построения предиктивных моделей, определяющих вероятность различных событий, например поломки агрегатов на производстве или оттока клиента. Также речь идет о создании моделей рекомендательных систем, которые приводят к увеличению потребления сервисов (up-sell и cross-sell), поведенческой сегментации клиентской базы для углубленного понимания потребителя, построению моделей различных скорингов.[13]
[править] Анализ поведения потребителя
Из огромных пластов информации с помощью математических моделей выявляют закономерности, находят инсайты, формируют поведенческий профиль клиента и в итоге помогают компании найти «новые деньги».[14]
DS используется для определения круга общения клиента, формирования знания о нем, создания пакетного предложения и уменьшения вероятности оттока.[15]
Новостные агрегаторы адаптируются под интересы потребителя и формируют ленту новостей исходя из запросов. Все рекомендательные системы построены на анализе действий, выявлении закономерностей и формировании сегментов пользователей со схожими признаками. Создается модель поведения и как результат — подборка контента, которая будет интересна именно конкретному потребителю. Так работают рекомендации контента в YouTube, Netflix, Okko, App Store.[16]
[править] Карты
Ярким примером использования DS и предписательной аналитики являются сервисы карт и навигации с учетом дорожного трафика. Анализируются данные о перемещении огромного количества людей и автомобилей, строятся прогнозы по загруженности дорог, учитывается статистика по обычной загрузке отдельных участков, строятся маршруты движения с учётом множества факторов. В этом случае аналитика используется для управления потоками людей.[17]