Data Science

Материал из Documentation.

Перейти к: навигация, поиск



Data Science (DS) — наука об анализе данных и поиске лучших решений на их основе.[1]

В рамках DS обрабатываются и анализируются большие объёмы неструктурированной информации (Big Data) из различных систем-источников и с помощью математических моделей и новых технологий находятся в них закономерности, делаются выводы и строятся прогнозы.[2][3]

DS объединяет сразу несколько направлений в IT-области: сбор и анализ больших данных, статистику, программирование, машинное обучение и ИИ.[4] Основа DS — высшая математика, специалисту в области DS нужны знания в статистике, теории вероятностей, математическом анализе.[5] Важной особенностью работы с данными на этапах анализа и разработки моделей машинного обучения является необходимость глубокого понимания протекающих бизнес-процессов.[6]

Типичный процесс работы DS-специалиста выглядит примерно так: данные нужно выгрузить из систем-источников, очистить, визуализировать, трансформировать, обогатить, разработать, например, предиктивную модель машинного обучения и загрузить в конечную систему.[7]

В целом деятельность DS-специалистов направлена на решение большой бизнес-задачи: увеличения выручки компании или конверсии, автоматизации рабочих процессов, которые ранее выполняли люди.[8][9]

Содержание

[править] Программное обеспечение

В список технологий и инструментов DS-специалистов в коммерческих компаниях, как правило, входят Python, SQL, Hadoop, Spark, Presto, Jupyter Notebook, библиотеки работы с данными и библиотеки машинного обучения.[10]

[править] Навыки, необходимые DS-специалисту

Список необходимых Data Scientist знаний ориентировочно выглядит так:[11]

  • математика на уровне понимания дифференциалов, производных и других понятий схожего уровня сложности;
  • математическая статистика;
  • программирование на языке Python, знание фреймворков;
  • алгоритмы машинного обучения;
  • работа с базами данных и знание SQL;
  • применение инструментария для анализа big data: Apache Spark и Hadoop Mapreduce;
  • создание готового продукта из моделей.

[править] Применение

Data Science применяется практически во всех отраслях: от прогнозирования работы машин и механизмов до определения узких мест при прохождении кредитных заявок внутри банка.[12]

Традиционной для DS является задача построения предиктивных моделей, определяющих вероятность различных событий, например поломки агрегатов на производстве или оттока клиента. Также речь идет о создании моделей рекомендательных систем, которые приводят к увеличению потребления сервисов (up-sell и cross-sell), поведенческой сегментации клиентской базы для углубленного понимания потребителя, построению моделей различных скорингов.[13]

[править] Анализ поведения потребителя

Из огромных пластов информации с помощью математических моделей выявляют закономерности, находят инсайты, формируют поведенческий профиль клиента и в итоге помогают компании найти «новые деньги».[14]

DS используется для определения круга общения клиента, формирования знания о нем, создания пакетного предложения и уменьшения вероятности оттока.[15]

Новостные агрегаторы адаптируются под интересы потребителя и формируют ленту новостей исходя из запросов. Все рекомендательные системы построены на анализе действий, выявлении закономерностей и формировании сегментов пользователей со схожими признаками. Создается модель поведения и как результат — подборка контента, которая будет интересна именно конкретному потребителю. Так работают рекомендации контента в YouTube, Netflix, Okko, App Store.[16]

[править] Карты

Ярким примером использования DS и предписательной аналитики являются сервисы карт и навигации с учетом дорожного трафика. Анализируются данные о перемещении огромного количества людей и автомобилей, строятся прогнозы по загруженности дорог, учитывается статистика по обычной загрузке отдельных участков, строятся маршруты движения с учётом множества факторов. В этом случае аналитика используется для управления потоками людей.[17]

[править] Ссылки

Личные инструменты