Data Scientist — специалист по обработке, анализу и хранению больших массивов данных, так называемых «Big Data». Профессия подходит тем, кого интересует физика, математика и информатика (см. выбор профессии по интересу к школьным предметам).

Data Science - наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

(С.Мальцева, В.Корнилов НИУ «ВШЭ»)

Профессия новая, актуальная и . Сам термин «Big Data» появился в 2008 году. А профессия Data Scientist — «Учёный по данным» официально зарегистрирована как академическая и межотраслевая дисциплина в начале 2010 г. Хотя первое упоминание термина «data science” было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Необходимость возникновения такой профессии была продиктована тем, что когда речь идет об Ультра Больших Данных, массивы данных оказываются слишком велики для того, чтобы обрабатывать их стандартными средствами математической статистики. Каждый день через сервера компаний всего мира проходит тысячи петабайт (10 15 байт =1024 терабайт) информации. Кроме таких объёмов данных, проблему усложняет их разнородность и высокая скорость обновления.

Массивы данных подразделяют на 3 вида:

структурированные (например, данные кассовых аппаратов в торговле);

полуструктурированные (сообщения E-mail);

неструктурированные (видеофайлы, изображения, фотографии).

Большинство данных Big Data является неструктурированными, что значительно усложняет их обработку.

По отдельности специалист по статистике, системный аналитик или бизнес-аналитик не может решить задачи с такими объёмами данных. Для этого нужен человек с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях.

Главная задача Data Scientist — умение извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений. Рабочим местом такого специалиста является не 1 компьютер и даже не 1 сервер, а кластер серверов.

Особенности профессии

В работе с данными Data Scientist использует различные способы:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • приложения искусственного интеллекта для работы с данными;
  • методы проектирования и разработки баз данных.

Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом:

  • сбор данных из разных источников для последующей оперативной обработки;
  • анализ поведения потребителей;
  • моделирование клиентской базы и персонализация продуктов;
  • анализ эффективности внутренних процессов базы;
  • анализ различных рисков;
  • выявление возможного мошенничества по изучению сомнительных операций;
  • составление периодических отчетов с прогнозами и презентацией данных.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество специалиста по данным - это умение видеть логические связи в системе собранной информации, и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений.

Плюсы и минусы профессии

Плюсы

  • Профессия не только чрезвычайно востребованная, но существует острый дефицит специалистов такого уровня. По данным McKinsey Global Institute к 2018 г. только в США потребуется более 190 тысяч Data Scientist. Поэтому так стремительно и широко финансируются и развиваются факультеты при самых престижных вузах по подготовке специалистов по данным. В России также растет спрос на Data Scientist.
  • Высокооплачиваемая профессия.
  • Необходимость постоянно развиваться, идти в ногу с развитием IT-технологий, самому создавать новые методы обработки, анализа и хранения данных.

Минусы

  • Не каждый человек сможет освоить эту профессию, нужен особый склад ума.
  • В процессе работы могут не сработать известные методы и более 60% идей. Множество решений окажется несостоятельным и нужно иметь большое терпение, чтобы получить удовлетворительные результаты. Учёный не имеет права сказать: «НЕТ!» проблеме. Он должен найти способ, который поможет решить поставленную задачу.

Место работы

Data Scientist занимают ключевые позиции в:

  • технологических отраслях (системы автонавигации, производство лекарств и т.д.);
  • IT-сфере (оптимизация поисковой выдачи, фильтр спама, систематизация новостей, автоматические переводы текстов и многое другое);
  • медицине (автоматическая диагностика болезней);
  • финансовых структурах (принятие решений о выдаче кредитов) и т.д;
  • телекомпаниях;
  • крупных торговых сетях;
  • избирательных кампаниях.

Важные качества

  • аналитический склад ума;
  • трудолюбие;
  • настойчивость;
  • скрупулёзность, точность, внимательность;
  • способность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • коммуникабельность;
  • умение объяснить сложные вещи простыми словами;
  • бизнес-интуиция.

Профессиональные знания и навыки:

  • знание математики, матанализа, математической статистики, теории вероятностей;
  • знание английского языка;
  • владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств;
  • главный базовый навык специалиста по data scientist - организация и администрация кластерных систем хранения больших массивов данных;
  • знание законов развития бизнеса;
  • экономические знания.

Вузы

  • МГУ им. Ломоносова, Факультет вычислительной математики и кибернетики, специальная образовательная программа Mail.Ru Group «Техносфера», с обучением методам интеллектуального анализа большого объема данных, программированию на С ++ , многопоточному программированию и технологии построения систем информационного поиска.
  • МФТИ, Кафедра анализа данных.
  • Факультет бизнес-информатики в НИУ ВШЭ готовит системных аналитиков, проектировщиков и внедренцев сложных информационных систем, организаторов управления корпоративными информационными системами.
  • Школа анализа данных Яндекс.
  • Университет в Иннополисе, университет Данди, университет Южной Калифорнии, Оклендский университет, Вашингтонский университет: Магистратуры по направлению Big Data.
  • Бизнес-школа Имперского колледжа Лондона, Магистратура по науке о данных и менеджменту.

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Оплата труда

Зарплата на 04.07.2019

Россия 50000—200000 ₽

Москва 60000—300000 ₽

Профессия Data Scientist является одной из самых высокооплачиваемых. Информация с сайта hh.ru — зарплата в месяц составляет от $8,5 тыс. до $9 тыс. В США оплата труда такого специалиста составляет $110 тыс. - $140 тыс. в год.

По результатам опроса исследовательского центра Superjob зарплата специалистов Data Scientist зависит от опыта работы, объёма обязанностей и региона. Начинающий специалист может рассчитывать на 70 тыс. руб. в Москве и 57 тыс. руб. в Санкт-Петербурге. С опытом работы до 3 лет зарплата повышается до 110 тыс. руб. в Москве и 90 тыс. руб. в Санкт-Петербурге. У опытных специалистов с научными публикациями зарплата может достигать 220 тыс. руб. в Москве и 180 тыс. руб. в Петербурге.

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ « BIG DATA » в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Видео: Новая специализация «Большие данные» - Михаил Левин

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Кто такие Data Scientists?

Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist – это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist .

Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.

Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Data Scientist Hard Skills

Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.

Data Science Tools and Technologies

Основным инструментарием Data Scientist являются языки программирования Python и R.

R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.

Data Scientist Soft Skills

Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.

Data Scientist Domain Knowledge

В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.

Data Scientists Specializations

Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.

Влияние технологий на зарплату

Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:
  • SQL, Excel, R, Python – ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.
Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.

Как изучать Data Science?

За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science . Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение .

Что же такое Data Science?

Data Science – это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.

Я работаю в сфере автоматической обработки естественного языка, одного из приложений data science, и часто наблюдаю, как люди не совсем корректно употребляют эти термины, поэтому мне захотелось внести немного ясности. Эта статья для тех, кто плохо представляет себе, что такое data science и хочет разобраться в понятиях.

Определимся с терминологией

Начнем с того, что на самом деле никто точно не знает, что такое data science, и строгого определения не существует - это очень широкий и междисциплинарный концепт. Поэтому здесь я поделюсь своим видением, которое совсем не обязательно совпадает с мнением других.

Термин data science на русский переводят как «наука о данных», а в профессиональной среде часто просто транслитерируют - «дата сайенс». Формально это набор некоторых взаимосвязанных дисциплин и методов из области информатики и математики. Звучит слишком абстрактно, правда? Давайте разбираться.

Первая часть: data

Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, - это, собственно, сами данные: как их собирать, хранить и обрабатывать, а также как выделять из общего массива данных полезную информацию. Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80% своего рабочего времени.

Важная часть этого пункта - как обращаться с данными, для которых не подходят стандартные способы хранения и обработки из-за их огромного объема и/или разнообразия - так называемые большие данные, big data. Кстати, не дайте себя запутать: big data и data science - не синонимы: скорее, первое подраздел второго. При этом не всегда специалистам по анализу данных на практике приходится работать именно с большими данными - полезными могут быть и маленькие.

Представьте, что нас интересует, есть ли какая-то взаимосвязь между тем, сколько ваши коллеги по работе выпивают кофе за день, и тем, сколько они спали накануне. Запишем доступную нам информацию: допустим, ваш коллега Григорий сегодня спал 4 часа, так что ему пришлось выпить 3 чашки кофе; Эллина спала 9 часов и не пила кофе вообще; а Полина спала все 10 часов, но выпила 2,5 чашки кофе - и так далее.

Изобразим полученные данные на графике (визуализация - тоже немаловажный элемент любого data science-проекта). Отложим по оси X время в часах, а по оси Y - кофе в миллилитрах. Получим что-то вроде такого:

Вторая часть: science

У нас есть данные, что теперь с ними можно делать? Правильно, анализировать, извлекать полезные закономерности и как-то их использовать. Тут нам помогут такие дисциплины, как статистика, машинное обучение, оптимизация.

Они формируют следующую и, возможно, самую важную составляющую data science - анализ данных. Машинное обучение позволяет находить закономерности в существующих данных, чтобы затем предсказывать нужную информацию для новых объектов.

Проанализируем данные

Вернемся к нашему примеру. На глаз кажется, что два параметра как-то взаимосвязаны: чем меньше человек спал, тем больше он выпьет кофе на следующий день. При этом у нас есть и выбивающийся из этой тенденции пример - любительница поспать и попить кофе Полина. Тем не менее можно попытаться приблизить полученную закономерность некоторой общей прямой линией так, чтобы она максимально близко подходила ко всем точкам:

Зеленая линия - и есть наша модель машинного обучения, она обобщает данные и ее можно описать математически. Теперь с помощью нее мы можем определять значения для новых объектов: когда мы захотим предсказать, сколько кофе сегодня выпьет вошедший в кабинет Никита, мы поинтересуемся, сколько он спал. Получив в качестве ответа значение в 7,5 часов, подставим его в модель - ему соответствует количество выпитого кофе в объеме чуть менее 300 мл. Красная точка обозначает наше предсказание.

Примерно так и работает машинное обучение, идея которого очень проста: найти закономерность и распространить ее на новые данные. На самом деле, в машинном обучении выделяется еще один класс задач, когда нужно не предсказывать какие-то значения, как в нашем примере, а разбивать данные на некоторые группы. Но об этом мы подробнее поговорим в другой раз.

Применим результат

Однако на мой взгляд, data science не заканчивается на выявлении закономерностей в данных. Любой data science-проект - это прикладное исследование, где важно не забывать о таких вещах, как постановка гипотезы, планирование эксперимента и, конечно, оценка результата и его пригодности для решения конкретного кейса.

Последнее очень важно в реальных бизнес-задачах, когда необходимо понять, принесет ли найденное data science решение пользу вашему проекту или нет. Какова могла бы быть полезность построенной модели в нашем примере? Возможно, с ее помощью мы могли бы оптимизировать доставку кофе в офис. При этом нам нужно оценить риски и определить, лучше наша ли наша модель справлялась бы с этим, чем существующее решение - офис-менеджер Михаил, ответственный за закупку продукта.

Найдем исключения

Конечно, наш пример максимально упрощен. В реальности можно было бы построить более сложную модель, которая учитывала бы какие-то другие факторы, например, любит ли человек кофе в принципе. Или модель могла бы находить более сложные, чем представляемые прямой линией, взаимосвязи.

Можно было бы сперва найти в наших данных выбросы - объекты, которые, как Полина, сильно непохожи на большинство других. Дело в том, что при реальной работе такие примеры могут плохо повлиять на процесс построения модели и ее качество, и их имеет смысл обрабатывать как-то иначе. А иногда такие объекты представляют первостепенный интерес, например, в задаче обнаружения аномальных банковских транзакций с целью предотвращения мошенничества.

Кроме того, Полина демонстрирует нам еще одну важную идею - несовершенство алгоритмов машинного обучения. Наша модель прогнозирует всего 100 мл кофе для человека, который спал 10 часов, в то время как на самом деле Полина выпила аж целых 500. В это никогда не поверят заказчики data science-решений, но пока еще невозможно научить машину идеально предсказывать все на свете: как бы хорошо мы ни выделяли закономерности в данных, всегда найдутся непредсказуемые элементы.

Продолжим рассказ

Итак, data science - это набор методов обработки и анализа данных и применение их к практическим задачам. При этом надо понимать, что у каждого специалиста свой взгляд на эту сферу и мнения могут отличаться.

В основе data science лежат достаточно простые идеи, однако на практике часто обнаруживается много неочевидных тонкостей. Как data science окружает нас в повседневной жизни, какие существуют методы анализа данных, из кого состоит команда data science и какие сложности могут возникнуть в процессе исследования - об этом мы расскажем в следующих статьях.

В мире IT существуют различные направления. Кто-то занимается администрированием, кто-то - разработкой или тестированием. Создаются курсы, готовящие системных администраторов, программистов, тестеров. В этой статье будет рассмотрена особая программа - Data Scientist - специально для разработчиков, аналитиков и продакт-менеджеров.

Кто такой Data Scientist, или специалист по данным

Вокруг профессии Data Scientist ходит немало мифов, и многие толком не понимают, что это такое. Кому-то кажется, что специалист по данным или специалист по анализу данных - это что-то вроде программиста (по принципу: умеешь программировать, значит, умеешь работать с данными), кто-то считает эту профессию похожей на администратора баз данных, а кто-то вообще не знает, что это такое.

Забегая вперед, нужно сразу отметить, что специалист по анализу данных - это не программист и никак уж не администратор базы данных, хотя навыки программирования он иметь обязан.

Специалист по данным - это специалист, владеющий тремя группами навыков:

  • математика и статистика;
  • IT-навыки, в том числе программирование;
  • понимание бизнес-процессов в той или иной области.

Вакансии не всегда называются Data Scientist. Очень часто встречаются варианты: программист-аналитик, аналитик Big Data, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик и другие.
Среди обязанностей специалиста по данным можно выделить следующие:

  • сбор больших объемов данных и приведение их в удобный формат;
  • программирование на языках Python, R, SAS;
  • решение бизнес-задач с использованием методов обработки данных;
  • поиск скрытых связей и закономерностей в данных;
  • проведение статистических тестов.

Специалист по данным должен понимать бизнес-запросы своей организации, владеть аналитическими инструментами: машинным обучением и текстовой аналитикой.
По утверждению консалтинговой компании McKinsey Global Institute , уже в следующем году в США (только в США, не во всем мире!) понадобится целая армия специалистов по данным - от 140 до 190 тысяч.

Сколько зарабатывает специалист по данным

В США средняя зарплата специалиста по данным составляет более 138 тысяч долларов в год. В России можно претендовать на зарплату от 120 тысяч рублей в месяц (более 26 тысяч долларов в год).

Если сравнивать с профессией простого программиста, то в США средняя зарплата программиста составляет 65–80 тысяч долларов в год, а в России 60 тысяч рублей в месяц, или 13 тысяч долларов в год.

В любом случае, получив специальность специалиста по данным, можно зарабатывать больше программиста.

Как видишь, специалист по данным - очень перспективная профессия. Во-первых, зарплата у него выше, чем у обычного программиста. Во-вторых, специалистов по данным не так много и рынок испытывает дефицит специалистов, причем не только в России, но и во всем мире.

Освоить профессию Data Scientist можно в университете по подготовке и дополнительному обучению специалистов « ».

Что дает курс обучения Data Scientist

INFO

  • Месяцев обучения: 5
  • Часов в неделю: 9
  • Экспертов: 13
  • Часов практики: 100+

Требования к студентам

Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.

Курс подготовки

Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.

Сколько стоит

Базовая стоимость - 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.

Что в итоге

Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.

Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца.


Многие работодатели сегодня находятся в активных поисках дата-сайентистов. При этом они заинтересованы в привлечении тех «ученых», у которых есть соответствующее образование. При этом нужно учитывать всю дезинформацию, которой полнится рынок. Мы расскажем вам о самых главных заблуждениях относительно Data Science и дата-сайентистов, о навыках, которыми должны они обладать, а также о том, кем же на самом деле являются представители этой редкой породы.

Наука о данных (Data Science) является разделом информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объемов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Рассматривается как академическая дисциплина. С начала 2010-х годов позиционируется как практическая межотраслевая сфера деятельности. Специализация «ученый по данным» с начала 2010-х годов считается одной из самых высокооплачиваемых, привлекательных и перспективных профессий.

Data Science заблуждения

1. Big data – это статистика и бизнес-аналитика с большим количеством данных. Здесь нет ничего нового

Такого мнения придерживаются преимущественно те люди, которые обладают ограниченным опытом разработки программного обеспечения, или не отягощены вообще никаким опытом. Хотите аналогию? Пожалуйста. Возьмем в качестве примера лед. Его можно назвать ну очень холодной водой. Что тут нового? Тем не менее, охлаждение воды меняет не только ее температуру, но решительным образом изменяет ее качественные характеристики, преобразовывая жидкость в твердое вещество. То же самое может быть сказано и относительно большого количества данных. Большие массивы данных, в конечном счете, ломают старые парадигмы вычислений, расчетов и выкладок. При использовании традиционных методов бизнес-аналитики на проведение тех или иных расчетов могут уйти годы. Распараллеливание и распределенные вычисления являются очевидными ответами на вопрос о масштабировании. Но это не всегда оказывается так легко, даже в случае такого простого статистического инструмента, как логистический регрессионный анализ. Распределенные статистические вычисления настолько же отличаются от традиционной бизнес-аналитики, насколько лед от воды.

2. Дата-сайентисты – те же инженеры-программисты после ребрендинга

Иногда инженеры с большим опытом разработки программного обеспечения проходят переквалификацию и становятся дата-сайентистами с целью повышения заработной платы. Однако такая практика зачастую приводит к неудовлетворительным результатам. Ведь в сфере big data отладка ошибок статистики даже на самом простом уровне представляется довольно сложной задачей. Инженеры обучены обнаруживать и устранять программные ошибки. Но без твердых знаний по теории вероятности и статистике даже крутому программисту вряд ли удастся успешно устранить несложную статистическую ошибку.


Инженеры более высокого уровня умеют строить простые дискретные модели, основанные на правилах. Но такие модели не подходят для получения более тонких инсайтов из данных. Отсюда и упущенная финансовая выгода. Потому для получения ответов на «big data вопросы» нужны высококвалифицированные и узкоспециализированные кадры, которые будут фундаментом предиктивного моделирования следующего поколения.

3. Дата-сайентистам не нужно понимать бизнес – им все расскажут данные

Люди, которые имеют за плечами образование и опыт работы программиста, зачастую поддаются этому соблазну. И, правда, зачем им разбираться в бизнесе, если у них настолько мощная база? Мощная, но не всемогущая. Поиск всех возможных корреляций невероятно трудоемкий и затратный по времени, не говоря уже о статистической проблематике. Дата-сайентисты просто обязаны руководствоваться бизнес-интуицией, чтобы успешно различать ложные и реальные корреляции. Отсутствие экспертных знаний в той или иной сфере может приводить к необоснованным выводам. Как вам это? Увеличение количества полицейских приводит к росту преступности – значит, необходимо сократить число правоохранителей в районах с неблагоприятной криминогенной обстановкой. Наконец, наличие деловой интуиции также важно для убеждения основных заинтересованных сторон: рассуждая о корреляциях на языке, который понимают бизнесмены, специалист по данным будет более успешен, чем его коллега, не обладающий бизнес-чутьем.


Большие данные и наука о данных – это знания о том, как построить оптимальную модель, в которой будут сочетаться правильный инжиниринг, статистические и деловые навыки. Без этого дата-сайентист не сможет достигнуть всего того, что он намеревается сделать.

Так кто же такие дата-сайентисты?

Ученые по данным представляют собой продукт эволюции бизнес- и дата-аналитиков. Формально обучение таких специалистов включает информатику, статистику, аналитику и математику. Что отличает первоклассного дата-сайентиста? Сильная деловая хватка в сочетании со способностью общаться с бизнес- и IT-руководителями в таком формате, который помогает влиять на развитие компании. Анджул Бамбра, вице-президент отдела big data в компании IBM, утверждает, что ученые по данным – это «частично аналитики, а частично художники». Это очень любознательные люди, которые могут смотреть на данные и определять тенденции. Их можно сравнить с художниками эпохи Возрождения, которые хотели не просто учиться, но и изменять окружающий их мир.

В то время как традиционный аналитик анализирует данные из одного источника (например, системы CRM), дата-сайентист обязательно изучает данные из нескольких разнородных источников. Он будет настойчиво просеивать все входящие данные с целью обнаружения ранее скрытых инсайтов, которые могут обеспечить конкурентное преимущество. Дата-сайентист не просто собирает и анализирует данные, но смотрит на них под разными углами и анализирует в разных контекстах, определяет то, что значат те или иные данные для бренда, а затем дает рекомендации относительно применения наличествующей информации.


Дата-сайентисты – это люди, которые постоянно исследуют, задают миллионы вопросов, проводят «а что, если…» анализ, подвергают сомнению существующие предположения и процессы, определяют богатые источники данных и присоединяют к ним бедные массивы… В конкурентной среде, где задачи постоянно меняются, а бурное течение данных никогда не иссякает, дата-сайентисты помогают руководству принимать решения . И это самое ценное их качество.

Почему «ученые»?

Многие утверждают, что называть специалиста по данным ученым весьма и весьма претенциозно. Однако если постараться смотреть в корень, то такая формулировка обретает смысл. Например, физики-экспериментаторы должны сами разрабатывать и создавать оборудование, собирать данные, проводить эксперименты и обобщать все полученные сведения в отчетах. То же самое делают и дата-сайентисты. Потому самыми высококвалифицированными учеными по данным считаются люди с ученой степенью по физике или общественным (социальным) наукам.


Лучшими на планете дата-сайентистами являются ученые со степенью доктора наук в таких эзотерических областях, как экология и системная биология. Яркий пример – Джордж Румелиотис, возглавляющий команду дата-сайентистов компании Intuit в Силиконовой долине. Он получил докторскую степень в области астрофизики. Многие дата-сайентисты являются обладателями ученых степеней по информатике, математике и экономике. Но, как бы там ни было, хороший специалист, специализирующийся на анализе данных, может выйти из любой области.


Основные навыки, без которых не обойтись дата-сайентисту

Базовые инструменты . Независимо от того, какие задачи ставит компания, ученый по данным должен знать, как использовать базовые инструменты: язык программирования R для статистической обработки данных и работы с графикой, высокоуровневый язык программирования Python, ориентированный на повышение производительности разработчика и читаемости кода, язык структурированных запросов, такой как SQL, применяемый для создания, модификации и управления данными в произвольной реляционной базе данных.

Базовая статистика . Понимание статистики является жизненно необходимым для дата-сайентиста. Не секрет, что многие специалисты не в состоянии определить даже P-значение – величину, используемую при тестировании статистических гипотез. Дата-сайентист просто обязан быть знаком со статистическими тестами, распределениями, оценками максимального правдоподобия и т.д. Статистика важна для разных сфер бизнеса, особенно для data-driven компаний


Машинное обучение . Если дата-сайентист работает в крупной компании с огромными объемами данных, он должен быть знаком с методами машинного обучения. Конечно, многие из этих методов могут быть реализованы при помощи библиотек R или Python, потому здесь не нужно быть ведущим мировым экспертом, чтобы разобраться в том, как работают алгоритмы. Гораздо важнее понимать, когда использование тех или иных методов будет наиболее целесообразным.

Многовариантные расчеты и линейная алгебра . Эти дисциплины образуют основу многих методов машинного обучения.

Подготовка данных к анализу . Зачастую анализируемые данные бывают довольно «грязными», значительно усложняя работу с ними. Потому очень важно знать, как бороться со всеми недостатками данных. В качестве примера несовершенства data можно привести такое противоречивое форматирование строк, как «New York» - «new york» - «ny», или даты «2014-01-01» – «01/01/2014», или использование системы UNIX-время и последовательности Timestamp.

Визуализация данных и коммуникация . Это невероятно важные моменты, особенно если речь идет о молодых data-driven компаниях, или же о тех компаниях, в которых дата-сайентисты воспринимаются как люди, помогающие принимать data-driven решения. Очень пригодятся знания ggplot (расширение языка R) и JavaScript-библиотеки для обработки и визуализации данных D3.js.

Программирование . Дата-сайентисты, как правило, ответственны за обработку большого количества регистрационных данных и data-driven продуктов.

Думать как дата-сайентист . Работодатель всегда хочет видеть в дата-сайентисте человека, который решает проблемы. «Ученый» всегда должен знать, что является важным на данном этапе, а что не представляет особой ценности. Он обязан взаимодействовать с проектировщиками и менеджерами, отвечающими за развитие продукта.


Издание Harvard Business Review утверждает, что дата-сайентист – самая сексуальная профессия 21 века. И с этим сложно не согласиться. Наука о данных только развивается, и всех современных дата-сайентистов можно смело назвать пионерами. И если вы можете сказать, что являетесь лучшим IT-специалистом среди статистиков и лучшим статистиком среди IT-специалистов, тогда вы настоящий дата-сайентист.

При подготовке статьи были использованы материалы