Дата-сайентисты – редкая порода профессионалов

Дата-сайентисты – редкая порода профессионалов
Mr. Pixel
Mr. Pixel
19 августа
0
4 633

Многие работодатели сегодня находятся в активных поисках дата-сайентистов. При этом они заинтересованы в привлечении тех «ученых», у которых есть соответствующее образование. При этом нужно учитывать всю дезинформацию, которой полнится рынок. Мы расскажем вам о самых главных заблуждениях относительно Data Science и дата-сайентистов, о навыках, которыми должны они обладать, а также о том, кем же на самом деле являются представители этой редкой породы.

Наука о данных (Data Science) является разделом информатики, который изучает проблемы анализа, обработки и представления данных в цифровой форме. Data science объединяет методы по обработке данных в условиях больших объемов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. Рассматривается как академическая дисциплина. С начала 2010-х годов позиционируется как практическая межотраслевая сфера деятельности. Специализация «ученый по данным» с начала 2010-х годов считается одной из самых высокооплачиваемых, привлекательных и перспективных профессий.

Audio-visual

Data Science заблуждения

1. Big data – это статистика и бизнес-аналитика с большим количеством данных. Здесь нет ничего нового

Такого мнения придерживаются преимущественно те люди, которые обладают ограниченным опытом разработки программного обеспечения, или не отягощены вообще никаким опытом. Хотите аналогию? Пожалуйста. Возьмем в качестве примера лед. Его можно назвать ну очень холодной водой. Что тут нового? Тем не менее, охлаждение воды меняет не только ее температуру, но решительным образом изменяет ее качественные характеристики, преобразовывая жидкость в твердое вещество. То же самое может быть сказано и относительно большого количества данных. Большие массивы данных, в конечном счете, ломают старые парадигмы вычислений, расчетов и выкладок. При использовании традиционных методов бизнес-аналитики на проведение тех или иных расчетов могут уйти годы. Распараллеливание и распределенные вычисления являются очевидными ответами на вопрос о масштабировании. Но это не всегда оказывается так легко, даже в случае такого простого статистического инструмента, как логистический регрессионный анализ. Распределенные статистические вычисления настолько же отличаются от традиционной бизнес-аналитики, насколько лед от воды.

Blog_img25v3

2. Дата-сайентисты – те же инженеры-программисты после ребрендинга

Иногда инженеры с большим опытом разработки программного обеспечения проходят переквалификацию и становятся дата-сайентистами с целью повышения заработной платы. Однако такая практика зачастую приводит к неудовлетворительным результатам. Ведь в сфере big data отладка ошибок статистики даже на самом простом уровне представляется довольно сложной задачей. Инженеры обучены обнаруживать и устранять программные ошибки. Но без твердых знаний по теории вероятности и статистике даже крутому программисту вряд ли удастся успешно устранить несложную статистическую ошибку.

01222013_Data_Scientists_article

Инженеры более высокого уровня умеют строить простые дискретные модели, основанные на правилах. Но такие модели не подходят для получения более тонких инсайтов из данных. Отсюда и упущенная финансовая выгода. Потому для получения ответов на «big data вопросы» нужны высококвалифицированные и узкоспециализированные кадры, которые будут фундаментом предиктивного моделирования следующего поколения.

3. Дата-сайентистам не нужно понимать бизнес – им все расскажут данные

Люди, которые имеют за плечами образование и опыт работы программиста, зачастую поддаются этому соблазну. И, правда, зачем им разбираться в бизнесе, если у них настолько мощная база? Мощная, но не всемогущая. Поиск всех возможных корреляций невероятно трудоемкий и затратный по времени, не говоря уже о статистической проблематике. Дата-сайентисты просто обязаны руководствоваться бизнес-интуицией, чтобы успешно различать ложные и реальные корреляции. Отсутствие экспертных знаний в той или иной сфере может приводить к необоснованным выводам. Как вам это? Увеличение количества полицейских приводит к росту преступности – значит, необходимо сократить число правоохранителей в районах с неблагоприятной криминогенной обстановкой. Наконец, наличие деловой интуиции также важно для убеждения основных заинтересованных сторон: рассуждая о корреляциях на языке, который понимают бизнесмены, специалист по данным будет более успешен, чем его коллега, не обладающий бизнес-чутьем.

datsci

Большие данные и наука о данных – это знания о том, как построить оптимальную модель, в которой будут сочетаться правильный инжиниринг, статистические и деловые навыки. Без этого дата-сайентист не сможет достигнуть всего того, что он намеревается сделать.

Так кто же такие дата-сайентисты?

Ученые по данным представляют собой продукт эволюции бизнес- и дата-аналитиков. Формально обучение таких специалистов включает информатику, статистику, аналитику и математику. Что отличает первоклассного дата-сайентиста? Сильная деловая хватка в сочетании со способностью общаться с бизнес- и IT-руководителями в таком формате, который помогает влиять на развитие компании. Анджул Бамбра, вице-президент отдела big data в компании IBM, утверждает, что ученые по данным – это «частично аналитики, а частично художники». Это очень любознательные люди, которые могут смотреть на данные и определять тенденции. Их можно сравнить с художниками эпохи Возрождения, которые хотели не просто учиться, но и изменять окружающий их мир.

В то время как традиционный аналитик анализирует данные из одного источника (например, системы CRM), дата-сайентист обязательно изучает данные из нескольких разнородных источников. Он будет настойчиво просеивать все входящие данные с целью обнаружения ранее скрытых инсайтов, которые могут обеспечить конкурентное преимущество. Дата-сайентист не просто собирает и анализирует данные, но смотрит на них под разными углами и анализирует в разных контекстах, определяет то, что значат те или иные данные для бренда, а затем дает рекомендации относительно применения наличествующей информации.

cloud24ii_0

Дата-сайентисты – это люди, которые постоянно исследуют, задают миллионы вопросов, проводят «а что, если…» анализ, подвергают сомнению существующие предположения и процессы, определяют богатые источники данных и присоединяют к ним бедные массивы… В конкурентной среде, где задачи постоянно меняются, а бурное течение данных никогда не иссякает, дата-сайентисты помогают руководству принимать решения. И это самое ценное их качество.

Почему «ученые»?

Многие утверждают, что называть специалиста по данным ученым весьма и весьма претенциозно. Однако если постараться смотреть в корень, то такая формулировка обретает смысл. Например, физики-экспериментаторы должны сами разрабатывать и создавать оборудование, собирать данные, проводить эксперименты и обобщать все полученные сведения в отчетах. То же самое делают и дата-сайентисты. Потому самыми высококвалифицированными учеными по данным считаются люди с ученой степенью по физике или общественным (социальным) наукам.

0268.datascienceemc_lg_thumb_0D49C805

Лучшими на планете дата-сайентистами являются ученые со степенью доктора наук в таких эзотерических областях, как экология и системная биология. Яркий пример – Джордж Румелиотис, возглавляющий команду дата-сайентистов компании Intuit в Силиконовой долине. Он получил докторскую степень в области астрофизики. Многие дата-сайентисты являются обладателями ученых степеней по информатике, математике и экономике. Но, как бы там ни было, хороший специалист, специализирующийся на анализе данных, может выйти из любой области.

datascience

Основные навыки, без которых не обойтись дата-сайентисту

Базовые инструменты. Независимо от того, какие задачи ставит компания, ученый по данным должен знать, как использовать базовые инструменты: язык программирования R для статистической обработки данных и работы с графикой, высокоуровневый язык программирования Python, ориентированный на повышение производительности разработчика и читаемости кода, язык структурированных запросов, такой как SQL, применяемый для создания, модификации и управления данными в произвольной реляционной базе данных.

Базовая статистика. Понимание статистики является жизненно необходимым для дата-сайентиста. Не секрет, что многие специалисты не в состоянии определить даже P-значение – величину, используемую при тестировании статистических гипотез. Дата-сайентист просто обязан быть знаком со статистическими тестами, распределениями, оценками максимального правдоподобия и т.д. Статистика важна для разных сфер бизнеса, особенно для data-driven компаний

DataScientistTime_8

Машинное обучение. Если дата-сайентист работает в крупной компании с огромными объемами данных, он должен быть знаком с методами машинного обучения. Конечно, многие из этих методов могут быть реализованы при помощи библиотек R или Python, потому здесь не нужно быть ведущим мировым экспертом, чтобы разобраться в том, как работают алгоритмы. Гораздо важнее понимать, когда использование тех или иных методов будет наиболее целесообразным.

Многовариантные расчеты и линейная алгебра. Эти дисциплины образуют основу многих методов машинного обучения.

Подготовка данных к анализу. Зачастую анализируемые данные бывают довольно «грязными», значительно усложняя работу с ними. Потому очень важно знать, как бороться со всеми недостатками данных. В качестве примера несовершенства data можно привести такое противоречивое форматирование строк, как «New York» - «new york» - «ny», или даты «2014-01-01» – «01/01/2014», или использование системы UNIX-время и последовательности Timestamp.

Визуализация данных и коммуникация. Это невероятно важные моменты, особенно если речь идет о молодых data-driven компаниях, или же о тех компаниях, в которых дата-сайентисты воспринимаются как люди, помогающие принимать data-driven решения. Очень пригодятся знания ggplot (расширение языка R) и JavaScript-библиотеки для обработки и визуализации данных D3.js.

Программирование. Дата-сайентисты, как правило, ответственны за обработку большого количества регистрационных данных и data-driven продуктов.

Думать как дата-сайентист. Работодатель всегда хочет видеть в дата-сайентисте человека, который решает проблемы. «Ученый» всегда должен знать, что является важным на данном этапе, а что не представляет особой ценности. Он обязан взаимодействовать с проектировщиками и менеджерами, отвечающими за развитие продукта.

DataScientistTime_7

Издание Harvard Business Review утверждает, что дата-сайентист – самая сексуальная профессия 21 века. И с этим сложно не согласиться. Наука о данных только развивается, и всех современных дата-сайентистов можно смело назвать пионерами. И если вы можете сказать, что являетесь лучшим IT-специалистом среди статистиков и лучшим статистиком среди IT-специалистов, тогда вы настоящий дата-сайентист.

При подготовке статьи были использованы материалы VentureBeat, IBM, Udacity, Harvard Business Review

Комментарии к статье (0)