Содержание
- Почему я пошел в Data Science
- Полный курс по Data Science
- В чем суть работы?
- Как стать Data scientist: лучшее обучение
- Требования к специалисту
- Где используется Data Science?
- Data Scientist – технические навыки
- Модели в Data Science
- Этимология
- Что знают и умеют дата-сайентисты
- Следующий шаг — полировка и углубление знаний
Почему я пошел в Data Science
Я закончил МФТИ: сначала учился на факультете физической и квантовой электроники. После бакалавриата я попал в научную организацию, которая занимается фотоприемниками, приборами для регистрации оптических сигналов. Там я не видел больших перспектив, поэтому решил сменить направление. Это довольно стандартная история для Data Scientist из российских технических вузов, вроде МФТИ. В российской науке, к сожалению, нет больших перспектив, а работать простым кодером для многих скучно. Поэтому я пошел в Data Science: в этой области есть баланс интереса и перспектив.
В магистратуре я перешел на факультет инноваций и высоких технологий. На этом факультете «Тинькофф» открыл первый набор на кафедру финансовых технологий. После конкурса я попал туда на работу. Я выбирал между разными крупными IT-компаниями: в «Тинькофф» к тому моменту уже была полноценная работа с технологиями.
Полный курс по Data Science
Длительность: 18 месяцев, Около 8 часов в неделюФормат: занятия в записи, проверяют дз, есть общий чат и по выходным проводят вебинары с ответами на вопросыОсобенности: Школа специализируется на аналитике и разработке
Полная стоимость: 162 000₽/курс
Стоимость в рассрочку: от 4 500₽/месПрограмма курса
Ступеньки карьеры и перспективы
Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.
Интересные факты о профессии
Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.
ЧТО ТАКОЕ «BIGDATA» в реальных цифрах?
- Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
- 90% всех существующих на сегодня данных появились за последние 2 года.
- До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
- В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
- В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
- Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
- К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
- В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
- Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
- По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.
Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.
В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:
- Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
- Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
- Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
- Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.
В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.
В чем суть работы?
Термин «Дата сайентист» был придуман совсем недавно, в 2008 году, когда организации ощутили потребность в специалистах, обладающих навыками организации и анализа огромных объемов данных
В 2009 году в одной из научных публикаций была отмечена важность их работы (способность понимать и обрабатывать большие объемы сведений, извлекать из них ценную информацию, визуализировать и передавать для составления прогнозов) для развития технологий и других производственных отраслей
Data scientists могут выявлять актуальные вопросы, объединять сведения из множества разнообразных источников и систематизировать, и излагать полученные результаты в решениях в форме модели или прогноза, которые повлияют положительно на дальнейшие бизнес-решения. Такие навыки востребованы в любой отрасли, в связи с чем опытные специалисты представляют высокую ценность для многих компаний.
Как стать Data scientist: лучшее обучение
Следует помнить, что востребованным специалистом не получится стать при самостоятельном изучении всех дисциплин. В любом случае необходимо пройти профессиональные курсы.
Отличный курс для новичков с любым уровнем начальных знаний – «Data scientist» от Skillfaktory. Именно здесь обучение построено таким образом, что на каждом этапе погружения в профессию новичок работает с реальными задачами от партнеров. Каждый полученный кейс входит в портфолио выпускника.
Обучение длится 24 месяца, то есть два семестра по 6 месяцев. За это время новичок достигает уровень Junior с портфолио из 8-и кейсов различных тематик.
Следующие 2 семестра – специализация по выбору. За 12 месяцев студент наполняет свое портфолио еще пятью успешными кейсами. В результате обучения и работы над реальными задачами достигает уровня Middle.
После завершения обучения каждый выпускник обладает знаниями и навыками достигнутого уровня. Может претендовать на соответствующую оплату своего труда.
Особенность обучения на этом курсе в том, что каждый студент в ходе решения задачи может обратиться к куратору. Это помогает оперативно получить ответ на вопрос и поддержку.
За время обучения каждый студент получает 2 года стажа по специальности и профессиональное портфолио уровня Middle. Это значительно экономит время и дает быстрый старт в карьере.
Требования к специалисту
Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.
Кроме этого, Data Scientist должен знать:
- Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
- Базы данных MySQL и PostgreSQL.
- Технологии и инструменты для представления отчетов в графическом формате.
- Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
- Как подготовить данные и сделать их перевод в удобный формат.
- Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
- Как установить закономерности и видеть логические связи в системе полученных сведений.
- Как разработать действенные бизнес-решения.
- Как извлекать нужную информацию из разных источников.
- Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
- Как успешно внедрить программу.
- Область деятельности организации, на которую работает.
Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:
- трудолюбивым,
- настойчивым,
- скрупулезным,
- внимательным,
- усидчивым,
- целеустремленным,
- коммуникабельным.
Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.
Где используется Data Science?
- Как насчет того, сможете ли вы понять точные требования своих клиентов к существующим данным, таким как история просмотра посетителей, история покупок, возраст и доход. Без сомнения, у вас были все эти данные ранее, но теперь с огромным количеством и разнообразием их вы можете более эффективно обучать модели и рекомендовать продукт своим клиентам с большей точностью. Разве это не удивительно, поскольку это принесет больше преимуществ вашей организации?
- Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, если ваш автомобиль использовал элементы ИИ чтобы отвезти вас домой? Автопилот собирает данные от датчиков, радаров, камер и лазеров, чтобы создать карту окружения. Основываясь на этих данных, он принимает решения, например, когда ускоряться, когда нужно обгонять, где нужно сделать чередование с использованием передовых алгоритмов машинного обучения.
- Давайте посмотрим, как Data Science может использоваться в интеллектуальной аналитике. Рассмотрим пример прогнозирования погоды. Данные о кораблях, самолетах, радарах, спутниках могут собираться и анализироваться для создания моделей. Эти модели не только прогнозируют погоду, но также помогают прогнозировать возникновение любых стихийных бедствий. Это поможет вам заранее принять необходимые меры и спасти много драгоценных жизней.
Посмотрим на нижеприведенную инфографику, чтобы увидеть все области, где Data Science производит впечатляющие результаты.
В каких областях Data Science поражает воображение
Теперь, когда вы поняли необходимость в Data Science, давайте поймем, что это такое.
Data Scientist – технические навыки
Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.
Драйверы профессии
- автоматизация производственных и управленческих процессов
- рост объёмов данных, доступных для анализа
- развитие концепции открытых данных
Какие задачи будет решать Data Scientist
- сбор больших массивов структурированных и неструктурированных данных (количественных, текстовых, графических и др.) и их преобразование в удобный формат
- анализ данных с помощью методов математической статистики, моделирования и других аналитических методов (машинное обучение, текстовая аналитика и др.) в целях повышения эффективности управленческих решений
- превращение инсайтов (выявленных неочевидных закономерностей) в конкретные решения для бизнеса/науки/общества
- сотрудничество с ИТ-подразделениями и управленцами
- визуализация данных
Какие знания и навыки у него будут
- умение структурировать и интегрировать разнородные источники данных
- умение применять методы системного анализа при постановке задач
- продвинутый уровень цифровых навыков
- навыки программирования и работы с базами данных
- знание методов дискретной математики, математической статистики, машинного обучения и компьютерной лингвистики
- способность разрабатывать математические модели выявления зависимостей, распознавания образов, прогнозирования и принятия решений
- презентационные навыки
Программирование
Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.
По данным Towardsdatascience
Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.
У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.
Модели в Data Science
Predictive causal analytics. Если вы хотите модель, которая может предсказать возможности конкретного события в будущем, вам необходимо применить предиктивную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты будут оплачивать платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете создать модель, которая может выполнять аналитику в истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.
Prescriptive analytics. Если вам нужна модель, которая обладает интеллектом принятия собственных решений и возможностью изменять ее с помощью динамических параметров, для этого вам, безусловно необходимо аналитическое прогнозирование. Это относительно новое поле деятельности — предоставление консультаций. Другими словами, оно не только прогнозирует, но и предлагает ряд предписанных действий и связанных с ними результатов.
Лучший пример для этого — автомобиль с автопилотом от Google, о котором я уже говорил ранее. Данные, собранные на транспортных средствах, могут использоваться для обучения автомобилей с самообслуживанием. Вы можете запускать алгоритмы на этих данных, чтобы использовать ИИ. Это позволит вашему автомобилю принимать решения, например, когда нужно повернуть, какое взять направление, когда замедлить или ускорить ход.
Machine learning for making predictions. Если у вас есть транзакционные данные финансовой компании и вам нужно построить модель для определения будущей тенденции, то наилучшим вариантом будут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Оно называется с учителем, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.
Machine learning for pattern discovery. Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно выяснить скрытые шаблоны в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как обучение без учителя, поскольку у вас нет предопределенных категорий для группировки. Наиболее распространенным алгоритмом, используемым для обнаружения паттернов, является кластеризация.
Допустим, вы работаете в телефонной компании, и вам нужно создать сеть, разместив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те вышки, которые гарантируют, что все пользователи получат оптимальную мощность сигнала.
Этимология
Раннее использование
В 1962 году Джон Тьюки описал область, которую он назвал «анализом данных», которая напоминает современную науку о данных. В 1985 году на лекции, прочитанной в Китайской академии наук в Пекине, CF Джефф Ву впервые использовал термин «наука о данных» в качестве альтернативного названия статистики. Позже участники статистического симпозиума 1992 года в Университете Монпелье II признали появление новой дисциплины, ориентированной на данные различного происхождения и форм, сочетающей устоявшиеся концепции и принципы статистики и анализа данных с вычислениями.
Термин «наука о данных» появился в 1974 году, когда Питер Наур предложил его в качестве альтернативного названия информатике. В 1996 году Международная федерация классификационных обществ стала первой конференцией, на которой наука о данных была конкретно рассмотрена как тема. Тем не менее, определение все еще изменялось. После лекции 1985 года в Китайской академии наук в Пекине в 1997 году CF Джефф Ву снова предложил переименовать статистику в науку о данных. Он рассудил, что новое название поможет статистике избавиться от неточных стереотипов, например, быть синонимом бухгалтерского учета или ограничиваться описанием данных. В 1998 году Хаяси Чикио выступал за науку о данных как новую междисциплинарную концепцию с тремя аспектами: дизайн данных, сбор и анализ.
В 1990-е годы популярные термины для поиска закономерностей в наборах данных (которые становились все более крупными) включали «обнаружение знаний» и «интеллектуальный анализ данных».
Современное использование
Современная концепция науки о данных как независимой дисциплины иногда приписывается Уильяму С. Кливленду . В статье 2001 года он выступал за распространение статистики за пределы теории в технические области; поскольку это существенно изменило бы поле, это потребовало нового названия. В следующие несколько лет «наука о данных» стала более широко использоваться: в 2002 году Комитет по данным для науки и технологий запустил журнал Data Science Journal. В 2003 году Колумбийский университет запустил The Journal of Data Science . В 2014 году Секция статистического обучения и интеллектуального анализа данных Американской статистической ассоциации изменила свое название на Секцию статистического обучения и науки о данных, что отражает растущую популярность науки о данных.
Профессиональное звание «специалист по данным» было присвоено DJ Патилу и Джеффу Хаммербахеру в 2008 году. Хотя оно использовалось Национальным научным советом в своем отчете за 2005 год «Долгоживущие цифровые коллекции данных: поддержка исследований и образования в 21 веке». , «в широком смысле он относился к любой ключевой роли в управлении сбором цифровых данных.
До сих пор нет единого мнения об определении науки о данных, и некоторые считают это модным словом.
Что знают и умеют дата-сайентисты
Вот начальный список навыков, знаний и умений, которые нужны любому дата-сайентисту для старта в работе.
Математическая логика, линейная алгебра и высшая математика. Без этого не получится построить модель, найти закономерности или предсказать что-то новое.
Есть те, кто говорит, что это всё не нужно, и главное — писать код и красиво делать отчёты, но они лукавят. Чтобы обучить нейронку, нужна математика и формулы; чтобы найти закономерности в данных — нужна математика и статистика; чтобы сделать отчёт на основе большой выборки данных — ну, вы поняли. Математика рулит.
Знание машинного обучения. Работа дата-сайентиста — анализ данных огромного размера, и вручную это сделать нереально. Чтобы было проще, они поручают это компьютерам. Поручить такую задачу — значит настроить готовую нейросеть или обучить свою. Поручить программисту обычно это нельзя — слишком много нужно будет объяснить и проконтролировать.
Программирование на Python и R. Мы уже писали, что Python — идеальный язык для машинного обучения и нейросетей. На нём можно быстро написать любую модель для первоначальной оценки гипотезы, поиска общих данных или простой аналитики.
R — язык программирования для статического анализа. Если вам нужно прикинуть, как лайки на странице зависят от количества просмотров или до какого места читатель гарантированно долистывает статью (чтобы поставить туда баннер), — R вам поможет. Но если вы не знаете математику — не поможет.
R и статистика в действии. Картинка с Хабра.
Умение получать и визуализировать данные. Не всем дата-сайентистам везёт настолько, что они сразу получают готовые наборы данных для обработки. Чаще всего они сами должны выяснить, где, откуда, как и сколько брать данных. Здесь обычные программисты им уже могут помочь — спарсить сайт, выкачать большую базу данных или настроить сбор статистики на сервере.
Второй важный навык в этой профессии — умение наглядно показать результаты работы. Какой толк в графиках, если никто, кроме автора, не понимает, что там нарисовано? Задача дата-сайентиста — представить данные наглядным образом, чтобы зрителю было легче сделать нужный вывод.
Связи в твиттере некоего Скотта Белла. Явно видны несколько разных групп фолловеров, которые мало пересекаются между собой. Это и есть наглядное представление данных.
Следующий шаг — полировка и углубление знаний
В машинном обучении половина успеха заключается в правильной подготовке данных для алгоритом и правильном формулировании решаемой задачи (целевой функции)
Также важно научиться проходить все шаги построения моделей машинного обучения в наиболее оптимальной последовательности. Все данные темы отлично раскрыты в курсе, записанными русскими ребятами, но на английском языке: https://www.coursera.org/learn/competitive-data-science
Не стоит обращать внимание на kaggle — приведенные методы актуальны для реальных задач. Пройдя этот курс вы сможете понять комикс ниже
В статьях сообщества ODS (см.выше) дано множество ссылок на дополнительные источники. Рекомендую с ними ознакомиться. Также, через сайт сообщества можно найти видеозаписи многих семинаров, в которых также иногда рассматриваются очень полезные и фундаментальные темы. Например, мне были полезны все выстпления от основателя сообщества, Алексея Натенкина (прогнозирование временных рядов, еще пример)
Разные смежные концепции, которые необходимо знать
Нужно четко понимать разницу между корреляцией и причино-следственной связью. Не понимая этого — нельзя работать дата-сайентистом.
С большой долей вероятности, если вы будете делать какой-нибудь сравнительный анализ различных групп (рекламных компаний, поведения людей и т.п.) вам придется столкнуться с парадоксом Симпсона (отличное видео)
Важно отточить его понимание, т.к. от его последствий необходимо защищася, и даже зная о нём, я не всегда осозновал что встречаюсь с ним в практике
Также, с точки зрения постановки целей — поведение людей часто оказывается искажено, о чём рассказывает Goodhart’s law. Знание данного эффекта может подсказать направления анализа разных явлений.
Другие полезные книги/ материалы
Куча англоязычных статей по использованию разных библиотеке, в основном очень начального уровня, регулярно публикуется на сайте https://towardsdatascience.com; до 3 статей в месяц можно читать бесплатно.
Statistics Done Wrong .The woefully complete guide by Alex Reinhart — отличная иллюстрация того как не стоит применять математические методы проверки гипотез. Автор рассказывает как даже профессиональные учёные всё время ошибаются в их использовании.
Python Machine Learning, by Sebastian Raschka — хороший набор разных кусков кода, которые могут помочь на начальном этапе. Также у этого автора хорошие статьи по разным темам.
Как находить другие хорошие книги и курсы, отбирать лучшие и наиболее подходящие — писал в предыдущих статьях.
Необходимые технические знания
Git необходимо выучить чтобы работать над каким-либо кодом совместном с другими людьми. Замечательно простая и бесплатня книжка на английском — Ry’s Git tutorial. Также много книг доступно бесплатно на официальном сайте git. Отличное визуальное объяснение разных концепций: http://ndpsoftware.com/git-cheatsheet.html
https://www.practicaldatascience.org/ — хороший набор материалов по разным библиотекам и дополнительным инструментам. Фактически, даётся исчерпывающий перечень тем, которые придётся освоить для работы в дата саенс, с вводными материалами по всем темам (секцию Cloud точо стоит читать наискосок, т.к. тут с большой вероятностью придется работать с подобными технологиями других вендоров, которые имеют отличия).
Готов выступить ментором в самообучении
Посчитав, что мой опыт самообучения и быстрый рост доказывают эффективность отобранных мной подходов, книг и курсов, я решил заняться менторством.
Если у вас есть индивидуальные вопросы, на которые не отвечают мои статьи — пишите на почту self.development.mentor в gmail.com, Олег
В результате такого общения некоторые поняли, что им лучше уйти в другую сферу (программирование, биг дата), некоторым я смог скорректировать учебный/карьерный план под индивидуальные потребности, кому-то я посоветовал тех, кто сможет помочь лучше меня, а кого-то спас (?) от неэффективной траты времени на тупиковые проекты (решение задач в машинном обучении, без понимания принципов машинного обучения).
И если мои статьи для вас полезны — на будущие статьи меня также можно мотивировать материально, под этой статьей должна быть кнопка «задонатить» для этих целей.Для получения скидок на первый месяц/курс специализаций на Coursera.org — можете воспользоваться ссылкой: http://fbuy.me/v/odemidenko