Архитектор BigData DWH

Почта и портал, Отдел анализа данных

Mail.Ru Group – крупнейший IT холдинг в России по дневной мобильной аудитории (по данным Mediascope Web Index Mobile, 12–64, города 700 тыс.+, июль 2017 г. ). Холдинг развивает электронную коммерцию (сервис заказа готовой еды Delivery Club, сервис бесплатных объявлений Юла, сервис райдшеринга BeepCar ), лидирующие русскоязычные социальные сети — ВКонтакте, Одноклассники и Мой Мир, портфолио популярных игр, мессенджеры и другие проекты.

В нашей команде архитектор DWH сможет возглавить технологическое развитие одного из крупнейших хранилищ группы компании: объемы данных скоро превысят 4.5 петабайт, количество узлов кластера более 150, ежедневный прирост информации составляет 1,5 - 2 тб. В хранилище собрана информация большинства ключевых бизнес-юнитов компании, которая описывает поведение пользователей рунета: события посещений сайтов, клики\показы рекламы, использование мобильных приложений, профили соц.сетей пользователя, действия пользователей в соц.сетях и их публичные сообщения и т.д. Все это позволяет составить достаточно полную картину поведения пользователя во всех сервисах mail.ru.


Важно: данная ставка не подразумевает менеджерские задачи планирования и управления ресурсами. Если вы планированию спринтов и общению с руковосдтвом предпочитаете проводить эксперименты, обосновывать внедрение новых технологий и получать удовольствие от работы с данными, то вы тот, кого мы ищем.

Наш стек технологий:
экосистема Hadoop (cloudera): Hive, Spark, Java MapReduce, Python hadoop-streaming, kafka; средства оркестрирования потоками данных: jenkins как cron, Luidgi как elt-платформа; BI-инструменты: Clickhouse, Redash; мониторинг процессов: sentry, graphana.

  • Задачи
    • участие в роли архитектора хранилища данных в проекте построения масштабной системы обработки и хранения разнородной информации из различных Бизнес Юнитов компании на базе Hadoop;
    • исследование новых инструментов обработки данных, их тестирование и обоснованная аргументация к необходимости внедрения;
    • исследование большого объема необработанных данных, накопленных в компании, с целью последующей загрузки их в хранилище;
    • построение и оптимизация нетривиальных ETL процессов обработки больших данных;
    • разработка и проектирование OLAP-кубов и витрин для аналитиков, участие в полном цикле построения BI-решений;
    • взаимодействие с программистами-исследователями и совместная реализация стабильного расчета математический моделей.
  • Требования
    • SQL на уровне родного языка;
    • понимание основных подходов к построению корпоративного хранилища данных (Инман, Кимаблл);
    • понимание основ теории реляционных баз данных;
    • опыт работы с большими объемами данных, глубокое понимание стека технологий (Hadoop, Spark, Hive);
    • знание классических алгоритмов и структур данных (плюсом будет опыт разработки на python);
    • опыт организации ETL процессов обработки данных (плюсом будет знание code-driven ETL Luigi, Airflow);
    • желательно Java, Scala (Spark) – глубокие знания в контексте обработки большого объема данных;
    • опыт проектирования систем обработки больших объемов данных;
    • ссылки на публичные репозитории, статьи с примерами работы приветствуются.

город

Москва

Пройти тестирование

Присылайте ваше резюме на hr@corp.mail.ru