Разработчик DWH/BI – BigData Engineer

Другое, Отдел анализа данных

Mail.Ru Group – крупнейший IT холдинг в России по дневной мобильной аудитории (по данным Mediascope Web Index Mobile, 12–64, города 700 тыс.+, июль 2017 г ). Холдинг развивает электронную коммерцию (сервис заказа готовой еды Delivery Club, сервис бесплатных объявлений Юла, сервис райдшеринга BeepCar ), лидирующие русскоязычные социальные сети — ВКонтакте, Одноклассники и Мой Мир, портфолио популярных игр, мессенджеры и другие проекты.

В нашей команде вы сможете принять активное участие в разработке одного из крупнейших хранилищ группы компании: объемы данных скоро превысят 4.5 петабайт, количество узлов кластера более 150, ежедневный прирост информации составляет 1,5 - 2 тб. В хранилище собрана информация большинства ключевых бизнес-юнитов компании, которая описывает поведение пользователей рунета: события посещений сайтов, клики\показы рекламы, использование мобильных приложений, профили соц.сетей пользователя, действия пользователей в соц.сетях и их публичные сообщения и т.д.
Все это позволяет составить достаточно полную картину поведения пользователя во всех сервисах mail.ru.

Наш стек технологий:
экосистема Hadoop (cloudera): Hive, Spark, Java MapReduce, Python hadoop-streaming, kafka; средства оркестрирования потоками данных: jenkins как cron, Luidgi как elt-платформа; BI-инструменты: Clickhouse, Redash; мониторинг процессов: sentry, graphana.

  • Задачи
    • участие в проекте построения масштабной системы обработки и хранения разнородной информации из различных Бизнес Юнитов компании на базе Hadoop (BigData DWH);
    • исследование большого объема необработанных данных, накопленных в компании;
    • построение и оптимизация нетривиальных ETL процессов обработки больших данных;
    • разработка и проектирование OLAP-кубов и витрин для аналитиков;
    • участие в полном цикле построения BI-решений (проектирование, разработка, поддержка, развитие);
    • взаимодействие с программистами-исследователями и совместная реализация стабильного расчета математический моделей;
    • поддержка и модификации созданного решения.
  • Требования
    • опыт работы со стеком технологий Big Data: Spark, Hive, MapReduce;
    • навыки программирования на Scala/Java, Python;
    • уверенные знания SQL;
    • linux, bash;
    • знакомство с системами управления ETL-процессами (Airflow, Luigi etc.);
    • знание классических алгоритмов и структур данных;
    • понимание основ теории реляционных баз данных;
    • опыт организации ETL процессов обработки данных;
    • опыт проектирования систем обработки больших объемов данных;
    • понимание методов машинного обучения опционально;
    • ссылки на публичные репозитории с примерами работы приветствуются.

город

Москва

Пройти тестирование

Присылайте ваше резюме на hr@corp.mail.ru