Big Data - инструменты
Масштабируемая инфраструктура для анализа больших данных (big data) на базе Apache Hadoop, Apache Spark, Kafka и др. Замените дорогую и неэффективную локальную инфраструктуру обработки больших данных, которая нужна всего несколько часов в неделю, на мощную облачную инфраструктуру.
Apache Hadoop и Apache Spark - платформы с открытым кодом для надежной и быстрой обработки огромных объемов слабоструктурированных данных из разнородных источников. Вы можете использовать Hadoop для анализа «озер данных» (data lake), индексации веб-сайтов, финансового анализа, научных исследований. Spark оптимален для создания шины микросервисов и анализа в реальном времени, например - сегментации посетителей сайтов, fraud detection, мониторинга транспорта.
Конфигурации
Выберите подходящий предустановленный шаблон:
- Hadoop - для широкого спектра задач по обработке больших данных при помощи технологии MapReduce, шаблон ориентирован на пакетную (batch) обработку данных
- Spark - для параллельной обработки больших данных в памяти, шаблон ориентирован на быструю обработку данных в режиме, близком к реальному времени
- Custom - если вы опытный пользователь, вы можете создать кластер собственной конфигурации для вашей задачи, подключив нужные модули с помощью веб-интерфейса: HDFS, YARN, MapReduce2, Tez, Hive, HBase, Pig, ZooKeeper, Storm, Kafka, Spark2, Zeppelin Notebook, Sqoop, Oozie, Falcon, Flume, Accumulo, Ambari Infra, Ambari Metrics, Atlas, Knox, Log Search, Ranger, Ranger KMS, SmartSense, Spark, Druid, Kerberos, Mahout, Slider, Superset, Jupyter, Jupyter Hub, Airflow
Преимущества
Простота использования
- Создание кластера за несколько минут. Сервис берет на себя создание машин и кластеров, настройку Hadoop, оптимизацию производительности
- Можно добавлять модули, создавать нетиповые конфигурации кластера благодаря root-доступу к каждому узлу и к административному интерфейсу
- Управление кластером через веб-интерфейс, командную строку, API
- Гибкая масштабируемость вычислительных ресурсов и объёма хранения — от пары до сотен серверов и обратно за 10 минут
- Поддержка на русском языке
Низкая стоимость
- Оплата посекундно, за фактически потребленный дисковый объем
- Не нужно платить за RAM и CPU остановленных виртуальных машин
- Кластер Hadoop из 10 узлов — 39 ₽/час
Интеграция
- С другими сервисами: S3-совместимым объектным хранилищем, виртуальными машинами, кластерами Kubernetes, вычислениями на базе GPU
- Приватная сеть с компонентами Hadoop и другими сервисами в вашей IT-системе для создания гибридного облака
- Лёгкая миграция приложений для Hadoop с аналогичных облачных решений, таких как Amazon AWS, Microsoft Azure, Google Cloud
Надежность
- Хранение данных строго на территории РФ, в ЦОДах уровня TIER III, с тройной репликацией и непрерывным мониторингом безопасности
Области применения
Машинное обучениеНейронные сети, глубокое обучение, распознавание образов, ИИ
Анализ операционной деятельности компанииАгрегация data lake, ETL-обработка, оценка решений, анализ возможностей на рынке
Денежные переводыFraud detection в операциях с картами
ИсследованияПоиск ископаемых, медицина, геномика, социология, астрономия, численные методы, классификация
ТранспортМониторинг, отчеты, перераспределение транспортной нагрузки
Фильтрация спамаВыявление спама в письмах и комментариях, автоматическое удаление
Финансы и банкиФинансовый анализ, кредитный скоринг
Диджитал-маркетингСегментация пользователей по действиям на сайте, в приложении
Индустрия и IoTМониторинг и анализ состояния бизнес-процесса