Мощный SQL-движок для Lakehouse и Data Fabric
CedrusData Engine — высокопроизводительный массивно-параллельный движок для сквозного анализа данных предприятия
Основные сложности при построении современной data-архитектуры
1.
Постоянная нехватка данных и вычислительных ресурсов, рост расходов
Текущие потоки интеграции не содержат необходимых данных или не эффективны. Департаменты конкурируют друг с другом за доступ к данным изолированных систем. Расходы бюджета на вычислительные ресурсы не успевают за потребностями бизнеса. Инфраструктура экстренно наращивается в узких местах с высоким перерасходом бюджета
2.
Потеря скорости в принятии решений
Фрагментарность данных и необходимость их постоянной консолидации превращают каждый новый аналитический запрос в длительный проект. Бизнес-подразделения теряют оперативность принятия решений, поскольку актуальная информация оказывается недоступной в нужный момент
CedrusData Engine — мощный SQL-движок как основа аналитической архитектуры
Высокая производительность и масштабируемость
СedrusData Engine выполняет сложные аналитические запросы даже для очень больших наборов данных. Динамическое управление памятью в реальном времени уменьшает ее использование, что повышает производительность и стабильность работы системы
Экономический эффект и контроль расходов
Отделение слоя вычислений (исполнения запросов) от слоя хранения данных позволяет эластично масштабировать инфраструктуру без перемещения данных. CedrusData Engine служит единым окном доступа к данным любого формата, минимизируя потребность в сложных и дорогостоящих ETL-инструментах и сокращая объем работ на интеграции данных между системами
Современная открытая архитектура
CedrusData Engine является ключевым компонентом для построения современных архитектур, таких как Data Lakehouse. Использование открытых табличных форматов, таких как Apache Iceberg вместе с парадигмой Lakehouse позволят легко адаптировать архитектуру вашей платформы под новые решения в будущем и избежать Vendor Lock
Гибкость интеграции и универсальный доступ
Движок позволяет выполнять сложные операции над данными из разных источников: СУБД, DWH, Data Lake, без перестройки существующей инфраструктуры. Это дает возможность строить архитектуры Data Fabric и Data Mesh, обеспечивая унифицированный доступ к данным в масштабах всей организации
Преимущества CedrusData Engine
Основан на Trino с нативным Rust runtime для максимальной производительности на больших данных
Работа с открытыми форматами через Apache Iceberg без привязки к вендору
Современный оптимизатор запросов с материализацией промежуточных вычислений для ускорения обработки
Многоуровневое кэширование и расширенный аудит всех операций с данными
Авторизация корпоративного уровня через CedrusData Catalog или OPA. Имперсонация пользователей при работе с внешними источниками
Расширенный аудит доступа к объектам каталога и аудит действий администратора
Web UI для выполнения и мониторинга SQL-запросов, управления политиками доступа
Быстрое внедрение решений благодаря Kubernetes и гибкой cloud-native архитектуре
Эффективное использование ресурсов с автоматическим масштабированием под нагрузку
Преимущества CedrusData Engine
Основан на Trino с нативным Rust runtime для максимальной производительности на больших данных
Работа с открытыми форматами через Apache Iceberg без привязки к вендору
Современный оптимизатор запросов с материализацией промежуточных вычислений для ускорения обработки
Многоуровневое кэширование и расширенный аудит всех операций с данными
Авторизация корпоративного уровня через CedrusData Catalog или OPA. Имперсонация пользователей при работе с внешними источниками
Расширенный аудит доступа к объектам каталога и аудит действий администратора
Web UI для выполнения и мониторинга SQL-запросов, управления политиками доступа
Быстрое внедрение решений благодаря Kubernetes и гибкой cloud-native архитектуре
Эффективное использование ресурсов с автоматическим масштабированием под нагрузку
Технология Trino
Массивно-параллельный аналитический SQL-движок, который позволяет обрабатывать большие объемы данных из разных источников
Высокая производительность на больших объемах
Распределенная обработка петабайтов данных, оптимизации для вычислений и хранения
Гибкая интеграция без перемещения данных
Доступ к данным из Postgres, Data Lake, Kafka и другим источникам в рамках одного SQL-запроса
Поддержка сложных преобразований
Встроенные функции для работы с JSON, MAP и сложными структурами
Универсальность для разных сценариев
Ad-hoc аналитика, дашборды и пакетная ETL-обработка в одной системе
Оптимизация TCO
Независимое масштабирование compute и storage, автомасштабирование кластера под нагрузку
Единый SQL-интерфейс и контроль доступа
Единый ANSI SQL для запросов к разным системам и возможность управлять политиками доступа
Открытость и гибкость архитектуры
Поддержка открытых табличных форматов снижает зависимость от вендоров и технологий, делает архитектуру более гибкой
CedrusData Engine — коммерческий форк Trino
CedrusData является коммерческим продуктом, который основан на open source технологии Trino, и включает дополнительный функционал безопасности, управления и мониторинга, улучшения производительности, веб-интерфейс для запуска запросов, профессиональную документацию и поддержку.
Комплект поставки
Высокопроизводительный массивно-параллельный SQL-движок для сквозного анализа всех данных предприятия. Входит в комплект поставки CedrusData Platform
Центральный репозиторий метаданных для современных аналитических платформ с поддержкой спецификации Iceberg REST API. Входит в комплект поставки CedrusData Engine и CedrusData Platform
Почему CedrusData
На основе open source
Trino, Spark, Iceberg, Flink
Российская разработка
В реестре Отечественного ПО
Big Data
Для проектов от десятков терабайт до сотен петабайт
Гибкость и открытость
Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise
На основе open source
Trino, Spark, Iceberg, Flink
Российская разработка
В реестре Отечественного ПО
Платформа Big Data
Для проектов от десятков терабайт до сотен петабайт
Гибкость и открытость
Открытые форматы и протоколы; расширяемая архитектура; облако/on-premise
Сообщество инженеров
Крупнейшие русскоязычные комьюнити Trino и Apache Iceberg: помощь по сложным вопросам, обмен опытом и поддержка
Частые вопросы
Можно ли скачать и самостоятельно протестировать работу с вашим продуктом?
Да, CedrusData Engine доступен для пробного скачивания на нашем сайте. Развернуть продукт можно достаточно быстро, используя docker-образ или дистрибутив в течение 10-20 минут. Для работы с небольшими датасетами потребуется не более 8 GB RAM. Более подробно как развернуть и настроить CDE смотрите в руководстве по развертыванию.
В чем отличия CedrusData Engine от Trino, совместим ли он с Trino?
Отличий очень много, укажем только самые значимые. В первую очередь, CedrusData Engine не просто Trino, приукрашенный фасадами плагинов, a значительно доработанный и оптимизированный в ядре продукт. При этом CedrusData обратно совместим со всеми интерфейсами Trino. В число ключевых доработок входят: ряд улучшений планирования запросов, управляемые материализации и кэширование, нативное исполнение внутренних операторов (Rust-библиотеки вместо Java), собственные коннекторы для Greenplum, Teradata, и пр., Web-интерфейс для исполнения SQL, улучшения управления, безопасности и т.д. Более полный список отличий вы можете найти у нас в документации, но лучше напишите нам и мы проведем для вас презентацию и все расскажем.
Как подключаться к CedrusData Engine?
Основной клиентский интерфейс работы с CedrusData Engine — SQL. Подключиться вы можете одним из следующих способов: через Web интерфейс CedrusData, через JDBC-интерфейс вашим любимым клиентом или в консоли, через Trino CLI.
Как подключаются источники данных?
CedrusData Engine сам по себе не хранит данные, а подключает внешние источники (обеспечивается через механизм коннекторов, в CedrusData доступно более 40 клннекторов), в том числе данные можно не только читать, но и писать в коннектор. В качестве коннекторов поддерживаются популярные СУБД, MPP-системы, объектные хранилища, Hadoop и многие другие. Настройте необходимые источники и вы сможете обращаться к любым данным источников и выполнять федеративные запросы.
У нас 10-100-1000+ТБ данных, CedrusData Engine нам подойдет?
При правильном использовании, CedrusData Engine практически не ограничивает объем данных, который может находиться в вашем хранилище. Ответ будет зависеть от конкретных требований к характеру рабочей нагрузки, регламенту обновления данных, количеству запросов и т.п. Обратитесь к нам и мы поможем правильно подобрать архитектуру и рассчитать оборудование для вашего конкретного сценария.
Как закрыть вопросы безопасности доступа к множеству источников одновременно?
CedrusData Engine позволяют полностью закрыть типовые вопросы безопасности, в том числе:
- аутентификация (поддерживаются наиболее популярные протоколы, включая LDAP, JWT, OAuth);
- шифрование клиентского трафика (использование сертификатов);
- авторизация — может быть реализована на различных уровнях и различными способами, в зависимости от особенностей вашей инфраструктуры. В том числе, возможно использование правил OPA, Ranger, правил доступа определенных в файле, и пр.;
- возможна реализации динамического маскирования или скрытия колонок;
- наличие аудита доступа и аудита событий ИБ.
Какая у вас модель лицензирования? Есть ли поддержка?
CedrusData Engine лицензируется по ядрам compute-слоя, мы используем шкалу, уменьшающую стоимость при увеличении объемов закупки. Минимальный объем лицензирования — 32 физических ядра. По каждому продукту CedrusData также доступна техническая поддержка.
Остались вопросы?
Запросите консультацию или демонстрацию применительно к вашим задачам. Стоимость продуктов рассчитывается индивидуально и зависит от параметров системы.