The post has been translated automatically. Original language: Russian
Today we will tell you about one of the most dramatic "divorces" in the database world. About how a team of Chinese engineers quarreled, and eventually created two of the best OLAP systems on the market.
Spoiler alert: This story includes legal trademark wars, philosophical arguments about the "true path" of a developer, and the lesson that sometimes competition is a good thing (at least for us users).
If you think that corporate dramas only happen in HBO series, welcome to the world of Open Source - Minus the Borwolds
Part 1: How it all Started (Baidu is not just a Chinese search engine)
In the early 2010s, the big data world was obsessed with Hadoop. Everyone built their own "data lakes" and was happy that they could store petabytes of information. There was only one problem: when it came to analytics, the speed was about the same as that of the Internet via dial-up.
The engineers of the Chinese giant Baidu (this is Google, only Chinese, if someone doesn't know) decided that you can't live like this. They started sawing their own analytical database, codenamed Palo.
By 2017, the thing was working so well that Baidu was processing petabytes of advertising data on it. And then someone made a decision that would change everything: "Let's open the code!"
In 2018, the project was transferred to the Apache Software Foundation under the new name Apache Doris. It's like a textbook: open source, community of contributors, democracy and consensus.
And then the most interesting thing began ...
Part 2: The Great Schism
Imagine a situation: you are a talented engineer, you see how the real-time analytics market is growing by 50% per year, and your project is stuck in the Apache Foundation bureaucracy, where every architectural solution needs to be discussed in public newsletters for weeks.
By 2020, two camps had formed within the Apache Doris team:
- The Evolutionists' Labor Camp (the future VeloDB): "Guys, let's not break what works. We have Baidu, Meituan, Xiaomi — all on our code. We will improve gradually, while maintaining compatibility."
- The labor Camp of the "Revolutionaries" (the future StarRocks): "The old code is a technical debt that will bury us. We need to rewrite the engine from scratch! Only a clean slate will allow us to achieve real productivity!"
It's like an argument about "making repairs gradually" versus "demolishing everything and building anew." Both options have the right to life, but it is difficult to find a compromise here and a divorce is possible. "My grandfather
The revolutionaries left and founded their own company. And then the real circus began...horses
Part 3: Divorce, Breakups, Always Sad
The departed team released their product called...
Yes, yes, you got it right. People forked the Apache Doris project and named their commercial product almost the same way. It's like leaving McDonald's and opening a McDonaldz burger joint across the street. Technically, it's a different name, but everyone understands everything. - Alexander Polorotov
The Apache Software Foundation reacted predictably: "Are you guys serious?" When the project is transferred to the foundation, all trademark rights are transferred to Apache. Using the name "Doris" in a commercial product is a direct violation.
Moreover, this situation has blocked the release of the original Apache Doris from the incubator to the Top-Level Project status. The fund simply could not guarantee the purity of the brand as long as DorisDB existed on the market.
As a result, under pressure and the threat of litigation, the company rebranded. DorisDB has becomeStarRocks.
The divorce was official: different names (VeloDB and StarRocks), different codes, different licenses, different paths.
Part 4: Becoming the Best Version of Yourself after a Divorce
Let's see how these systems differ in essence.
The guys from StarRocks rewrote the core in modern C++, relying on extreme performance in complex scenarios.
The main trump card: A powerful optimizer for complex JOINS. If you have a specific scenario where you need to connect dozens of tables on the fly without prior preparation, StarRocks is brilliant at this.
This solution requires more resources (especially memory) and is tailored to one specific task, fast analytics. This is a Formula 1 car: incredibly fast on the track, but you won't drive it to the bread shop or to the cottage off-road.
The Doris team followed the path of creating a universal data processor. Instead of focusing only on the speed of JOINS, they expanded the range of tasks that a modern database can solve.
Key differences:
- Inverted Indexes. This is a "killer feature" that turns an analytical database into a search engine. You can store and analyze logs in the same database as the business data. There is no need to maintain a separate (and expensive) Elasticsearch cluster. Savings on infrastructure can reach 5-10 times.
- Advanced work with updates (Partial Updates). The ability to update only individual columns in wide tables without rewriting the entire row. It is critically important for AI systems (Feature Store), where data is updated frequently and point-by-point.
- Apache Governance. Vendor lock-in stability and risk-free. The product belongs to the foundation, not to a single commercial company, which is a crucial security factor for many enterprises.
In fact, StarRocks is positioned as a high-performance engine for complex queries, and VeloDB as a single data platform that covers the tasks of analytics, search and AI.
Part 5: Competition
Do you remember from Alice through the Looking Glass?
Here you have to run with all your might to stay in place - The Queen
This is the perfect description of what's been going on between VeloDB and StarRocks for the last 5 years.:
- StarRocks Released Primary Key Model → Doris Responded with Merge-on-Write
- StarRocks introduced cool CBO → Doris rolled out Nereids
- Doris added inverted indexes → StarRocks started to improve its indexing mechanisms
By 2026, the basic functionality of the system has reached parity. But the key difference remained: VeloDB developed as a universal platform, and StarRocks as a highly specialized engine for one type of task.
That's how the split and competition, which seemed like a disaster in 2020, led to both systems becoming better.
But the VeloDB path turned out to be more practical for real business.
Personal opinion of Alexander Polorotov.
The epilogue
Both systems are now broken in AI.
Vector search, RAG architectures, integration with LLM is a new battlefield.
VeloDB looks more interesting here again: they integrate vector search with traditional full-text (Hybrid Search).
This means that you can search both by meaning (semantically) and by keywords at the same time for exactly what is needed for modern AI applications.
The story of two twin brothers who quarreled and became competitors continues.
But if you need to choose a side right now, look not at benchmarks (they change every month), but at which architecture best suits your business objectives: narrow specialization or versatility.
And if you need help with the choice, then you should contact the company. Datanomix.pro
© Alexander Polorotov, 2026
Published with the author's permission.
Сегодня расскажем вам про один из самых драматичных «разводов» в мире баз данных. О том, как команда китайских инженеров разругалась, а в итоге создала две лучшие OLAP-системы на рынке.
Спойлер: эта история включает в себя юридические войны за торговую марку, философские споры об «истинном пути» разработчика, и урок о том, что иногда конкуренция это хорошо (по крайней мере, для нас, пользователей).
Если вы думаете, что корпоративные драмы бывают только в сериалах HBO — добро пожаловать в мир Open Source - Минус Борвольдс
Часть 1: Как всё начиналось (Baidu это не только китайский поисковик)
В начале 2010-х годов мир больших данных был одержим Hadoop. Все строили свои «озёра данных» и радовались, что можно хранить петабайты информации. Была только одна проблема: когда дело доходило до аналитики, скорость была примерно как у интернета по dial-up.
Инженеры китайского гиганта Baidu (это такой Google, только китайский, если кто-то не знает) решили, что так жить нельзя. Они начали пилить свою собственную аналитическую базу данных под кодовым названием Palo.
К 2017 году штука заработала настолько хорошо, что Baidu обрабатывала на ней петабайты рекламных данных. И тут кто-то принял решение, которое изменит всё: «А давайте откроем код!»
В 2018 году проект передали в Apache Software Foundation под новым именем Apache Doris. Всё как по учебнику: открытый код, сообщество контрибьюторов, демократия и консенсус.
И тут началось самое интересное...
Часть 2: Великий раскол
Представьте себе ситуацию: вы талантливый инженер, видите, как рынок аналитики реального времени растёт на 50% в год, а ваш проект застрял в бюрократии Apache Foundation, где каждое архитектурное решение нужно обсуждать в публичных рассылках неделями.
К 2020 году внутри команды Apache Doris сформировались два лагеря:
- Трудовой Лагерь «Эволюционистов» (будущий VeloDB): «Ребята, давайте не будем ломать то, что работает. У нас Baidu, Meituan, Xiaomi — все на нашем коде сидят. Будем улучшать постепенно, сохраняя совместимость».
- Трудовой Лагерь «Революционеров» (будущий StarRocks): «Старый код это технический долг, который нас похоронит. Нужно переписать движок с нуля! Только чистый лист позволит нам достичь настоящей производительности!»
Это примерно как спор «делать ремонт постепенно» vs «снести всё и построить заново». Оба варианта имеют право на жизнь, но компромисс тут найти сложно и в возможен развод. - Мой дед
Революционеры ушли и основали свою компанию. И тут начался настоящий цирк...кони
Часть 3: Развод, расставашки, всегда печалька
Ушедшая команда выпустила свой продукт под названием...
Да-да, вы всё правильно поняли. Люди форкнули проект Apache Doris и назвали свой коммерческий продукт почти так же. Это примерно как уйти из McDonald's и открыть бургерную «McDonaldz» напротив. Технически другое название, но все всё понимают. - Александр Полоротов
Apache Software Foundation отреагировала предсказуемо: «Ребята, вы серьёзно?» При передаче проекта в фонд все права на торговую марку переходят к Apache. Использование названия «Doris» в коммерческом продукте это прямое нарушение.
Более того, эта ситуация заблокировала выпуск оригинального Apache Doris из инкубатора в статус Top-Level Project. Фонд просто не мог гарантировать чистоту бренда, пока на рынке существовал DorisDB.
В итоге под давлением и угрозой судебных разбирательств компания провела ребрендинг. DorisDB стал StarRocks.
Развод состоялся официально: разные названия (VeloDB и StarRocks), разный код, разные лицензии, разные пути.
Часть 4: Стать лучшей версией себя после развода
Давайте разберёмся, чем же отличаются эти системы по существу.
Ребята из StarRocks переписали ядро на современном C++, сделав ставку на экстремальную производительность в сложных сценариях.
Главный козырь: Мощный оптимизатор для сложных JOIN-ов. Если у вас специфический сценарий, где нужно соединять десятки таблиц на лету без предварительной подготовки, StarRocks это умеет блестяще.
Это решение требует больше ресурсов (особенно памяти) и заточено под одну конкретную задачу быструю аналитику. Это «болид Формулы-1»: невероятно быстрый на треке, но вы не поедете на нём в магазин за хлебом или на дачу по бездорожью.
Команда Doris пошла по пути создания универсального комбайна для данных. Вместо того чтобы фокусироваться только на скорости JOIN-ов, они расширили спектр задач, которые может решать современная база данных.
Ключевые отличия:
- Инвертированные индексы (Inverted Indexes). Это «киллер-фича», которая превращает аналитическую базу в поисковый движок. Вы можете хранить и анализировать логи в той же базе, где лежат бизнес-данные. Не нужно поддерживать отдельный (и дорогой) кластер Elasticsearch. Экономия на инфраструктуре может достигать 5-10 раз.
- Продвинутая работа с обновлениями (Partial Updates). Возможность обновлять только отдельные колонки в широких таблицах, не переписывая строку целиком. Критически важно для AI-систем (Feature Store), где данные обновляются часто и точечно.
- Apache Governance. Стабильность и отсутствие рисков vendor lock-in. Продукт принадлежит фонду, а не одной коммерческой компании, что для многих энтерпрайзов решающий фактор безопасности.
По сути, StarRocks позиционируется как высокопроизводительный движок для сложных запросов, а VeloDB как единая платформа данных, закрывающая задачи аналитики, поиска и AI.
Часть 5: Конкуренция
Помните из «Алисы в Зазеркалье»?
Здесь нужно бежать изо всех сил, чтобы оставаться на месте - Королева
Это идеальное описание того, что происходит между VeloDB и StarRocks последние 5 лет:
- StarRocks выпустила Primary Key Model → Doris ответила Merge-on-Write
- StarRocks внедрила крутой CBO → Doris выкатила Nereids
- Doris добавила инвертированные индексы → StarRocks начала улучшать свои механизмы индексации
К 2026 году по базовому функционалу системы достигли паритета. Но ключевое отличие осталось: VeloDB развивалась как универсальная платформа, а StarRocks как узкоспециализированный движок для одного типа задач.
Вот так раскол и конкуренция, которые казались катастрофой в 2020-м, привели к тому, что обе системы стали лучше.
Но путь VeloDB оказался более практичным для реального бизнеса.
Личное мнение Александра Полоротова.
Эпилог
Обе системы сейчас ломанулись в AI.
Векторный поиск, RAG-архитектуры, интеграция с LLM это новое поле битвы.
VeloDB здесь снова выглядит интереснее: они интегрируют векторный поиск с традиционным полнотекстовым (Hybrid Search).
Это значит, что можно искать и по смыслу (семантически), и по ключевым словам одновременно именно то, что нужно для современных AI-приложений.
История двух братьев-близнецов, которые поссорились и стали конкурентами, продолжается.
Но если вам нужно выбрать сторону прямо сейчас смотрите не на бенчмарки (они меняются каждый месяц), а на то, какая архитектура лучше ложится на ваши бизнес-задачи: узкая специализация или универсальность.
А если нужна помощь с выбором, то вам в компанию Datanomix.pro
© Александр Полоротов, 2026
Публикуется с разрешения автора.