The post has been translated automatically. Original language: Russian
To answer in a nutshell how to develop data innovations today, just like other innovations: pragmatically tracking the "HYPE cycle" and taking into account the best practices applied to your own business. Data innovations are developing rapidly both in breadth and depth, it is important not to lose the applied focus of their application and not to innovate for the sake of their innovativeness without a measurable assessment of potential applications. This can be called an "innovation from a problem": to formulate it not as "do we have a neural network, where would we attach it?", but from key business challenges: "How to reduce customer churn?" or "How to optimize the supply chain?" using modern solutions.
The starting point for the development of data-based approaches is, of course, the availability of data itself, its completeness and quality, it is a "circulatory system", the foundation is the construction of data warehouses, the introduction of quality assurance and data management processes, the creation of a single point of truth, since the thesis "poor-quality data leads to poor-quality conclusions" will always remain relevant.
Influencing factors
First of all, personnel starvation slows down development, data engineering is a very dynamic IT field, DBMS, platforms, frameworks, and data management methodologies are developing. It is necessary to run very fast in order to at least just stand still.
There are also restrictions on access to modern hardware – there are difficulties with purchasing powerful GPUs, specialized processors, as well as using top-end managed global cloud services (although Russian clouds are actively developing), but solutions deployed on their own servers are traditionally more popular in Russia.
Also a noticeable drag is "raw" data and low data culture. The classic problem is that the data is fragmented, there are no unified reference books, metadata, or quality control. Tidying up is 80% of the effort in any project.
We can also mention the currently low level of maturity of the business itself in a data-driven approach - the business is waiting for a quick return, is not ready to invest in a long-term infrastructure and foundation. There are many "point" pilots who do not become industrial solutions.
However, on the other hand, the current constraints also work as powerful drivers of growth.
The geopolitical situation and import substitution act as a powerful catalyst. Companies are forced to rapidly develop their own competencies, create internal solutions, and adapt open-source tools. Government grants and support within the framework of the Digital Economy also work as an accelerator.
The departure of large Western vendors and the active development of open-source tools are becoming the de facto industry standard and allow us to build modern solutions without direct dependence on vendors.
The economic situation, competition, and reduced margins are forcing businesses to look for growth points in optimization (logistics, inventory, pricing) and increased conversion (personalization, recommendations).
The demand for data specialists has led to an increase in the number of courses, retraining programs, and the development of internal competence centers – companies understand the need for such resources.
Digitalization of the public sector and regulated industries. Reporting, monitoring and control requirements create demand for data collection and analysis systems (for example, in the Federal Tax Service, construction, housing and communal services, etc.).
Critical and surmountable factors
Critical (requires system changes): Shortage of personnel, low data culture. They are solved by long-term work on building educational programs, restructuring processes and motivation.
Surmountable (solved internally): "Raw" data, fast results syndrome, is a matter of proper management, prioritization, and having strong CDOs.
Если ответить в двух словах, как развивать дата инновации-сегодня, то также как и другие инновации: прагматично отслеживая «цикл хайпа» и учитывая лучшие практики в применении к собственному бизнесу. Дата-инновации развиваются стремительно как вширь, так и вглубь, важно не терять прикладной фокус их применения и не делать инновации ради их инновационности без измеримой оценки потенциального применения. Это можно назвать «инновацией от проблемы»: сформулировать не как «у нас есть нейросеть, куда бы ее пристроить?», а с ключевых бизнес-вызовов: «Как снизить отток клиентов?» или «Как оптимизировать цепочку поставок?», используя современные решения.
Стартовой точкой развития подходов, основанных на данных, является безусловно наличие непосредственно данных, их полнота и качество, это «кровеносная система», фундамент - построение хранилищ данных, внедрение процессов обеспечения качества и управления данными, создание единой точки правды, поскольку тезис «некачественные данные ведут к некачественным выводам» всегда будет сохранять свою актуальность.
Факторы влияния
Тормозит развитие в первую очередь кадровый голод, инженерия данных очень динамичная сфера ИТ, развиваются СУБД, платформы, фреймворки, методологии работы с данными. Необходимо очень быстро бежать чтобы хотя бы просто стоять на месте.
Сказываются также ограничения по доступу к современному "железу" – есть сложности с закупкой мощных GPU, специализированных процессоров, а также с использованием топовых управляемых сервисов мировых облаков (хотя российские облака активно развиваются), но в России традиционно более популярны решения, развернутые на собственных серверах.
Также заметный тормоз - "сырые" данные и низкая культура данных. Классическая проблема: данные разрознены, нет единых справочников, метаданных, контроля качества. Наведение порядка — это 80% усилий в любом проекте.
Можно упомянуть и низкий на текущий момент уровень зрелости самого бизнеса в подходе, основанном на данных - бизнес ждет быстрой отдачи, не готов инвестировать в долгосрочную инфраструктуру и фундамент. Много "точечных" пилотов, которые не становятся промышленными решениями.
Однако, с другой стороны, текущие ограничения работают и как мощнейшие драйверы роста.
Геополитическая ситуация и импортозамещение выступают как мощнейший катализатор. Компании вынуждены быстро развивать собственные компетенции, создавать внутренние решения и адаптировать open-source инструменты. Государственные гранты и поддержка в рамках "Цифровой экономики" также работают как ускоритель.
Уход крупных западных вендоров и активное развитие open-source инструментов становятся де-факто отраслевым стандартом и позволяют строить современные решения без прямой зависимости от вендоров.
Экономическая ситуация, конкуренция и сокращение маржинальности заставляют бизнес искать точки роста в оптимизации (логистика, запасы, ценообразование) и повышении конверсии (персонализация, рекомендации).
Спрос на специалистов по работе с данными породил рост числа курсов, программ переподготовки, развитие внутренних центров компетенций – компании понимают потребность в подобных ресурсах.
Цифровизация госсектора и регулируемых отраслей. Требования по отчетности, мониторингу и контролю создают спрос на системы сбора и анализа данных (например, в ФНС, строительстве, ЖКХ, и тд.).
Критичные и преодолимые факторы
Критичные (требуют системных изменений): Дефицит кадров, низкая data-культура. Решаются долгой работой по построению образовательных программ, перестройке процессов и мотивации.
Преодолимые (решаются внутри компании): "Сырые" данные, синдром быстрых результатов — это вопрос правильного управления, приоритизации и наличия сильных CDO.