The post has been translated automatically. Original language: Russian
Machine Learning or machine learning is heard in almost every field today — from banks and telecom to retail, government services and the mining industry. But behind the big words, there is often a fairly simple idea.
Let's figure out how ML works at a basic level, without complicated mathematics and formulas.
In fact, machine learning is not "magic." ML is based on mathematical prediction models that learn to predict a specific type of variable.
All target variables in ML can be roughly divided into two types:
- quantitative
- high-quality
Quantitative variables answer the question: "How much?"
These are numerical values that can be measured.
- number of store visitors by day of the week
- the average customer's receipt
- the amount of purchases per month
- number of bank cards issued
- volume of communication service consumption
How many credit cards will be issued to customers of a certain segment next month?
For such tasks, regression models are used that predict a specific numerical value.
Qualitative variables answer the question: "Will it happen or not?" / "Who?" / "Which group belongs to?"
Most often it is:
- classes
- categories
- event probabilities
- the probability of customer churn
- the probability of buying a product
- man or woman
- the client will leave / won't leave
- the payment will be overdue / will not be made
What is the probability that the customer will leave the telecom operator within the next 30 days?
Classification models are used here, which assess the probability of an event occurring, namely whether the client will go into the churn category or not.
Both quantitative and qualitative models are based on predictors — input data, on the basis of which the model learns to make a forecast.
- age
- floor
- income or salary
- activity in the mobile app
- number of sessions
- Purchase history
- duration of service
- region
It is important to understand that the same predictors can be used for different tasks, but the target variable is always the same and it determines the type of model.
Target variable (qualitative, it is also an outflow):
- the client will leave / not leave
- the probability of outflow
Predictors:
- frequency of calls
- Internet consumption
- complaints
- customer experience
- rate
Result: a list of clients with an outflow probability to whom retention offers can be directed.
Target variable (quantitative):
- number of cards per month
Predictors:
- marketing campaigns
- seasonality
- region
- customer segments
Result: forecast of department workload and resource planning.
Machine learning is not about "intelligence", but about prediction.
It all boils down to three key questions:
- What do we want to predict? → a quantitative or qualitative variable
- What data influences this? → predictors
- What business problem does this solve?
Understanding the difference between quantitative and qualitative variables is the first step towards using ML consciously, rather than blindly following hype.
For a deeper understanding of target variables and predictors, we recommend that you attend the free courses of the Institute of Bioinformatics on the Stepik platform "Fundamentals of Statistics" part 1 and part 2, where part 1 talks about quantitative variables and part 2 about qualitative ones.
Links to the courses are attached below:
https://stepik.org/course/76/info
https://stepik.org/course/524/info
Machine Learning или машинное обучение сегодня звучат почти в каждой сфере — от банков и телекома до ритейла, госуслуг и горнорудной отрасли. Но за громкими словами чаще всего скрывается довольно простая идея.
Разберёмся, как ML работает на базовом уровне, без сложной математики и формул.
На самом деле машинное обучение — это не «магия». В основе ML лежат математические модели предсказания, которые учатся прогнозировать определённый тип переменной.
Все целевые переменные в ML можно условно разделить на два типа:
- количественные
- качественные
Количественные переменные отвечают на вопрос: «Сколько?»
Это числовые значения, которые можно измерить.
- количество посетителей магазина по дням недели
- средний чек клиента
- сумма покупок за месяц
- количество выданных банковских карт
- объём потребления услуг связи
Сколько кредитных карт будет выдано клиентам определённого сегмента в следующем месяце?
Для таких задач используются регрессионные модели, которые предсказывают конкретное числовое значение.
Качественные переменные отвечают на вопрос: «Произойдёт или нет?» / «Кто?» / «К какой группе относится?»
Чаще всего это:
- классы
- категории
- вероятности события
- вероятность оттока клиента
- вероятность покупки продукта
- мужчина или женщина
- клиент уйдёт / не уйдёт
- платёж будет просрочен / не будет
Какова вероятность того, что клиент уйдёт из телеком-оператора в течение ближайших 30 дней?
Здесь применяются классификационные модели, которые оценивают вероятность наступления события, а именно уйдет ли клиент в категорию оттока или нет.
И количественные, и качественные модели строятся на предикторах — входных данных, на основе которых модель учится делать прогноз.
- возраст
- пол
- доход или зарплата
- активность в мобильном приложении
- количество сессий
- история покупок
- длительность обслуживания
- регион
Важно понимать: одни и те же предикторы могут использоваться для разных задач, но целевая переменная всегда одна и она определяет тип модели
Целевая переменная (качественная, она же отток):
- уйдёт / не уйдёт клиент
- вероятность оттока
Предикторы:
- частота звонков
- потребление интернета
- жалобы
- стаж клиента
- тариф
Результат: список клиентов с вероятностью оттока, на которых можно направить удерживающие предложения.
Целевая переменная (количественная):
- количество карт в месяц
Предикторы:
- маркетинговые кампании
- сезонность
- регион
- сегменты клиентов
Результат: прогноз нагрузки на отделения и планирование ресурсов.
Машинное обучение — это не про «разум», а про предсказание.
Всё ML сводится к трём ключевым вопросам:
- Что мы хотим предсказать? → количественную или качественную переменную
- Какие данные на это влияют? → предикторы
- Какую бизнес-задачу это решает?
Понимание разницы между количественными и качественными переменными — это первый шаг к осознанному использованию ML, а не слепому следованию хайпу.
Для более глубокого понимания целевых переменных и предикторов, рекомендуем прослушать бесплатные курсы Института биоинформатики на платформе Stepik «Основы Статистики» часть 1 и часть 2, где часть 1 рассказывает о количественных переменных, а часть 2 о качественных.
Ссылки на курсы приложены ниже:
https://stepik.org/course/76/info
https://stepik.org/course/524/info