The post has been translated automatically. Original language: Russian Russian
Our experts from the Big Data lab tell us.GoogLeNet is a deep convolutional neural network developed by a team of researchers from Google in 2014 for image classification. The "Le" in its name is a reference to the LeNet 5 neural network, one of the first convolutional neural networks that contributed to the development of the idea of deep learning since 1988.
The main difference between the GoogLeNet architecture and other convolutional neural networks (CNN) is the use of an additional module for initial data processing — Inception. It applies convolutions with different kernel sizes (1x1, 3x3, 5x5) in parallel, and then combines feature vectors. This makes it possible to more effectively identify local and global features of the analyzed image.
Despite the deep network architecture consisting of 22 layers, the number of GoogLeNet parameters used remains relatively small. This is achieved by using a 1x1 convolution, which essentially works as a linear filter and reduces the dimension of the next layer. Therefore, GoogLeNet is less demanding on the amount of video card memory than AlexNet and other architectures without the Inception module.
Due to its balance, GoogLeNet shows high classification accuracy on images of various sizes. In 2014, she won the ImageNet competition. Since then, more modern neural networks have been developed on its basis, also using a deep convolutional architecture and the concept of the Inception module.
Рассказывают наши эксперты из лаборатории больших данных.GoogLeNet — глубокая свёрточная нейросеть, разработанная командой исследователей из Google в 2014 году для классификации изображений. «Le» в её названии — это отсылка к нейросети LeNet 5, одной из первых свёрточных нейросетей, способствовавшей развитию идеи глубокого обучения с 1988 года.
Главным отличием архитектуры GoogLeNet от других свёрточных нейросетей (CNN) является использование дополнительного модуля начальной обработки данных — Inception. Он параллельно применяет свёртки с разными размерами ядра (1x1, 3x3, 5x5), а затем объединяет вектора признаков. Это позволяет эффективнее выделять локальные и глобальные признаки анализируемого изображения.
Несмотря на глубокую архитектуру сети, состоящую из 22 слоёв, количество используемых параметров GoogLeNet остаётся относительно небольшим. Это достигается благодаря использованию свёртки 1x1, которая по сути работает как линейный фильтр и уменьшает размерность следующего слоя. Поэтому GoogLeNet менее требовательна к объёму памяти видеокарты, чем AlexNet и другие архитектуры без модуля Inception.
За счёт своей сбалансированности GoogLeNet показывает высокую точность классификации на изображениях различного размера. В 2014-м году она победила в соревновании ImageNet. С тех пор на её основе разрабатываются более современные нейросети, также использующие глубокую свёрточную архитектуру и концепцию модуля Inception.