Машинное обучение CatBoost от Яндекс

Яндекс выложил библиотеку CatBoost в  open source – эта новость облетела все порталы и ресурсы. Разработана она благодаря многолетнему опыту машинного обучения и планируется, что придет на замену Матрикснету.

яндекс catboost картинка

Что такое CatBoost?

Это масштабная отечественная технология машинного обучения. Инструментами CatBoost разработчики могут настраивать и внедрять модели машинного обучения в свои продукты. Благодаря ему можно выполнить анализ разнородных данных одновременно нескольких типов. Это могут быть истории операций, информация о местонахождении пользователя.

CatBoost основывается на градиентном бустинге. Использовать эту разработку можно в различных  областях для анализа и прогнозирования. Также нашла она  применение и для сотрудничества  с клиентами Yandex Data Factory, организацией (CERN) по ядерным исследованиям.

В чем связь бустинга с Матрикснетом?

Понятие «машинное обучение» возникло в 50- х годах.  Им обозначали процесс выполнения задач компьютером, которые легко решает человек, но путь которых формализовать сложно.

Ежедневно мы сталкиваемся с последствиями машинного обучения, даже не подозревая об этом. Встречается оно для построения списков схожих товаров, в ленте социальных сетей, при выдаче банковских кредитов, расчете стоимости страховки и т.п. Также  на основе технологии машинного обучения функционируют фотофильтры, поиск лиц на фотоснимках. Кстати, для фотофильтров используются нейронные сети.

yandex catboost картинка

Бустинг или нейросети?

 Нейросети прекрасно справляются с задачами, где нужно работать с однородными данными: текст, звук. Благодаря им в Яндексе лучше воспринимаются поисковые запросы, находятся картинки, распознаются голоса в Навигаторе.  Но есть ряд задач, решения которых осуществить нейросетями невозможно, поэтому на выручку приходит градиентный бустинг. Он просто  незаменим для  большого объема данных с разнородной структурой, может работать  с числовыми и другими данными.

Матрикснет

Изначально поисковые системы не были сложными. В силу того, что сайтов было мало,  работал лишь поиск слов. Со временем количество  интернет- страниц выросло и их нужно было ранжировать.  Когда страниц стало запредельно много, произошел значимый прорыв -  стали учитываться ссылки. Прошло еще немного времени, и Интернет уже стал коммерчески выгодным, одновременно с этим появились жулики, целью которых было обмануть алгоритмы. В этот момент произошел второй прорыв -  поисковики стали обращать внимание на поведенческий фактор пользователей, следовательно, Seo-продвижение сайтов приобрело еще большую актуальность.

Далее стал вопрос о ранжировании документов. Чтобы создать программу специалистам понадобился бы не один год, а мы все также сталкиваемся с проблемой, что по запросу  поисковик выдает много информации, но при этом большая часть ее неинтересна, пуста или является спамом. Чтобы получить ответ на вопрос, необходимо мгновенно перебрать десятку лучших сайтов.  Именно поэтому произошел третий прорыв – поисковики стали «юзать», использовать машинное обучение.

Ключевая особенность Матрикснета - устойчивость к переобучению, что дает возможность обучаться на незначительном количестве данных,  не боясь, что  машина  обнаружит несуществующие закономерности, Также достоинством Матрикснета является то, что формулу ранжирования можно настраивать для запросов узких классов. К примеру,  можно улучшить поиск по музыкальным запросам, но при этом ранжирование по другим классам не снизиться.

big-data yandex catboost картинка

CatBoost на практике

Яндекс не применял полноценно пока CatBoost на собственных проектах, но проведенное тестирование продемонстрировало его состоятельность. Прогнозируется, что CatBoost скоро заменит Матрикснет, ведь особенность машинного обучения заключается в эффективной работе с разнородными данными (предпочтениях пользователей, информации о демографии, т.п.).

Именно достоинства Матрикснет стало базой для CatBoost.

CatBoost и сотрудничество с CERN

CatBoost нашел применения в сотрудничестве с CERN.  В БАК функционирует детектор LHCb, который применяют для исследования асимметрии материи и антиматерии. Для непосредственного отслеживания частиц в детекторе есть несколько частей,  каждая из которых определяет специальные свойства частиц.

Максимально сложной задачей в этом процессе является объединение информации с различных частей. Вот здесь и требуется использование машинного обучения.

Согласно тестированию результаты CatBoost превзошли показатели других методов, а CatBoost  признана первой масштабной технологии машинного обучения, доступная в open source.

31.07.2017