В основе алгоритма — 3 тысячи парсеров. Это программы, которые в автоматическом режиме каждый день собирают данные из разных источников.
Команда из 13 инженеров управляет парсерами, дорабатывает их функциональность и обеспечивает их бесперебойную работу.
Часть данных обрабатывается вручную: для этого у нас работает 20 модераторов. Они сопоставляют товарные позиции, исправляют ошибки в наименованиях и вручную классифицируют новые товарные позиции.
За день мы собираем 200 ГБ исходных данных. После обработки получаем 16 млн структурированных записей, которые дальше удобно анализировать, группировать и составлять отчеты.