В основе алгоритма — 5,5 тысяч парсеров. Это программы, которые в автоматическом режиме каждый день собирают данные из разных источников.
Команда из 12 инженеров управляет парсерами, дорабатывает их функциональность и обеспечивает их бесперебойную работу.
Часть данных обрабатывается вручную: для этого у нас работает 26 модераторов. Они сопоставляют товарные позиции, исправляют ошибки в наименованиях и вручную классифицируют новые товарные позиции.
За день мы собираем 250 ГБ исходных данных. После обработки получаем более 20 миллионов структурированных записей, которые дальше удобно анализировать, группировать и составлять отчеты.