В сети существует достаточно много разработанных серверных скриптов и десктопных приложений для извлечения информации (парсинга) каталога яндекса (ЯК). В данной статье не является целью привести примеры онлайн сервисов для парсинга ЯК, их можно найти в поисковой системе по ключу парсер яндекс каталога. Пролистав страницу, ниже вы найдете ссылку для скачивания серверной версии граббера, которую можно установить на денвере.
Что такое Яндекс.Каталог?
ТРЕБОВАНИЯ
- PHP 4+
- Библиотека cURL
- Поддержка функций работы с файлами (fopen, fwrite)
УСТАНОВКА
Перепишите папку YacaParser на свой сервер в любое место, доступное из web. Папка files должна быть доступна для записи. Если вы записали на сайт , тогда запустите парсер, введя в строку браузера путь
ИСПОЛЬЗОВАНИЕ
При использовании скрипта необходимо задать категорию, которую требуется спарсить. Поддерживается два формата категории:
1. Категория/Подкатегория
Например, для парсинга категории “Недвижимость”, необходимо ввести путь
Business/Realty
2. Полный путь
Например,
При переходе по страницам Яндекс Каталога используется задержка в 1 секунду (строка 48 файла class.Grabber.php). Этот параметр можно менять, задавая целое число секунд. Регулярные выражения для работы со структурой кода страниц каталога можно изменять в файле config.php.
ВНИМАНИЕ
При большом количестве запросов к яндекс каталогу ваш IP адрес может быть забанен на сутки. Обычно, не более 1000 запросов (страниц) в час это нормально.
Все замечания по поводу скрипта вы можете оставлять в комментариях к данному посту. Скрипт распространяется свободно, но если вы захотите отблагодарить автора, он всегда рад. Реквизиты можно найти на