Мировые новости | Новости Россия, Украина, мир. Новость дня, лента новостей

Время от времени перед каждым встают задачи сбора информации, находящейся в индексе поисковиков. При объемах, близких к промышленным, нужно использовать парсер. Из бесплатных наиболее популярен Aggress Parser. Из (не знаю как назвать)-платных я выбираю Allsubmitter. Дело в том, что сам по себе Allsubmitter платный. Но в бесплатной демо верси функции парсинга работают. Соответственно, если он вам нужен только как парсер – велком за демоверсией. В этом посте рассмотрю сравнение двух парсеров по некоторым параметрам.

Итак, первое, на что я обратил внимание – это то, что Allsubmitter работает с базой данных, а Aggress Parser пишет в текстовой файл. Причем при реально больших результатах парсинга текстовой файл раздувается до неприличия и Aggress Parser начинает тупить и вылетает с ошибкой. В Allsubmitter такой проблемы никогда не будет, потому что он работает с бд, за что ему большой плюс.

Второе – капча. Настраивать задержки поиска можно и там и там. Но даже при задержках в 20 секунд гугл иногда выкидывает капчу. Что делает Allsubmitter? Он выводит картинку капчи и предлагает ее ввести пользователю. Что делает Aggress Parser? Стоит. В результате, если вы работаете с Aggress Parser без прокси, то приходится время от времени искать абракадабру в гугле, чтобы проверить на наличие капчи или мониторить – увеличилось ли количество страниц в результатах парсинга за период времени задержки. Если нет – значит, вылезла капча и ее нужно ввести через браузер. Поэтому по этому пункту тоже плюс уходит к Allsubmitter -у. Еще бы добавить звуковое оповещение при выскакивании окошка с капчами, чтобы мониторить ее во время работы в полноэкранных приложениях.

Теперь о прокси. Парсить через прокси можно и там и там, но здесь Allsubmitter отхватывает пол балла и становится явным лидером! А все потому, что он имеет офигенно удобный инструмент сбора прокси в три шага. На первом вводим запрос для поиска прокси (к стандартным free proxy list и free socks list можно добавить русское слово прокси или “список прокси”), выбираем поисковые системы, в которых следует искать по этим запросам и парсим урлы всех сайтов, на которых встречаются эти словосочетания. На втором этапе Allsubmitter заходит на каждый из этих сайтов и выдирает данные в формате айпи:порт. Полученную базу чистим от мертвых прокси уже на третьем этапе. Все переключения между этапами происходят в пару кликов, что очень удобно.

Казалось бы, Allsubmitter явный лидер и нафиг нужен этот Aggress Parser? Но не все так просто, и у последнего есть свои преимущества:
1) (субъективно) парсит гораздо быстрее
2) можно заточить под любую поисковую систему, например, ту, которая никогда не выдаст капчу
3) встроенные инструменты разделения и перемешки баз

Похожие новости:
  1. Покупать ли сателлиты или нет? В жизни практически каждого оптимизатора наступает момент, когда скапливается некая...

Комментарии (5)

  1. Автор, а где ты нашел функцию парсера в Allsubmitter? Буду очень признателен если подскажешь на почту. (Использую версию 4.7 ломанную)

  2. Интерестно. прочитал, вот только не совсем понял)))

  3. Все работает, спасибо за наводку.

  4. Aggress Parser банят поисковики. Просто сделать автоматическое переподключение интернета каждые 3 минуты. Для смены Ip.И всё будет норма

  5. Владимир я начинающий “Чайник” – вопрос: где взять рукаводство поработе с парсерами.
    Мне не понятно как работать. У меня Агресс парсер 2,0. Помогите, если можете. Хочу создать новый сайт, для оптимизации поисковиками. прочитал у одно как сделать сайт на 1000 страниц. но у него так замудрено – будто для себя писал, а не для чайника. С уважением С.А

Добавить комментарий

Ваш e-mail не будет опубликован.

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>