Многопоточный webcrawler

Разработка приложений на python. Советы, примеры и обсуждение найденных ошибок
Ответить
Аватара пользователя
ZEN
Администратор
Сообщения: 1362
Зарегистрирован: 27 сен 2012, 18:23
Темы: 208
Откуда: Украина, Одесса
Статус: Не в сети

Многопоточный webcrawler

Сообщение ZEN » 21 янв 2016, 12:13

Не так давно выпала мне возможность переквалифицироваться с perl -а на python и в качестве пруфа требовалось написать веб-паука на питоне. В рамках концепта были использованы модули:
  • pycurl - загрузка страниц;
  • BeautifulSoup - парсинг даже сломанных HTML страниц;
  • threading - распараллеливаем работу скрипта.
остальные модули более-менее стандартны. Непосредственно код паука живет на github -е: https://github.com/zen-tools/zenscrawler/
бог создал труд и обезьяну
чтоб получился человек
а вот пингвина он не трогал
тот сразу вышел хорошо

Ответить

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость