Представьте такую ситуацию, вы оказались в библиотеке и нашли большое количество книг по интересующей тематике. Теперь вы хотите опубликовать их тексты на своем сайте, но для этого понадобится много времени, дабы отсканировать и привести их в подходящий формат. Программа или скрипт парсер — это своего рода фильтр информации, которые вы получаете со сторонних веб-сайтов. Этот метод используется для обработки и копирования большого количества данных, ведь ручная работа одного человека или даже целой команды требует много времени.

Парсер создается с помощью языка программирования, например C#. Вообще, применяются разные языки программирования для работы в интернет среде. Продвинутые кодеры для поиска нужных кусков пользуются регулярными выражениями, их задача заключается в поиске элементов по определенному шаблону.

Независимо от того, на каком языке программирования написан парсер, заданный порядок остается одинаковым.
1. прогулка по сети, доступ к коду сайта
2. чтение, преобразование и фильтрация
3. формирование конечного результата. На этой стадии извлеченная информация разбивается на составляющие и переводится в базу данных или отдельный файл.

Блог о программировании Михаила Губанова подготовил для вас специальную статью про Парсинг сайтов на C#.
Итак, как уже было озвучено ранее сердцем любого парсера является регулярное выражение. Если коротко, то оно представляют набор символов для зашифрованного поиска информации. Обходится это посредством использования реальных браузеров совместно с Селениум ВебДрайвер. Данная программа позволяет разрабатывать сценарии автоматизации практически на любом языке программирования.

Теперь напишем parse.
1. using openqf.Selenium;
2. using openqa.selenium.firefox.FirefoxDriver;
3. driver.Url=(сайт), который необходимо анализировать;
4. извлекаем содержимое — $text = $res->getBody();
5. return reader.ReadToEnd (сайт);

В среднем не формирование запроса и получение ответа уходит десять секунд. При увеличении поступающих заявок, сервер не успевает обрабатывать информацию, поступившие обрабатываются в порядке очереди.

Итак, из этой статьи вы узнали как парсить сайт на C#. На стремительно развивающемся рынке веб-индустрии без парсинга не обойтись. Заходите почаще на блог М.Губанова. Следите за обновлениями с помощью RSS канала, сообщества ВКонтакте и Twitter.

Хочешь получать новые записи? Подпишись на RSS или на почтовую рассылку:


Введи свой email:

Спасибо за добавление статьи:


Опубликовать в своем блоге livejournal.com

Приглашаю присоединиться ко мне в следующих сервисах: