1. geegunqq13.03.2025 в 11:19от
Загрузка...

Проблема со Скриптом сбора прокси PHP, cURL

Тема в разделе "Программирование", создана пользователем koffein, 28.10.2013.

Метки:
  1. koffein

    koffein

    Статус:
    Оффлайн
    Регистрация:
    11.06.12
    Сообщения:
    314
    Репутация:
    129 +/-
    Ребята помогите пожалуйста найти ошибки.

    Тема такая, в паблике давным давно валяется следующий скрипт для грабинга проксей, реализован на PHP+cURL

    [-private-data-5837817-0-]

    Раньше он работал, но со временем страницы с проксями которые парсились изменились.
    На сайте который парсится первым, автор позаботился с защитой от грабинга, IP на сайте выдается нормально, а порты выдаются в ввиде Java скрипта, в виде символов (+t,+i,+b,+c и т.д), при каждой загрузке страницы таблица символов меняется, к примеру один раз раз +е = 8, если перезагрузить страницу, +e может иметь другое значение.

    Пытаюсь переписать парсер (методом втыка):
    Вот что пока получается:

    [-private-data-5837817-1-]

    Пока пришла идея менять данные в массиве:

    $search = array('m','x','u','n','j','g','v','r','h','y','+');
    $replace = array('9','3','4','8','5','0','1','7','6','2','');

    Только не понятно, как победить, то что кодировка меняется постоянно.
    И еще 1н момент, что то не так с циклом, как-то неправильно переходит по страницам, делает по 200к повторяемых записей =( Файл proxy_temp.txt растет до 500 мб. Помогите плз разобраться с циклом, чтоб ходил по страницам сайта и не делал по 200к дублей каждой записи =\
     
  2. Sheld42

    Sheld42

    Статус:
    Оффлайн
    Регистрация:
    30.12.13
    Сообщения:
    11
    Репутация:
    4 +/-
    Не вижу сам скрипт, но тем не менее, а не легче забить на этот сайт и парсить с других, если скрипт рабочий? Их ведь полно.
    Про повторы: самое простое - квадратичный перебор. А гугл знает кучку других методов.
    Поэтому юзаю питон и не парюсь с повторами.