Бред


Ответить в тред Ответить в тред

Check this out!
<<
Назад | Вниз | Каталог | Обновить тред | Автообновление
55 3 11

Аноним 07/11/19 Чтв 21:50:27 2069949701
images.png (3Кб, 247x83)
247x83
Анон, прошу помоги! Есть один форум, пытаюсь его спарсить уже второй месяц, а он меня палит и блочит доступ. Ставил платную проксю (анонимную), пытался через Тор, vpn, все без толку. Объясни дураку как у них этот самый механизм защиты организован, что он палит так? Тонны нефти за любую помощь...
Аноним # OP 07/11/19 Чтв 21:50:59 2069950012
forums.wood.ru
Аноним # OP 07/11/19 Чтв 21:51:25 2069950333
Аноним # OP 07/11/19 Чтв 21:51:46 2069950594
Аноним 07/11/19 Чтв 21:55:00 2069953045
Аноним 07/11/19 Чтв 22:01:45 2069957866
Аноним # OP 07/11/19 Чтв 22:02:31 2069958397
>>206995304
Юзер агенты тоже менял, бесполезно
Аноним 07/11/19 Чтв 22:07:56 2069962018
Фингерпринтинг. Меняй также браузер и размер экрана хотя бы.
Аноним 07/11/19 Чтв 22:08:24 2069962409
И еще загугли про суперкуки, наверняка у тебя такое в пеке сидит.
Аноним # OP 07/11/19 Чтв 22:20:17 20699706810
>>206996201
Смена браузера не особо помогает, когда тебя уже с одного ip спалили. А вот если прокся попалась годная, то там уже и без разницы с чего парсить. Вопрос в том, каким образом реализовать обход механизма, смысл которого я не улавливаю. Скриптом палит, Селениум после сбора с двух страниц форума тоже палятся. Пробовал привокси - хуета без задач, Тор по определению со своими выходными нодами в черном списке. Короче Анон, спасай, я не знаю как быть
Аноним 07/11/19 Чтв 22:35:03 20699806911
Аноним 07/11/19 Чтв 22:36:16 20699815212
Аноним 07/11/19 Чтв 22:38:31 20699829313
>>206997068
Я лазаду парсил, там селениум палился по внутреннему параметру, который через js был зашит в драйвер браузера.

Надо было убирать в коде драйвера эту хуергу, тогда давал капчу проходить спокойно, а так ошибку выкидывал
Аноним # OP 07/11/19 Чтв 22:39:51 20699838814
>>206998293
Тут проблема в том, что если этот форум тебя спалил, то доступа к нему больше нет. Тупо не можешь войти на страницу, либо пустой результат
Аноним 07/11/19 Чтв 22:40:16 20699841315
Аноним 07/11/19 Чтв 22:41:32 20699849216
Аноним # OP 07/11/19 Чтв 22:42:24 20699853417
>>206998492
Спасибо. Принял. Попробуй сам на него зайти и походи по тематикам туда сюда. Заблочит

Абу благословил этот пост.
Аноним 07/11/19 Чтв 22:44:00 20699862318
>>206998534
То есть им в принципе пользоваться нельзя нормально?
Меня даже с первого раза не пускает, тайм-аут соединения через минуту ожидания запроса.
Но я с публичного ip сижу
Аноним # OP 07/11/19 Чтв 22:45:02 20699868119
>>206998623
В том то и дело, что можно. Он так блочит
Аноним 07/11/19 Чтв 22:46:21 20699876420
>>206998623
Видимо этот ip у него в черном списке
Аноним 07/11/19 Чтв 22:47:02 20699881521
>>206998534
я конечно не супер кодер, но может взять кучу бекконнект прокси и кучу потоков с кучей задержек между запросами? И блять заморочится не скриптами а хуй знает, хуман эмулятором или как его блять, зеннопостером.
Аноним 07/11/19 Чтв 22:48:42 20699891522
>>206998681
Ну попробуй айпи сменить, в хроме новый профиль создай и в драйвере хуйню из навигатора убери, запусти это в селениуме и глянь, блочит ли.

С мобильного интернета потыкать разделы, вроде просто без основания не блочит
Аноним 07/11/19 Чтв 22:49:21 20699895423
>>206994970 (OP)
делей поставить на запросы никак? обычная защита от дудос
Аноним 07/11/19 Чтв 22:50:10 20699900024
>>206998954
Делеи не спасет, братюнь. Уж поверь
Аноним 07/11/19 Чтв 22:51:36 20699909725
>>206999000
Я тоже думаю, не в делее проблема, а в фингерпринтах
Аноним # OP 07/11/19 Чтв 22:51:52 20699911726
>>206998915
Все понял, кроме хуйни из навигатора. Можно подробнее плиз, может годная идея
Аноним 07/11/19 Чтв 22:52:44 20699917327
Аноним # OP 07/11/19 Чтв 22:58:52 20699959628
Бамп
Аноним 07/11/19 Чтв 22:59:03 20699961229
>>206999117
Ну ебаный в рот, я только комп выключил.

Я столько с этим ебался, на поверишь. Поищи в Гугле chrome selenium navigator.webdriver и тебе нужен код на перле с регуляркой, который изменит тебе переменную в драйвере

Почитай вот это ещё, тоже полезно может быть.
https://intoli.com/blog/not-possible-to-block-chrome-headless/
Аноним # OP 07/11/19 Чтв 22:59:43 20699965530
Аноним 07/11/19 Чтв 23:00:33 20699970231
>>206999612
А вообще, не поленился комп включить
Вот ссылка на мой код на пистоне

pastebin.com/aXLf2PGA
Аноним # OP 07/11/19 Чтв 23:02:35 20699986432
>>206999702
ванную, что твое решение - годное
Аноним 07/11/19 Чтв 23:03:16 20699991433
image.png (349Кб, 1920x1080)
1920x1080
>>206999000
>>206995001
хз как ты парсишь, помойму он нихуя не блочит
>forums.wood.ru
Аноним 07/11/19 Чтв 23:05:23 20700011234
>>206999864
А, ну блядь, тебе ещё надо код из статьи использовать.

Регуляркой ты патчишь драйвер, чтобы убрать read-only с этого свойства.
Эта залупа все равно ставится в тру будет.
Ее надо будет просто на false поменять
Аноним 07/11/19 Чтв 23:07:26 20700024435
>>207000112
А нет, не просто фолс ставить.

Нужно js код вызвать "delete navigator.__proto__.webdriver". У меня иначе не работало
Аноним 07/11/19 Чтв 23:09:05 20700034336
>>206999914
Ну нихуя себе, приколы блядь. Так можно было?
Аноним 07/11/19 Чтв 23:09:34 20700037337
>>206999914
Так вот я и говорю, что не за количество запросов блочат, а на другом он палился
Аноним # OP 07/11/19 Чтв 23:10:56 20700044338
Я полагаю мой скрипт, часто страницы дёргал туда сюда. Одну откроет, потом следующую и так далее. Попробуй в своем скрипте на js также
Аноним 07/11/19 Чтв 23:15:02 20700066439
Но вопрос с навигатором очень даже актуален, стоит только взглянуть в исходный код страницы форума. В теге script эта байда присутствует
Аноним 07/11/19 Чтв 23:15:37 20700070540
image.png (372Кб, 1920x1080)
1920x1080
Аноним 07/11/19 Чтв 23:16:22 20700075441
>>207000705
Лол. Ты кодировку видел?
Аноним 07/11/19 Чтв 23:23:16 20700113342
>>207000705
Я не ОП, но тоже интересно как там пофиксить кодировку в результате fetch
Аноним 07/11/19 Чтв 23:25:45 20700128143
>>207001133
Да никак. Они спецом windows1251 ебанули, при чем хитровыебаным образом. Там либо с русских проксей надо заходить, либо как анон выше, но ебаться с декодированием, что такое себе
Аноним 07/11/19 Чтв 23:27:06 20700134744
>>207000705
Блэт, я думал, вы через прогу на Джабе или C# гоняете запросы, там, специально меняете User Agent или что-то еще, а вы из браузера. Пиздец.
Аноним # OP 07/11/19 Чтв 23:28:45 20700141945
>>207001347
Да. Прости. Но мне все способы хороши, если поможешь понять как они палят. Я уже даже забил на парсинг, я просто понять хочу. К слову нашел на одном форуме в 12 году такой же вопрос с этим же форумом, так и не решили
Аноним 07/11/19 Чтв 23:31:04 20700152946
Аноним 07/11/19 Чтв 23:31:37 20700155247
>>207001419
Ну тащемта на более низкоуровневом языке можно редактировать абсолютно все параметры, поэтому я и подумал, что так и делаете.
Аноним 07/11/19 Чтв 23:33:11 20700161448
>>207001552
Ага на Асм с байтами ебемся. Сделаешь на сях, я тебе скажу респект и уважуха, но нахуя?
Аноним # OP 07/11/19 Чтв 23:34:39 20700168349
>>207001529
Ладно. Короче /thread ? Вопрос с парсингом закрыт, но механизм серверной блокировки я так и не раскрыл для себя
Аноним 07/11/19 Чтв 23:36:53 20700179750
>>207001683
я ж тебе сказал делей ставь, по запросу в секунду из браузера нихуя не будет, после 10 тыщ за секунду он кикает 4 раза, что скрипт слетает, на 5 раз банит
Аноним 07/11/19 Чтв 23:44:15 20700218751
>>206994970 (OP)
Заходи в Точку Сбора, там наверняка помогут. @netstalking в тг
Аноним # OP 07/11/19 Чтв 23:45:29 20700225652
Аноним 08/11/19 Птн 00:05:35 20700337353
Аноним 08/11/19 Птн 00:14:35 20700386254
напишите им что вас взломали
Аноним 08/11/19 Птн 00:23:02 20700427255
Аноним 08/11/19 Птн 00:29:08 20700452056
>>207004272
там типа быдло палит свои телефоны, можно их поставить на робообзвон и предлагать пройти бесплатное медицинское обследование в частной клинике в городе москва
Настройки X
Ответить в тред X
15000 [S]
Макс объем: 20Mб, макс кол-во файлов: 4
Кликни/брось файл/ctrl-v
X
Ваш шидевор X
Стикеры X
Избранное / Топ тредов