Анон, прошу помоги! Есть один форум, пытаюсь его спарсить уже второй месяц, а он меня палит и блочит доступ. Ставил платную проксю (анонимную), пытался через Тор, vpn, все без толку. Объясни дураку как у них этот самый механизм защиты организован, что он палит так? Тонны нефти за любую помощь...
>>206996201Смена браузера не особо помогает, когда тебя уже с одного ip спалили. А вот если прокся попалась годная, то там уже и без разницы с чего парсить. Вопрос в том, каким образом реализовать обход механизма, смысл которого я не улавливаю. Скриптом палит, Селениум после сбора с двух страниц форума тоже палятся. Пробовал привокси - хуета без задач, Тор по определению со своими выходными нодами в черном списке. Короче Анон, спасай, я не знаю как быть
>>206997068Я лазаду парсил, там селениум палился по внутреннему параметру, который через js был зашит в драйвер браузера.Надо было убирать в коде драйвера эту хуергу, тогда давал капчу проходить спокойно, а так ошибку выкидывал
>>206998293Тут проблема в том, что если этот форум тебя спалил, то доступа к нему больше нет. Тупо не можешь войти на страницу, либо пустой результат
>>206998492Спасибо. Принял. Попробуй сам на него зайти и походи по тематикам туда сюда. ЗаблочитАбу благословил этот пост.
>>206998534То есть им в принципе пользоваться нельзя нормально?Меня даже с первого раза не пускает, тайм-аут соединения через минуту ожидания запроса.Но я с публичного ip сижу
>>206998534я конечно не супер кодер, но может взять кучу бекконнект прокси и кучу потоков с кучей задержек между запросами? И блять заморочится не скриптами а хуй знает, хуман эмулятором или как его блять, зеннопостером.
>>206998681Ну попробуй айпи сменить, в хроме новый профиль создай и в драйвере хуйню из навигатора убери, запусти это в селениуме и глянь, блочит ли.С мобильного интернета потыкать разделы, вроде просто без основания не блочит
>>206999117Ну ебаный в рот, я только комп выключил.Я столько с этим ебался, на поверишь. Поищи в Гугле chrome selenium navigator.webdriver и тебе нужен код на перле с регуляркой, который изменит тебе переменную в драйвереПочитай вот это ещё, тоже полезно может быть.https://intoli.com/blog/not-possible-to-block-chrome-headless/
>>206999864А, ну блядь, тебе ещё надо код из статьи использовать.Регуляркой ты патчишь драйвер, чтобы убрать read-only с этого свойства.Эта залупа все равно ставится в тру будет.Ее надо будет просто на false поменять
>>207000112А нет, не просто фолс ставить.Нужно js код вызвать "delete navigator.__proto__.webdriver". У меня иначе не работало
Я полагаю мой скрипт, часто страницы дёргал туда сюда. Одну откроет, потом следующую и так далее. Попробуй в своем скрипте на js также
Но вопрос с навигатором очень даже актуален, стоит только взглянуть в исходный код страницы форума. В теге script эта байда присутствует
>>207001133Да никак. Они спецом windows1251 ебанули, при чем хитровыебаным образом. Там либо с русских проксей надо заходить, либо как анон выше, но ебаться с декодированием, что такое себе
>>207000705Блэт, я думал, вы через прогу на Джабе или C# гоняете запросы, там, специально меняете User Agent или что-то еще, а вы из браузера. Пиздец.
>>207001347Да. Прости. Но мне все способы хороши, если поможешь понять как они палят. Я уже даже забил на парсинг, я просто понять хочу. К слову нашел на одном форуме в 12 году такой же вопрос с этим же форумом, так и не решили
>>207001419Ну тащемта на более низкоуровневом языке можно редактировать абсолютно все параметры, поэтому я и подумал, что так и делаете.
>>207001529Ладно. Короче /thread ? Вопрос с парсингом закрыт, но механизм серверной блокировки я так и не раскрыл для себя
>>207001683я ж тебе сказал делей ставь, по запросу в секунду из браузера нихуя не будет, после 10 тыщ за секунду он кикает 4 раза, что скрипт слетает, на 5 раз банит
на оп, пофиксил твои блокировки и заодно кодировкуfor (var i = 1; i<2;i++){fetch("https://translate.google.com/translate?hl=en&sl=ru&tl=en&u=http%3A%2F%2Fforums.wood.ru%2Fshowthread.php%3Fthreadid%3D"++i+"&anno=2").then(response => response.text()) .then(data => console.log(data))}
>>207004272там типа быдло палит свои телефоны, можно их поставить на робообзвон и предлагать пройти бесплатное медицинское обследование в частной клинике в городе москва