31 Кб, 600x400
Есть идея запилить один вебсервис для народа. Суть в том, что буду парсить один из сторонних сервисов, в том числе с авторизацией итд. На селениуме запилить будет намного проще и безопасней (сторонний сервис против парсинга себя). Но насколько селениум ресурсотребователен? Условно 100 потоков одновременного парсинга самописной парсилкой и с использованием селениума насколько сильно отличаться будут? Там ведь целый экземпляр браузера создаётся практически. Подозреваю, что я такое просто не вытяну на хостинге за 500р.
34 Кб, 600x407
>>3452 (OP)
Ахахахаха, аш до слёз сука.
Ты видимо тотальный нуб, потому что сейчас полную лажу сказал.
Во-первых, какой selenium, все нормальные люди используют puppeteer. Он быстрее селениума процентов на 15-20%.
Какой "хостинг за 500 рублей", ты там случайно не перегрелся? Под твой скрапер нужно покупать 4-х ядерный VPS с 8 гигайтами памяти МИНИМУМ. Это чтобы он хотя бы более-менее пахал. И то, даже 4-х ядерный впс максимум держит 4 потока в параллеле (да-да, юный падаван, требователен не селениум, а сам браузер, хром жрёт ресурсы как голодный слон, привыкай).
Под 100 потоков нужно ебанный дата-центр арендовать. Бредятина полнейшая. Короче, за сам хостинг придётся отдавать $40-80 ЕЖЕМЕСЯЧНО. Мы одно время хостились на амазоне и отдавали по $500 в месяц (реалии жизни ботоводов).
Тем более, если ты говоришь, что сторонний сервис против парсинга себя, значит тебе придётся закупить ещё резидентных прокси. Допустим берём smart proxy, добавляй ещё $75 ежемесячно.
Короче, если у тебя нет возможности платить по $100-200 ежемесячно за сервис - можешь даже не рыпаться. Серьёзно. Без вложений там просто нехуй делать. Ах да, ещё по мелочи добавь утечки памяти, и прочие радости.
Тред можно закрывать.
>Условно 100 потоков одновременного парсинга
>На хостинге за 500р
Ахахахаха, аш до слёз сука.
Ты видимо тотальный нуб, потому что сейчас полную лажу сказал.
Во-первых, какой selenium, все нормальные люди используют puppeteer. Он быстрее селениума процентов на 15-20%.
Какой "хостинг за 500 рублей", ты там случайно не перегрелся? Под твой скрапер нужно покупать 4-х ядерный VPS с 8 гигайтами памяти МИНИМУМ. Это чтобы он хотя бы более-менее пахал. И то, даже 4-х ядерный впс максимум держит 4 потока в параллеле (да-да, юный падаван, требователен не селениум, а сам браузер, хром жрёт ресурсы как голодный слон, привыкай).
Под 100 потоков нужно ебанный дата-центр арендовать. Бредятина полнейшая. Короче, за сам хостинг придётся отдавать $40-80 ЕЖЕМЕСЯЧНО. Мы одно время хостились на амазоне и отдавали по $500 в месяц (реалии жизни ботоводов).
Тем более, если ты говоришь, что сторонний сервис против парсинга себя, значит тебе придётся закупить ещё резидентных прокси. Допустим берём smart proxy, добавляй ещё $75 ежемесячно.
Короче, если у тебя нет возможности платить по $100-200 ежемесячно за сервис - можешь даже не рыпаться. Серьёзно. Без вложений там просто нехуй делать. Ах да, ещё по мелочи добавь утечки памяти, и прочие радости.
Тред можно закрывать.
>>3453
Нет, почему же закрывать. Просто теперь стало понятно, что с моим бюджетом мне придётся рисковать и пилить собственную парсилку, которая будет пожирать минимум ресурсов.
Нет, почему же закрывать. Просто теперь стало понятно, что с моим бюджетом мне придётся рисковать и пилить собственную парсилку, которая будет пожирать минимум ресурсов.
>>3455
Нахуя? Вы что, ебанутые? У вас идея фикс - писать парсеры? В 90% случаев парсер не нужен. Проблема решается через API, это будет в миллион раз дешевле, в миллион раз быстрее и в миллион раз надежнее, чем сраный парсер.
Ну нет у тебя денег на кошерный скрапер - ну возьми ты BeautifulSoup, я не знаю... Если совсем уж без реальных браузеров не вариант, тогда https://www.browserless.io/
>пилить собственную парилку
Нахуя? Вы что, ебанутые? У вас идея фикс - писать парсеры? В 90% случаев парсер не нужен. Проблема решается через API, это будет в миллион раз дешевле, в миллион раз быстрее и в миллион раз надежнее, чем сраный парсер.
Ну нет у тебя денег на кошерный скрапер - ну возьми ты BeautifulSoup, я не знаю... Если совсем уж без реальных браузеров не вариант, тогда https://www.browserless.io/
>>3554
В чем проблема? Неасилятор что ли? Или бомж, денег нет на апи?
https://developers.avito.ru
https://www.avito.ru/business/tools/api
https://github.com/topics/avito-parser
В чем проблема? Неасилятор что ли? Или бомж, денег нет на апи?
https://developers.avito.ru
https://www.avito.ru/business/tools/api
https://github.com/topics/avito-parser
>>3452 (OP)
И сразу нахуй таких червей пидарасов.
Весь интернет засрали черти.
> Суть в том, что буду парсить один из сторонних сервисов, в том числе с авторизацией итд.
И сразу нахуй таких червей пидарасов.
Весь интернет засрали черти.
>>3559
Двачую. Заебали уже.
Двачую. Заебали уже.
>>3674
Че за хуйня?
Че за хуйня?
>>3555
Фига, не знал. Все равно твой совет не в тему, так как ОП явно собирается пиздить что-то недоступное легально, поэтому и городит селениумы с проксями и фингерпринтами
Фига, не знал. Все равно твой совет не в тему, так как ОП явно собирается пиздить что-то недоступное легально, поэтому и городит селениумы с проксями и фингерпринтами
>>3899
С витаминами.
С витаминами.
>>3554
Ага, а ещё я умею шутить и общаться на разные темы.
Ага, а ещё я умею шутить и общаться на разные темы.