PvN7S.png70 Кб, 353x405
Что за парсеры работают в группах вкашке? 129834 В конец треда | Веб
Вот допустим какой-то паблик, там чел пишет или употребляет определенные ключевые слова в тексте и тут же активируются какие-то боты, которые дают там свои контакты итд, причем это не всегда боты, там может какая-та гадалка быть или представитель компании(живой) и тут же свои услуги навязывают. Недавно заметил такую фигню еще и на мейл ответах, там если вопрос содержит ключевое слово, то спустя пару секунд приходит бот и дает рекламу по теме вопроса.

Может ли это какой-то готовый продукт быть типо зенки, но специализирующийся на детекте сообщений? На зенку не думаю т.к это слишком громоздкая вещь и сложная, маги всякие и гадалки не освоят работу с ней, а платит баблища такие как сама программа 15к, шаблон для зенопостера 5-10к за штуку для одного ресурса + постоянные отладки из-за изменения стилей всяких внутри кода страницы и мощный комп для того, чтоб тянуть все шаблоны. Какие варианты кроме зенки еще могут быть?
2 129835
>>29834 (OP)
Это не парсеры, а онлайн-сервисы! Платишь 300 рупь каждый месяц и будет тебе мониторинг. Я сам подобный сайт писал. И мне знакомые кодеры присылали ссылку на нечто подобное, точного названия не помню, но самый известный это https://starcomment.io/.

Собственно нихуя сложного или магического в них нет. Идея проста как три рубля - ставишь скрипт на таймер, запускаешь например раз в 5 минут. При запуске загружаешь последние 1000-2000 записей, парсишь на предмет ключевых слов. Есть совпадение? Оповещаешь смской автора. Всё. Там всего-то строчек 200 кода.

Про зеннопостер хуйню сказал нерелевантную. Причем здесь вообще он?
3 129836
>>29834 (OP)

>постоянные отладки из-за изменения стилей всяких внутри кода страницы


Опять же, хуйню несешь. Ничего не нужно парсить, никакие шаблоны, стили и т.д. Есть готовые апи и у mail.ru, и у вконтакте, и у всех остальных.

Легко продемонстрирую как это делается. Открой:
https://otvet.mail.ru/api/v2/questlist?ajax_id=2&n=100&state=A&cat=otvet
Вот так легко я получил последнюю сотню вопросов. И не нужно парсить никакой HTML. Чуть-чуть дорабатываешь цикл for и можно получать любое количество вопросов, хоть 10.000, хоть миллион.

Учи матчасть короче.
4 129837
>>29835

>Собственно нихуя сложного или магического в них нет. Идея проста как три рубля - ставишь скрипт на таймер, запускаешь например раз в 5 минут. При запуске загружаешь последние 1000-2000 записей, парсишь на предмет ключевых слов. Есть совпадение? Оповещаешь смской автора. Всё. Там всего-то строчек 200 кода.


Нет, не так. В вк за 10-30 сек маги и гадалки детектив сообщения и отвечают.
5 129838
>>29836

>Опять же, хуйню несешь. Ничего не нужно парсить, никакие шаблоны, стили и т.д. Есть готовые апи и у mail.ru, и у вконтакте, и у всех остальных.


там есть ограничения на количества запросов, постоянно работать парсер не сможет.
7 129840
>>29837

>Нет, не так. В вк за 10-30 сек маги и гадалки детектив сообщения и отвечают.


Ну какая хуй разница! Я объясняю общий принцип. А как часто они скрипт запускают - раз в секунду или раз в месяц это их личное дело. Тем более мониторить определенную группу или несколько групп труда не составляет. Количество данных - копеечное.

>>29838

>там есть ограничения на количества запросов, постоянно работать парсер не сможет.


Да что ты такое говоришь! В вк ограничение стоит ограничение 20 запросов В СЕКУНДУ! Если только тебе нужна прям миллисекундная реакция... тем более чел выше уже подсказал, у вк есть long poll API, задача ещё упрощается, вк сам будет оповещать, когда появится новый пост.
8 129850
>>29839
заскринь и обведи если хочешь доказать что это не так.
9 129851
>>29840

>А как часто они скрипт запускают - раз в секунду или раз в месяц это их личное дело. Тем более мониторить определенную группу или несколько групп труда не составляет. Количество данных - копеечное.


постоянный мониторинг, я проверял.
10 129854
>>29851

>постоянный мониторинг


Выше уже писал про long polling. Тред можно закрывать.

>>29850

>заскринь и обведи если хочешь доказать что это не так.


Не обводи ничего, пускай идет нахуй. Переубеждать твердолобых баранов, что они неправы - себе же дороже. Захотел бы - нашел всё сам. А тут ОП просто ушел в полное отрицалово, ну и хрен с ним.
11 129880
>>29854

>Не обводи ничего,


пусть обводит
12 129881
>>29880

>пусть обводит


Не буду. Вобще хуй пойму про что спор. Если группа твоя, можно организовать мгновенную реакцию на события, если чужая, то нельзя, придется с некой периодичностью проверять группу на предмет новых событий.
13 129886
>>29881

> Если группа твоя, можно организовать мгновенную реакцию на события, если чужая, то нельзя, придется с некой периодичностью проверять группу на предмет новых событий.


Вот в том то и дело, что маги и гадалки группами этими не владеют, но оповещение о ключевом слове получают мгновенно.
14 129890
>>29886
значит владелец шлет магам и гадалкам уведомления за бабки, а может эти гадалки и есть владелец. Так или иначе, мгновенность может быть инициирована только со стороны вконтакта.
А вобще, с правами доступа надо поточнее разобраться, но это ты уже сам. Может можно присосаться к любой группе.
201606270906417e0b988b5da5a6b465288fcc8f09d374.jpg31 Кб, 480x512
sage 15 129893
>>29886
>>29890
Бля, какие-то долбоебы здесь сидят. Владелец группы шлёт уведомления за бабки? Чего блять? Про что несёте? Элементарно через апи всё делается, не нужно быть никаким владельцем группы. Это простейшая сцуко техническая задача, выше ужё всё детально объяснил. Опять идут "вы всё врёти". Мне в лом писать скрипт, но вы реально какие-то наркоманы и не лечитесь.
16 129894
>>29893

>Владелец группы шлёт уведомления за бабки? Чего блять?


http-запрос блять! Ты реально не понимаешь такой схемы сотрудничества?

>Элементарно через апи всё делается


Опу нужно не просто через апи, а МГНОВЕННО, то есть Callback API или Bots Long Poll API.

>Чтобы начать использовать Callback API, подключите свой сервер в настройках сообщества («Управление сообществом» → «Настройки» → «Работа с API»).


>Чтобы использовать Bots Long Poll API, откройте раздел «Управление сообществом», на вкладке «Работа с API»→«Long Poll API» выберите «Включён».


Хуй его знает, как оно по факту, но в документации написано это.

>не нужно быть никаким владельцем группы


То есть, ты утверждаешь, что «Управление сообществом» → «Настройки» → «Работа с API» доступно любому обмудку? Я такое могу допустить, но че-то нихуя не верится. Проверить не могу, така как нет вконтактика.
17 129895
>>29894
Хотя с другой стороны, нахуя Опу уж прям мгновенно, когда можно раз в секунду заебывать вконтактик на предмет, "а нет ли там чего нового в обсуждении" (метод board.getTopics), и уж если что-то новое появилось, запускать сбор новых сообщений (метод board.getComments) и пихать их в свой анализатор ключевых слов.

Если смысл не в том, чтоб быть самым быстрым ответившим, такая схема вполне подойдет.
18 129896
>>29894

>не просто через апи, а МГНОВЕННО


Тугодум что-ли, тебе объяснили уже, что у вк апи ограничение 20 запросов в секунду или 1 запрос в 50 миллисекунд. Визуально не будет чувствоваться разницы, между long poll api и обычным быстро повторяющимся запросом.

>То есть, ты утверждаешь, что...


Ты жопой читаешь документацию, оба и long poll API и callback API предназначены для действий от имени сообщества. Когда группе нужно отвечать/модерировать сообщения. Через обычный же wall.get можно читать любые сообщения любой открытой группы. И чего ж тебе ещё, собака, надо?

>Ты реально не понимаешь такой схемы сотрудничества?


Наркоман блять, я вызываю санитаров, срочно.
Если ключи давать всяким левыми ботам, соответственно они смогут и всякую хуйню от имени группы писать, и тереть посты какие вздумается.

>>29895
Дааааа, долго же до тебя доходит...
19 129897
>>29896

>объяснили уже


Пришлось перечитать тред, чтоб понять, кто там что объяснял. Да, все было озвучено.

>Если ключи давать всяким левыми ботам, соответственно они смогут и всякую хуйню от имени группы писать, и тереть посты какие вздумается.


Так в этом же и смысл, выдавать не ключи а уведомление. А дальше не ебет левые боты от своего имени работают.
20 129998
>>29890

>значит владелец шлет магам и гадалкам уведомления за бабки


Слушай, мне уже надоели твои попытки доказать свое тупое мнение! Какой блять маг будет кидать бабло в сотни групп, это же тебе не spacex блять.
21 129999
>>29893

>Элементарно через апи всё делается,


Можно в чужой группе мониторить сообщения через API?
14232231181699.jpg92 Кб, 620x465
22 130000
>>29999

>Можно в чужой группе мониторить сообщения через API?


Да похеру, в любой открытой группе можно. АПИ для того и существуют. При определенном скилле можно мониторить весь вконтакт, хоть в комментах к фотографиям рандомных чуваков. Я так реддит мониторил. Часто ID постов формируются по порядку, грубо говоря ID поста 100, за ним идёт 101. Зная начальный ID, можно циклом for откручивать посты на любое число назад. Просто IRL чуть сложнее, может 16-тиричная система использоваться. Но это уже дело техники.
23 130001
>>30000

>ID поста 100, за ним идёт 101. Зная начальный ID, можно циклом for откручивать посты на любое число назад


там всяко есть ограничения на подобную хрень, иначе если каждый начнет прогружать 1кк постов в секунду, то никаких ресурсов у сервера не хватит.
24 130002
>>30001

>есть ограничения на подобную хрень


Читай начальные посты треда, уже всё разжевывал. Не люблю по 10 раз объяснять. Даже если в день публикуют миллион записей, в одних сутках 1440 минут. Делим на 1440, в минуту выходит не так много, всего лишь 694 записей. Допустим, на API стоит ограничение - 100 записей/запрос. Тебе нужно за минуту сделать всего лишь 7 запросов в цикле for. Обычный curl_multi_init делаешь и он в параллеле несколько запросов шлет.
https://www.php.net/manual/en/function.curl-multi-init.php

Я делал такое кучу раз. Самый дохлый vps с 512 мб оперативки до 10-100 миллионов сообщений может пропарсить. Ограничения на апи не релевантны, т.к. они обычно налагаются на количество запросов в минуту, а не на общее количество вызовов.
25 130003
>>30002

>Я делал такое кучу раз. Самый дохлый vps с 512 мб оперативки до 10-100 миллионов сообщений может пропарсить. Ограничения на апи не релевантны, т.к. они обычно налагаются на количество запросов в минуту, а не на общее количество вызовов.


Если админ группы против давать кому-то парсить свой контент через API, то все равно можно?
26 130004
>>30003

>Если админ группы против


Бля, а что ты сделаешь? Парсинг всегда делается незаметно, ты никогда не узнаешь, если кто-то мониторит твою группу. Да и контент - не лично твой, технически всё что попадает в соцсеть, является собственностью самой соцсети. Об этом наверняка где-то упомянуто мелким шрифтом, который никто не читает.
124353245.JPG36 Кб, 609x634
27 130016
>>30004
Вот вчера создал тему в местном паблике со словом "гадалка" и через час в нем начали отписывать маги, а админ их тут же банил.

Если через API можно мониторить чужую группу, то как с токенами быть? Там же токен нужно получить на такое дело.
28 130017
Вот этот пидорсы https://vk.com/id566509142 и https://vk.com/id603485374

мониторят хуй знает сколько групп по ключевым словам и отписывают там
29 130018
>>30017
т.е один из них делает вид, что воспользовался услугами мага и остался доволен.
30 130025
>>30016

>то как с токенами быть?


Ты сейчас серьезно? На дваче что, одни тугодумы сидят? Это вообще секундное дело, делается в три клика. Открываешь https://vkhost.github.io/, тыкаешь vk api, тыкаешь разрешить. Заебал ты уже, остается только сам скрипт написать. И то блять ты не поверишь, скажешь это через zennoposter сделано.
31 130027
>>30025

>тыкаешь vk api, тыкаешь разрешить


объясни нормально, это действие нужно чтобы разрешить кому-то что-то делать с API своей группы?
32 130028
>>30027

>это действие нужно чтобы разрешить кому-то что-то делать с API своей группы?


Пиздец нахуй. Не тугодум, а тугодумище. API привязан к пользователю! Вот ты Иванов Иван Иваныч, через API тебе позволено делать всё то же, что позволено Иванову Ивану через обычный интерфейс - смотреть группы, слать сообщения от своего имени, если твой профиль Иванова Ивана банят в группе, соответственно бот не сможет читать сообщения. Или если группа огороженная. А если ты в группе модером, соответственно у твоего бота тоже будут права модера. У кого что просить, не пойму? Токен всего один блять! Один сука токен на один аккаунт ВК. Или один токен на одно сообщество ВК. Единственное препятствия - сами правила ВК, пункт 2 "Работа с данными", мониторя вкашные группы, ты обкрадываешь вконтакт. Так как вк хочешь, чтобы ты заносил денюжку за рекламу. А так как денежку ты не заносишь, то и по головке тебе скорее всего не погладят...
2020-11-0302-29-04.jpg131 Кб, 1603x905
33 130092
>>30028
ебать у тебя жопу рвет, схуя ли ты от гадалки ожидаешь понимание предметной области программиста?

Кстати, вот я на зеннопостере парсер сделал, ну и где твой бог теперь?
2d3ce52531424708c8861b1ca0d88b98.png856 Кб, 735x1100
34 130094
>>30092
Рил программист не будет шквариться обо всякие зеннопостеры. Я просто своим методами делаю и всё. Что-ж, сделал... значит держи конфетку с полки. Хм, интересно. Не знал, что так можно. Тем не менее, это вся красота работает только когда комп с зеннопостером включен, в то время когда скрипт можно залить на сервер и он будет работать 24/7.
35 130110
>>30094
Для прототипирования самое то, но парсер непосредственно wall.get я доделал уже на пыхе.

>в то время когда скрипт можно залить на сервер и он будет работать 24/7


Зену тоже можно, только сервера на винде дорогое удовольствие.
36 130222
>>30092
ты с применением программирования сделал, а теперь сделай это чисто на блоках этих встроенных.
37 130223
>>30110

>Зену тоже можно, только сервера на винде дорогое удовольствие.


И под зену там сервак за 5к минимум наверное нужен.
38 130229
>>30222

>ты с применением программирования сделал, а теперь сделай это чисто на блоках этих встроенных.


На самом деле, все эти блоки лишь обертка над C#, так что, чтоб я ни делал, все равно получится трансляция в код.
Но в конкретно этом случае я не написал ни одной строчки кода, если не считать SQL, но это скорее к вопросу об организации хранения данных.

>И под зену там сервак за 5к минимум наверное нужен.


пару гектар памяти и ядро процессора на ОС и простенький парсер хватит =) Хотя, одному чуваку я как-то делал многопоточную систему обработки данных на серваке с 128ГБ памяти и каким-то процем с ебическим количеством ядер. Загрузили лишь на треть, остальное осталось про запас.
39 130295
>>29896
как сделать перебор сообществ?
без рофлов, вот я выяснил, что их 520к.
Условно я хочу перебирать их все на наличие на их стенах определенных постов, мне айдишники по порядку гонять или как их перебрать?
40 130308
>>30295

>как сделать перебор сообществ?


Если нет навыков программирования - никак.

>Условно я хочу перебирать их все на наличие на их стенах определенных постов, мне айдишники по порядку гонять или как их перебрать?


В порядке очереди с выбыванием из очереди давно мертвых айдишников (последний пост более N лет назад).
41 130309
>>30308
Навыки есть, на пожилом питоне, но тем не менее.

Например,
делаю wall.get паблика с айди = 1 пока стена не закончится
в этом говне среди айди юзеров ищу нужный мне.
Затем паблик с айди = 2 и так далее.
Плюс перед этим поставить проверку, чтобы ласт пост был недавно.

Верно? Как-то слишком в лоб получается.
Спасибо за ответ.
42 130310
>>30295
>>30309
Не спец по ВК апи, но то, что ты говоришь - жутко неоптимально. Зачем тебе знать количество групп? В ту секунду когда ты пишешь, их может быть стало уже 521 тысяча. Используй вкшный метод groups.search. Не вижу смысла перебирать, если есть уже готовый метод search.

Даже когда мне требуется сделать перебор по чему-либо, я почти всегда раскладываю по партиям, максимум сколько API позволяют. Например, в одном запросе 100 сообществ. Типа через запятую 1000,1001,1002,1003,1004,... если результаты пагинируются, можешь в рекурсии забирать следующую страницу, пока всё не исчерпаешь.

Так ты трафик экономишь, если ты все по одному будешь перебирать, тебя давно админы хостинга переебошат банхаммером. Либо сам вконтакт. Короче не изобретай велосипеды - если есть готовый метод search - бери его. Перебор только в крайнем случае следует использовать.
43 132729
Как раз недавно сделал такую залупу, суть такая, задаёшь строку поиска, например маги и колдуны, и дальше получаешь все группы пользователь обсуждения в группах, и после этого начинаешь искать что тебе нужно, в моем же случае я просто спамлю в группы и обсуждения с нужными мне ключами. Могу поделится так как в полную мощность свои есурсы не использую, пиши если интересно.
44 132802
>>30092
Никогда не понимал - зачем изучать этот всратый зеннопостер и его скриптинг, если можно сразу взять нормальный современный ЯП? Гораздо полезнее будет же - можно ведь не только парсеры писать, а и те же сайты, ботов и прочую веб, и не очень, хрень. Можно даже свой двач заебенить.
45 138675
>>29834 (OP)

>тыкаешь vk api, тыкаешь разрешить.


заебал ты не составляет.
количество данных - раз в соцсеть, является собственностью самой соцсети.
об этом же до 10-100 миллионов сообщений может пропарсить.
ограничения на
Обновить тред
« /web/В начало тредаВеб-версияНастройки
/a//b//mu//s//vg/Все доски

Скачать тред только с превьюс превью и прикрепленными файлами

Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах.Подробнее