16360908453-papik-pro-p-vkontakte-logotip-foto-3.jpg71 Кб, 1920x1200
Парсер видео VK 3618023 В конец треда | Веб
Есть очень давнее желание для себя сделать программу, которая будет парсить видео VK по профилям пользователей.
Меня интересуют только загруженные пользователями "личные" видео, давностью 10-20 лет.

Т.е условно идея такая. Я задаю перечень юзеров, которых хочу пропарсить - например, Школа такая-то, год выпуска 2009-ый.
И прога прогоняет всех юзеров, скачивает базу по видосам - инфа и превьюхи, прикрепленных к их профилям (которые открыты).

Вопрос-проблема - как из тонны говна выделить именно те видео, которые являются "личными", т.е где снимали на вписках, в классе/школе, на прогулке, клубе и т.д.
99.99% видосов будут одинаковые повторы мемов, музыкальных клипов и т.д.

Вот нужно их как-то отсеять. Ещё нужно учитывать, что есть вкладка "Добавленные" видео, но туда попадают далеко не все. Часто в то время кто-то из друзей загружал видео, а другие добавляли их к себе, но они попадали в общую закладку со всем остальным мусором, а не в личную закладку. И сама закладка "Добавленные" появилась не сразу вконтакте, и те видео, что были загружены ранее - в неё не попадают.

Есть идеи? У меня только одна пока идея - каким-то образом хэшировать и сравнивать превьюшки - и если одна и та же превьюшка часто втречается, то считать видео мусором. А редко встречающиеся превьюхи - отбирать вручную.
# OP 2 3618027
Ну и вообще, какие подводные камни встретятся?
Пока самый очевидный для меня - это постоянные капчи, проверки на бота и т.д. Вопрос в том, насколько часто это говно будет вылазить, и получится ли вообще так массово парсить видосы?

Уточню, речь именно о vk.com, а не vkvideo. В профилях пользователей есть раздел "Видео", с vkvideo он связан, но лишь частично.

Или идея совсем утопическая?
3 3618170
>>618023 (OP)
>>618027
Парсить много страничек юзеров и смотреть в их видео... Тебя как бота забанят очень быстро. Будешь с капчей дрочиться постоянно как минимум.

Насчет видео, наверное можно посмотреть на разные метаданные, вдруг там нужная инфа есть. Вдруг есть какой-то атрибут, который отличает лично загруженное видео от добавленных из пабликов мдк. А так да, сначала по превьюхам фильтровать, может быть еще как-то по названию можно.

Но чтобы полностью автоматически это сделать нужно ML модели будет запускать, которые будут классифицировать превьюху+название+само видео. Причем ML моделей готовые вряд ли есть, придется самому пердолиться. Лучше у нейронок спроси как эту задачу классификации можно решить при помощи машинного обучения. Вдруг есть какие-то отдаленно похожие решения (не для VK, а в целом по классификации видео).

Плюс большая часть профилей и групп давно закрыта. Я хз что сейчас можно в вк выловить. А так конечно с точки зрения истории и социологии возможно это будет очень ценный набор данных.
4 3618569
>>618023 (OP)
Тебе вк не даст соскрапить такую бд
5 3705693
И чо как парсится, я как пользователь то хуй знает как этим всем великолепием пользоваться под названием вквидео, они просто вроде взяли и выпилили мою коллекцию роликов, ща гляну
6 3705695
Глянул, не, плейлисты имеются, тока вот попытался глянуть чьи-то видосы, теперь вроде такой функции в вк тупо нет, лол или я чото не понимаю, ну надо смотреть в сторону вк апи наверное, там не исключено, что и можно, раньше то точно чужие видики смотреть можно было это чуть ли не главная фишка вк была
Обновить тред
« /pr/В начало тредаВеб-версияНастройки
/a//b//mu//s//vg/Все доски

Скачать тред только с превьюс превью и прикрепленными файлами

Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах.Подробнее