Это копия, сохраненная 11 апреля 2021 года.
Скачать тред: только с превью, с превью и прикрепленными файлами.
Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах. Подробнее
Если вам полезен архив М.Двача, пожертвуйте на оплату сервера.
Я ничего не понимаю, что делать?
Вкатывальщики импортят slesarplow as sp по туториалам (хотя сейчас актуальнее pytorch)
Толковые качают из репозитория awesome-XXXX на гитхабе проект какого-то китайца, меняют фамилию и получают $10M инвестиций как стартап.
Умные смотрят prerequisites на https://see.stanford.edu/Course/CS229 и http://cs231n.stanford.edu/
Остальные сидят ИТТ
Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus
Как работает градиентный спуск?
https://cs231n.github.io/optimization-2/
Почему python?
Исторически сложилось
Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет
Что почитать для вкатывания?
http://www.deeplearningbook.org/
Николенко "Глубокое обучение" - на русском, есть примеры, но меньше охват материала
Франсуа Шолле - Глубокое обучение на Python
В чем практиковаться нубу?
http://www.deeplearning.net/tutorial/
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials
Где набрать первый самостоятельный опыт?
https://www.kaggle.com/ | http://mltrainings.ru/
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел
Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой
Где узнать последние новости?
https://www.reddit.com/r/MachineLearning/
http://www.datatau.com/
https://twitter.com/ylecun
На реддите также есть хороший FAQ для вкатывающихся
Где посмотреть последние статьи?
http://www.arxiv-sanity.com/
https://paperswithcode.com/
https://openreview.net/
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных?
http://ods.ai/
Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь
На сентябрь 2020 ждем 30хх серию в магазинах и падение цен на 20xx на авито, /hw/ в помощь
Когда уже изобретут AI и он нас всех поработит?
На текущем железе - никогда, тред не об этом
Кто нибудь использовал машоб для трейдинга?
Никто не использовал, ты первый такое придумал. Готовь камаз для бабла.
Список дедовских книг для серьёзных людей:
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: http://libgen.io/
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
> matrix calculus
Линейная алгебра и есть.
> Почему python?
> Исторически сложилось
Индусам в ПТУ больше ничего не преподают.
> Senior Director of Data Science X5 Retail Group
> Engineering Manager ML RnD Yandex
> Head of AI Lab Facebook
> Рандомный зумер вкатывальщик без задач
Больше других баззвордов выучил?
> знаешь, что такое сигма и перевёрнутая А - джун
> знаешь импорт слесарьплов - мидл
> знаешь больше половины модных баззвордов - senior pizdabol na dvache
Если прям сильно завидуешь, напиши в лондонскую полицию, что он анаболики через границу везет. Слишком большой для работающего натурала. У него не должно оставаться много времени на качалку... Или он просто пиздаболит целый день, а потом идет на треньку?
>он просто пиздаболит целый день
Учитывая сколько "тренингов" в неделю он проводит я бы не удивился.
В курсе линейной алгебры рассказывают про матричные производные?
>Бангалорские негры что, вручную подбивали сделали 900 сабмитов, пока не достигли 1.0? Это прямо какой-то особый вид сексуальных девиаций.
Не обязательно вручную, можно же вообще сервис краудсорсинговый написать. В каких-то соревнованиях по бинарной классификации без прайвата так и сделали вроде бы.
Интересно, существует ли более оптимальный алгоритм, чем менять стейт по одному и заливать на тест
>Какую лабу/подразделение посоветуете?
Советую прикладную геометрию и топологию на КС ВШЭ, единственный незашквар среди всей "машинки".
Да много чего можно придумать, скорее всего всё сложнее было, можно начинать не с нуля а с какого-то бейзслайна разумного например итд
Другое дело зачем всё это надо, ты в машинлёрнинг хочешь научиться или рейтинг среди индусов задрочить?
> Слишком большой для работающего натурала. У него не должно оставаться много времени на качалку...
У него и на три работы времени не должно было быть и на взятие кэгл мастера. Но такие топ тиер специалисты умеют в тайм менеджент.
Шварценеггер успевал в колледж ходить, на стройке работать и в качалке сидеть каждый день.
Как же инцелки итт горят от бэбуша, любо дорого
https://www.youtube.com/watch?v=jnlx6j7HEaE
Вот, мотайте на ус, стремитесь к успеху
>новый
Плохо ты данные обрабатываешь. Но вообще последнее время какой-то пиздец, у меня весь ютуб вместо привычных TOP 10 EMBARRASSING ANIME SCENES этим чертом завален.
Да.
Не нужно.
Блядь в чём ваша проблеме, питон учится за 10 минут он максимально для этого и сделан в ущерб всему остальному
Выучить базовый синтаксис питона ~= выучить питон
Обучай на питуне, импортируй в OpenCV / ONNX и.т.д.
> просто любопытно что матёрые эйайщики думают о ML.NET?
1. С чего ты взял что они тут матёрые?
2. С чего ты взял что совет матёрых практиков будет полезен тебе? Они в своем мире живут. Там нет млнет.
Есть те, кто не из программистов перекатился в Data Science?
Сам сколько занимаюсь этим, все больше понимаю, что вроде бы ничего сложного, но при этом ощущение, что я тупой именно в IT, и что я могу написать работающий алгоритм и обработать данные, но при этом если понадобиться написать какой-нибудь простой скрипт, не связанный непосредственно с данными, то сяду в лужу. Насколько критично? На сколько важно знать SQL и как долго/сложно его учить? Вообще, какая обстановка в таких отделах, например, в банках? Ебут и увольняют сразу если что-то не знаешь или как-то полояльнее? Новая же относительно специальность и по идее почти все в ней новички.
никак. на заводе работаю.
> Есть те, кто не из программистов перекатился в Data Science?
> Сам сколько занимаюсь этим, все больше понимаю, что вроде бы ничего сложного,
Сколько?
Допустим, дадут тебе несложную работу чистить вилкой данные, но как ты будешь понимать конечную цель и процесс, чтобы почистить данные хорошо?
>не из программистов перекатился в Data Science
Impossible. Либо на старших курсах идешь стажёром, либо уже опытным программистом перекатываешься на проект с датасаенсом.
>Сколько?
С конца прошлого года
>Допустим, дадут тебе несложную работу чистить вилкой данные, но как ты будешь понимать конечную цель и процесс, чтобы почистить данные хорошо?
Допустим данные уже в формате csv. Сначала я посмотрю их размер, начало, конец, уберу всякую хуйню типа важных пояснений и тд. Затем методом из seaborn посмотрю где пропущенные значения и сколько их. Затем буду их заполнять(в зависимости от того какой признак, либо буду ставить среднее значение, либо моду, либо выведу в отдельный признак-столбец).
Затем в принципе буду изучать, что за признаки и скорее всего поудаляю некоторые. Затем буду кодировать категориальные(словесные) признаки. Если значений всего два, то использую LabelEncoder, если больше двух, то OneHotEncoder, чтобы не создавать у алгоритма иллюзию, что это ряд чисел. Затем нормализую все остальные столбцы MinMaxSciler-ом, хотя последнее не всегда нужно. Затем приду и скажу "я сделаль"
Какая ситуация на рынке труда вообще?
>долбоебов которые чего-то там на корсере прошли и способны чистить вилкой датасеты
такие сейчас никому не нужны
>только из IT
да, или топовые студенты норм вузов
>30+ долбаеб
отлетаешь на скрининге резюме
>Какая ситуация на рынке труда
Пизда рулю https://habr.com/ru/company/mailru/blog/511104/
Через работу в стартапе, или опенсоурсе проекте ещё
> Допустим данные уже в формате csv.
Сразу нет.
>Затем буду их заполнять(в зависимости от того какой признак, либо буду ставить среднее значение, либо моду, либо выведу в отдельный признак-столбец).
Так среднее или признак? Это зависит от модели.
> Затем в принципе буду изучать, что за признаки и скорее всего поудаляю некоторые.
Какие? Это зависит от модели
>Затем буду кодировать категориальные(словесные) признаки. Если значений всего два, то использую LabelEncoder, если больше двух, то OneHotEncoder, чтобы не создавать у алгоритма иллюзию, что это ряд чисел.
Не для этого. Если ты не понимаешь в нейронках, ты не знаешь почему он нужен
> Затем нормализую все остальные столбцы MinMaxSciler-ом, хотя последнее не всегда нужно.
А когда нужно? Это зависит от модели .
> Затем приду и скажу "я сделаль"
Ничего полезного не сделал.
Я так понял ты пару бесплатных заманух от skillbrain и тд посмотрел.
Да. Датасаентисты всем этим занимаются, но для модели. Осознанно.
Тебе скажут "мда ебать ты дебил канешн", сами сделают import lgbtclassifier и скормят ему csv-файл в две строки, выкинув ненужные признаки. Причем обработка категориальных признаков и пропущенных значений там уже будет лучше чем у тебя.
Ну а потом такого гения посадят на месяц размечать данные.
ты сам-то какой масти будешь?
>Если значений всего два, то использую LabelEncoder
LabelEncoder кстати не для обработки входных данных X предназначен, а для y. Если будешь в pipeline его встраивать для обработки X, то будет падать с ошибкой. Для X используют OrdinalEncoder.
>>33421
>>33412
>>33373
>>33371
Вот живу в мухосрани в миллионике. Работаю инженером-конструктором, самому 32 лвл. Зарплата 45к, мало. С конца прошлого года с перерывами занимаюсь Data Science. Думал, придрочусь немного, возьмут на джуна, и те же сраные 45к будут платить, зато перспектив куда больше. Теперь мне по специальности уже 60к предлагают, может даже на 65к получится. Для нашей мухосрани - ебать успех, однако это же скорее всего и потолок.
Но меня гложит, что вот старался, занимался, вроде даже чего-то понимать стал, и уйти на 60к снова инженером - это как бы поражение признать. Да и заебали эти железяки не тянуло к ним никогда.
Как Data Sientist я - полная макака, у меня несколько тетрадей с конспектами с корсеры и Леонардыча(Вадим Аббакумов, сам кстати из преподов ушел в Data Sience, хотя ему уже лет 60, но он дохуя математик ). Пишу код обложившись тетрадками и копирую куски кода из своих-же предыдущих работ, на память помню мало, голова на основной работе и так нагружена. Сам освоил numpy, pandas, matplotlib. Могу при помощи keras написать нейросеть прямого распространения. Сидел ковырял датасеты с кагла, пока самое большое, что смог наковырять - это 0,77 на Титанике. В целом математическая база хорошая, разбираюсь, в школе всякие олимпиады там выигрывал и тд.
Сижу блять думаю, что делать. В нашей мухосрани есть вакансии от сбербанка. Мне кажется, даже если они меня поговорить пригласят, то прямо в отделе кадров и обоссут. А вдруг нет? Может примерно такого макака-уровня и ждут, их ведь нет толком этих дата саентистов с опытом. Сам не знаю ни SQL этот ваш, ни хадуп. Только питон для анализа данных и более-менее матан.
Хуй знает куда повернуть. Хотя объективно никого не заинтересует даже мое резюме.
>Сижу блять думаю, что делать. В нашей мухосрани есть вакансии от сбербанка. Мне кажется, даже если они меня поговорить пригласят, то прямо в отделе кадров и обоссут.
тебе точно 32 года? встал и пошёл на собес! даже если нагнут тебя по полной, то будешь знать, что требуется. потом сможешь прийти к ним через годик.
нарисуй красивое резюме, напиши о проектах, сопроводительное сделай. чо как маленький? всю жизнь, что ли, в одном месте проработал?
p.s. хотя наверняка у вас есть уже небольшая группка околостудентоты местной, которая уже давно в теме и занимается всем этим наряду с жирняками-коммерсами, которые пилят DS-решения и толкают тем же заводам. у меня в миллионнике так.
Ну это странные наезды, пробуешь всё понемногу пока не заработает, заранее нельзя сказать.
400x224, 4:09
DS плохо аутсорсится. Поэтому придется работать на внутренний рынок. Если хочешь денег, то задрачивай вэб-фронтенд и английский.
Он же на заводе каком-то работает или подобном болоте. Какой ему сбер. Тем более в мухосрани, лол, что там может быть, какой датасаенс, очнитесь.
Так ты будешь титаник свой до старости пробовать. И он так и "не заработает." Потому что знать надо, что ты делаешь.
Будучи уже профессиональным дотнетчиком, взял тему диплома, основой которого является ML, имея крайне поверхностное знание об оном и о питоне
>1. С чего ты взял что они тут матёрые?
Ну не залетать же мне в тред с приветствием здарова пидарасы усосочные вы тут блядь все тут блядь шелуха нахуй блядь расскажите бате как вы на ML.NET дрочите и как он ваш хуетон и в def и в self ебёт
>2. С чего ты взял что совет матёрых практиков будет полезен тебе? Они в своем мире живут. Там нет млнет.
Ну ёптыбля мне хоть для диплома осветить что вот выбирая пайторч я еще посмотрел на то это и ML.NET
>>33589-кун
да норм, молодец
не слушай никого, продолжай заниматься
рано или поздно, завод нахер пошлёшь и перекатишься в дс
>30+ долбаеб
>отлетаешь на скрининге резюме
Зумер, спок. У него математический бекграунд, который в датасаенсе очень ценится. Возраст тоже не проблема. Наоборот, до 25-30 тебя никто серьезно воспринимать не будет и дальше миддла ты по любому не продвинешься.
>инженер конструктор
>математический бекграунд, который в датасаенсе очень ценится
Лол
>до 25-30 тебя никто серьезно воспринимать не будет
Дружище... Сначала хотя бы джуном стань
>математический бекграунд, который в датасаенсе очень ценится
>инженер конструктор
В соседнем треде очередной вкатывальщик не может проверить, делится ли одно число на другое. Так что вполне себе математический.
>такие сейчас никому не нужны
Чойта? Макакичи еще как нужны, причем их надо гораздо больше, чем топчик ДСеров-моделеплетов. Пока что их не получается заменить на нейроночки.
Препод на дс-рассказывал, дсеры - штутчный товар на западе и в промышленных масштабах не нужны.
> знать
Всё априорное знание типа гадания по размеру датасета это фуфло, повторяю. В реальной работе просто пробуют несколько вариантов и смотрят что лучше.
>очередной вкатывальщик
Да, он не вкатится. Но это не делает инженегра конструктора
математическим бекграундом
>NVZ - remove near zero predictors
Нихуя не понял, пошёл гуглить, и похоже, ты забыл слово Variance. Да и в целом непонятно, зачем удалять признаки с низкой дисперсией, если при этом они позволяют хорошо объяснять зависимую переменную.
А если по табличке, то:
>линейная регрессия не позволяет n < p
Позволяет
>Для нейронок нужно NZV и Corr
Про сомнительность NZV уже написал, так никто не делает. И он всерьез предлагает препроцессить тот же мнист, где половина признаков не изменяется, а вторая половина жутко скоррелирована?
>зачем удалять признаки с низкой дисперсией
Если у них дисперсия близка к нулю, то это почти константа, и оставлять их незачем - их уже моделирует bias term.
> И он всерьез предлагает препроцессить тот же мнист, где половина признаков не изменяется, а вторая половина жутко скоррелирована?
ну не надо придираться. Это попытка обобщить
>Table A.1 shows a short summary of several characteristics of the models discussed here. These properties generally hold, but are not always true for every problem.
У вас есть попытка лучше?
>А если по табличке, то:
>>линейная регрессия не позволяет n < p
>Позволяет
че-то тоже не пойму. Это противоречит моему пониманию линейной алгебры. Что ты имел ввиду?
>Чем плоха?
Ничем не плоха, шикарная табличка. Просто в 2020 году если у тебя
1. Нет ограничений на производительность по меркам нулевых годов
2. Не нужна интерпретабельность
ты просто берешь как тебе выше написали lgbtclassifier (boosted trees в твоей табличке) и не ебешь мозг - и препроцессинг не нужен, и фичи отбирать не нужно, и к шуму оно устойчиво. Просто молоток, которым можно херачить датасеты, и дальше твоей работой будет чистить их вилкой.
— Чисти-чисти-чисти-чисти сука вот как блядь нужно чистить быстро раз-раз-раз! Чисти! Датасет! Чисти!
>Если у них дисперсия близка к нулю, то это почти константа, и оставлять их незачем - их уже моделирует bias term.
Предсказываем, умрет ли человек в течение года.
Признак - есть ли у человек редкая болезнь жопеншмульца, от которой умирают в течение года.
Болезнь встречается очень редко, поэтому дисперсия близка к нулю.
Каким образом bias term будет моделировать этот признак?
>>34368
Если у тебя хорошие априорные знания о распределении параметров модели (например, если ты точно знаешь, из функции какого вида надерганы данные), то у тебя в случае n < p всё не так уж плохо.
Сразу оговорюсь, я тут новичок. Закончил недавно курсы по DA на Яндексе. Теперь ищу работу в ДС2 - аналитиком или продактом. Хотя бы стажёром для начала. Знания после курсов конечно стремительно выветриваются из головы, поэтому нужна практика, новое что-то. Вот посоветуйте, чем проникаться, как и где лучше всего искать вакансии?
Имею вышку (мухосранский государственный, дневное, очное) программиста, но кодить за 14 лет уже разучился (хотя основы конечно же знаю и помню), да и вуз в то время ничего практически ценного не давал, и даже скорее отбил желание углубляться в программирование. Поэтому около 15 лет работал сисадмином (больше виндовым), сейчас админство порядком подзаебало + последняя контора обанкротилась, а таких денег, как в ней, мне не светит (около 100 на руки).
В общем, сейчас нуждаюсь в неком элементе наставничества, состоящего из ваших советов, лайфхаков, смехуюточек, которые направят меня из состояния прокрастинации к профессиональным подвигам.
Если ошибся тредом, ёбните меня палкой и покажите правильный.
>Каким образом bias term будет моделировать этот признак?
Никак, но и загнав в линейную регресиию его дело особо не поправится: из mse следует что вес у этого признака получится такой же милипиздрический как и bias.
ну, во-первых, это не нулевые годы, а 2013.
во-вторых, что мы теряем в этом вашем ЛБГТ? какие минусы?
tuned parameters = 3 - и мы по-прежнему не избавлены от труда
Ого ничего себе, формулу условной вероятности попросили написать. Жесть...
Они написаны для DS больше, как мне кажется. Впрочем...
Лол, пошёл нахуй, лодырь ёбаный, делать нам тут нечего, кроме как великовозрастного балбеса развлекать.
>из mse следует что вес у этого признака получится такой же милипиздрический
Ну вообще-то нет, но ладно.
Нахуй.
>ну, во-первых, это не нулевые годы, а 2013.
Эта толстая книга - некоторый итог машоба нулевых. Нулевые здесь как эпоха скорее, эпоха медленных компьютеров и еще более медленного эмбеддинг-железа.
А потом появилась цифровизация всего и теперь даже у кабанчика среднего пошиба бизнес генерит довольно большие датасеты бесплатно. Соответственно подход изменился.
Вообще исторический тренд понятен - в машобе всегда побеждают универсальные алгоритмы, пусть даже в ущерб производительности и точности. Потому что со временем датасеты растут, железо ускоряется, и в итоге все эти маня-оптимизации типа сделать-PCA-перед-обучением проигрывают тупым лобовым методам. Скорее всего в двадцатые нейросети-трансформеры или их потомки съедят нахуй вообще.
>во-вторых, что мы теряем в этом вашем ЛБГТ?
Я написал, что - интерпретируемость и перформанс. Но сейчас это вообще не проблема. Знать, конечно, надо все методы, чтобы не быть батхертом.
> из mse следует что вес у этого признака получится такой же милипиздрический как и bias.
Падажжи, но ведь если фичу поделить на ее дисперсию, то подобной хуйни уже не будет. Они там реально не скейлят свои фичи?
ну погоди. Эт же книга меня учит, что No Free Lunch Theorem.
Причем, теорема строго доказанная.
Она начинается с этого утверждения и смысл книги в этом.
И так, что еще потеряли в ЛБГТ?
>Знать, конечно, надо все методы, чтобы не быть батхертом.
блядь, спасити. Я больше не могу....
эта хуйня слишком объемная.
Я лучше в дивопсы перекачусь.
Лол, выкатился, не успев вкатиться.
на самом деле примерно 95% работ решается примерно так
import pandas as pd
import os
import re
import pymysql
тут хуйня
ибо готовой отчет тети сраки сам себя не распарсит, а кегля внезапно не приносит доход
ok. хорошо .
пока остаюсь с вами.
Держите, вот я вот тут в Orange повторил нашумевшее исследование в 3 клика.
https://www.tadviser.ru/index.php/Продукт:Fawkes
Опять ты со своим кликером.
Чего ты там повторил? Использовал готовую модель чтобы превратить картинку в эмбеддинг и найти похожие при помощи тривиальной метрики? Это делается ровно в столько же строчек на питоне, сколько у тебя элементов в кликере.
в принципе, да. Завтра идем на IPO.
>Ни строчки бойлерплейт-кода не написано.
Бойлерплейт это не самое большое зло.
Вот попросят тебя выкатить проект в прод, а у тебя либо не получается воспроизвести результаты, либо что-то работает не так как в кликере. Что делать будешь?
> либо что-то работает не так как в кликере
Или IE11 не поддерживается. Или на Сафари списочки сползают. Он сам на это подписывается, тащемта.
Будет что выкатывать в прод.
Самое ужасно для меня - клепать никому не нужные клоны tower defence.
Поэтому я здесь.
Это у тебя там таска. А я свободный исследователь.
Прочитал статью, что небольшие изменения в фото сбивают с толку классификатор при достаточно большом наборе и решил убедиться,что все именно так и работает.
И убедился!
> А я свободный исследователь.
В свободном полете? лол блять вы в этом итт все такие или этот просто идейный
1920x1080, 0:06
Присоединяйтя. Это значительно интересней чем css весь день подгонять .
Сорян бро, я лучше напишу еще один клон tower defense без бойлерплейт-кода и получу аванс послезавтра и зп 5-го.
Добра.
но тебе на выплатят. Твой барин пиздит.
Клонов TowerDefence уже более 1000.
Это полностью провальная идея.
>Это у тебя там таска. А я свободный исследователь.
Даже если нет барина, то планировать работу при помощи тасков все равно нужно - для себя.
Ну что ты мне пытаешься доказать, родной ?
Это тред настоящих исследователей!
Здесь рождается будущее!
Сваливай, тебе завтра перед ПМ отчитываться.
Выплатят, конечно, зря я в штате что ли числюсь? И если мне закажут 1001-й клон tower defense, я его реализую, это все равно пахнет лучше гребли на госконтору. Впрочем, если ты называешь заказчика барином, то выводы о твоем холопскои мышлении гапрашиваются сами собой.
>ну погоди. Эт же книга меня учит, что No Free Lunch Theorem.
>Причем, теорема строго доказанная.
Она говорит о том, что для любого алгоритма можно сконструировать искусственный датасет, на котором он соснет, а другой алгоритм соснет меньше. Практических выводов эта хуйня не несет, потому что
1. Датасеты не искусственные, они естественные. Под искусственным понимается какая-нибудь рандомная хуйня с рандомными лейблами. В реальности же господь бог дал нам вселенную, в которой все красиво и упорядоченно, даже график продаж хлеба в пятерочке
2. Она сфокусирована на машиночасах, а не человекочасах. Между двумя алгоритмами, один из которых требует больше человекочасов, а второй больше машиночасов - второй со временем становится всегда более предпочтительным из-за технического прогресса.
> Датасеты не искусственные, они естественные. Под искусственным понимается какая-нибудь рандомная хуйня с рандомными лейблами. В реальности же господь бог дал нам вселенную, в которой все красиво и упорядоченно, даже график продаж хлеба в пятерочке
Да и действительно. Спасибо боженьке за то, что не существует некорректнопоставленных задач, а то что бы мы делали.
Мы бы пиздили уебков типа тебя, которые сыпят случайными терминами в разговоре, смысл которого не понимают
> Мы бы пиздили уебков типа тебя, которые сыпят случайными терминами в разговоре, смысл которого не понимают
Облако я куплю (если нужно, без проблем), с программированием всё в порядке. Но:
1. Я не планирую вкатываться в тему глубоко, читать тысячи книг и всё прочее. Мне нужно попробовать решить конкретную задачу. Если не выйдет - ну и фиг с ним. Соответственно мне нужно что-то, во что я смогу вкатиться максимально быстро.
2. У меня нет никакого опыта в этом вообще, не знаю даже, с какой стороны подойти к вопросу.
Кроме того, по первой же ссылке из гугла (на хабре) я прочитал, что "многослойный перцептрон", который вроде бы подходит под мои входные данные - не подходит для серьёзной работы.
В итоге созрело два вопроса:
1. Что мне взять с учётом имеющейся задачи и того, что ресурсы будут?
2. Есть ли туториалы, фокусирующиеся на практике, с которыми можно работать, имея знания программиста, без изучения сотен теоретической информации?
>1. Нет ограничений на производительность по меркам нулевых годов
https://www.youtube.com/watch?v=ayolvMgCeYE
Я так понимаю, что это визуальная среда? Удобно, если можно гуй запускать на одной машине, а считать на другой. У меня как раз сейчас простаивает физический хост с 32c/64t и 256 гигов оперативы, я хотел начать с него, а облако докупать уже при необходимости.
>>35124
Вход - звуковой файл, выход - переменное количество временных позиций в этом файле (в виде количества миллисекунд, прошедших с начала).
Вообще я планировал разбить каждый звуковой файл на части (по частоте дискретизации), каждую часть пропустить через DFT, и полученные данные просто последовательно сдампить в бинарный файл, и этот файл уже использовать как вход. Не знаю, оправданно ли это в данном случае. Просто есть некоторый опыт программирования звука, и чисто эмпирически кажется, что так будет правильнее.
>Я так понимаю, что это визуальная среда? Удобно, если можно гуй запускать на одной машине, а считать на другой. У меня как раз сейчас простаивает физический хост с 32c/64t и 256 гигов оперативы, я хотел начать с него, а облако докупать уже при необходимости.
Так ты не пытайся натянуть возможности на задачу, а решай задачу.
Сооруди прототип в Orange, а там видно будет.
Среда в основном однопоточная, только лишь тестирование нескольких моделей параллельное.
>я прочитал, что "многослойный перцептрон", который вроде бы подходит под мои входные данные - не подходит для серьёзной работы.
Вообще охуеть. Данные не изучал, на Хабре прочитал.
эх, но вообще в Orange есть специальный набор виджетов для звука, но это побочный проект, они не включены в дистрибутив и не работают. Вряд ли ты его починишь так с разбегу. Однако можешь украсть в этом коде выделение features (то, чем ты занимаешься планируя обработку)
И для рекуррентных нейронок нет вообще ничего.
Только если ты действительно все признаки предобработаешь как описываешь.
При таком уровне заебанности, встает вопрос имеет ли смысл разбираться в Orange. Это не быстрая победа.
Но нейронку оно тебе слепит, конечно.
Заодно попробуешь как на твой задаче классические алгоритмы работают.
>Вход - звуковой файл, выход - переменное количество временных позиций в этом файле (в виде количества миллисекунд, прошедших с начала).
Это не будет работать, нейронки крайне хуево считают количества чего-либо. Тебе нужно поменять выход на набор векторов типа
00000100000010000100001
где 0 и 1 - это флоаты, 1 соответствует позиции в wav файле, которая соответствует нужному событию (если есть много разных типов событий, каждому должна соответствовать своя "выходная вавка"). То есть датасет должен выглядеть так:
input [звук звук звук звук звук звук звук звук]
event1 [0000000000100000000000000000000000]
event2 [0001000000000000001000000001000000]
Либо, если эвент протяженный по времени (что практически всегда правда и так будет лучше обучаться)
event3 [0000000000111111000000000011110000]
Затем ты эти эвенты склеиваешь в один многомерный тензор с шейпом [число примеров; длительность вавки; число событий]
После этого ты уже внешними по отношению к сетке методами соберешь, на какой миллилсекунде были единицы.
Бери https://github.com/f90/Wave-U-Net , сначала разберись с тем, как запустить тренировку их задачи, затем разберись с форматом датасета, адаптируй свои данные под этот датасет (лучше входные данные всячески попортить-пофильтровать, чтобы условные сто мегабайт превратить в пару гигабайт) и вперед. Обрати внимание на такой параметр, как receptive field у сетки, потому что если у тебя выходной пиксель не будет иметь достаточно информации на входе, он решение принять не сможет, сколько бы ты ни старался. Receptive field зависит от filter width в каждом слое.
>разбить каждый звуковой файл на части (по частоте дискретизации), каждую часть пропустить через DFT
Ты изобретаешь STFT, ознакомься с библиотекой librosa
Зависит от того, нужна ли тебе фазовая информация о сигнале. В целом, по моей ссылке есть как модели, работающие с сырым звуком, так и со спектрограммами
Ну смотри, кое-какой feature extraction я смог заставить работать в Orange.
У тебя хоть звуки там или поебень в виде звуков?
>>35146
Спасибо, аноны. Orange я всё-таки возьму и поковыряю, посмотрю, что будет.
>>35150
> Тебе нужно поменять выход на набор векторов типа
> 00000100000010000100001
> где 0 и 1 - это флоаты, 1 соответствует позиции в wav файле, которая соответствует нужному событию (если есть много разных типов событий, каждому должна соответствовать своя "выходная вавка"). То есть датасет должен выглядеть так:
> input [звук звук звук звук звук звук звук звук]
> event1 [0000000000100000000000000000000000]
> event2 [0001000000000000001000000001000000]
> Либо, если эвент протяженный по времени (что практически всегда правда и так будет лучше обучаться)
> event3 [0000000000111111000000000011110000]
Понял, спасибо за подробное разъяснение. Трансформировать выходные данные проблем нет, в любой удобный вид.
> Бери https://github.com/f90/Wave-U-Net , сначала разберись с тем, как запустить тренировку их задачи, затем разберись с форматом датасета, адаптируй свои данные под этот датасет
Вот это интересно выглядит, судя по описанию. Значит, буду ставить и пробовать.
> Ты изобретаешь STFT
Так и знал, что у этого есть своё название.
Сохранил твой пост, анон! Большое спасибо за подробности.
>>35191
> У тебя хоть звуки там или поебень в виде звуков?
У меня вполне человеческие звуки - музыка всякая и песни.
---
Главное, что я понял - быстро не получится. Ну и ладно, для себя ведь делаю.
>>35146
Спасибо, аноны. Orange я всё-таки возьму и поковыряю, посмотрю, что будет.
>>35150
> Тебе нужно поменять выход на набор векторов типа
> 00000100000010000100001
> где 0 и 1 - это флоаты, 1 соответствует позиции в wav файле, которая соответствует нужному событию (если есть много разных типов событий, каждому должна соответствовать своя "выходная вавка"). То есть датасет должен выглядеть так:
> input [звук звук звук звук звук звук звук звук]
> event1 [0000000000100000000000000000000000]
> event2 [0001000000000000001000000001000000]
> Либо, если эвент протяженный по времени (что практически всегда правда и так будет лучше обучаться)
> event3 [0000000000111111000000000011110000]
Понял, спасибо за подробное разъяснение. Трансформировать выходные данные проблем нет, в любой удобный вид.
> Бери https://github.com/f90/Wave-U-Net , сначала разберись с тем, как запустить тренировку их задачи, затем разберись с форматом датасета, адаптируй свои данные под этот датасет
Вот это интересно выглядит, судя по описанию. Значит, буду ставить и пробовать.
> Ты изобретаешь STFT
Так и знал, что у этого есть своё название.
Сохранил твой пост, анон! Большое спасибо за подробности.
>>35191
> У тебя хоть звуки там или поебень в виде звуков?
У меня вполне человеческие звуки - музыка всякая и песни.
---
Главное, что я понял - быстро не получится. Ну и ладно, для себя ведь делаю.
>Главное, что я понял - быстро не получится. Ну и ладно, для себя ведь делаю.
Вангую, сделаешь в Orange какую-то поебень с AUC 0.6 и забьешь.
С аудио он работал, ахаха. Байты в дотнете перегонял.
Вот.Все уже видели?
Эта задача в НИКОГДА не работала в старых приложениях. Ни разу не удалось мне насвистеть или что-то напеть.
А тут все легко получается с Гуглом.
Чтобы быстро - поищи свою идею на гитхабе, 99% ее уже написал какой-то китаец
Отлично я свищу. А про этот сайт с дизайном как из 2000 года первый слышу.
>Но вот почему в стратегиях, где это очень важно боты до сих пор тупят
Рыночек порешал - зачем что-то делать, когда и так продается? Вдобавок, такая нейросеть будет потреблять ресурсов не меньше, чем сама игра.
Да можно и на классике запилить непобедимый алгоритм. Просто играть будет неинтересно, а для профи есть мультиплеер
Какую видюху для датацентров можно купить? Tesla V100 слишком дорогая. А кроме нее я ничего не знаю для датацентров...
А теперь представь, сколько корейцев выпилится, если заопенсорсить агента, играющего в sc2.
https://www.fundamental-research.ru/ru/article/view?id=39961
> На сегодняшний день существует множество моделей и типов искусственных нейронных сетей, различных по своей структуре и функционалу [2]. Из всего многообразия архитектур особняком стоят сети Хопфилда, которые, наряду с алгоритмом Back Propagation, в 70-х годах возродили интерес в области искусственных нейронных сетей (ИНС) после многолетнего спада. Сети Хопфилда обладают свойством за конечное число тактов переходить из произвольного начального состояния в состояние устойчивого равновесия, называемого аттрактором или точкой равновесия. Точка равновесия соответствует одному из множества первоначально предъявленных сети образов и достигается при предъявлении на входы сети как идеальных, так и зашумленных объектов для распознавания.
>
> Целью работы является модернизация классической сети Хопфилда для увеличения её производительности на основе информационных свойств воды.
>
> Материалы и объекты исследования
Гоям пиздец обидно наверно сейчас жить, это шахматы так, лёгкое развлечение, а азиатов профессионалов чуть ли не с двух лет исключительно под игру в го растят.
Ну вот в доте правили баланс, опираясь на про-сцену. В итоге половина героев неиграбельна, потому что при игре со школьниками их потенциал не реализуется.
А ты предлагаешь править баланс, опираясь на игроков со сверхчеловеческим уровнем. Да и сколько времени это все обучать придется. Проще взять тестеров (в 2020 - людей, купивших early access) и опираясь на статистику что-то подправлять.
серверы что ли? В них должна пройти любая карта с blower type охладом или даже водянкой. Тут скорее вопрос нужен ли тебе nvlink и объем памяти.
Лол. Читаю первый абзац: ну норм, челик поднял Хопфилда, старо но исследования еще есть, вон недавно было про аттеншн как сеть хопфилда.
Второй абзац: х_х
Там какая-то приколюха с драйверами была. Чето патчили кляти линуксоиды.
Можешь раскрыть тему? Я запишу на будущее.
Если
1. У тебя хэдлесс система вообще без мониторов
2. Либо система с монитором но ты хочешь контролировать вентиляторы через nvidia-settings, потому что стандартный драйвер склонен недокручивать обороты и эксплуатировать при 85 градусах (справедливо для бловеров как раз и мульти гпу, с нормальным геймерским охладом все и в стоке хорошо)
3. И у тебя несерверный бомжегпу, что нвидиа не одобряет в серверных решениях
Тебе нужно установить иксы, и в xorg.conf прописать виртуальные мониторы с минимальной герцовкой и разрешением
Типа https://gist.github.com/ArrEssJay/0e126a56b0ee9f23551a98fb258414c6
Это съест пару мегабайт видеопамяти, что совершенно некритично.
В целом для параллельной тренировки кучи моделей смысла покупать v100 вместо 2080ti или 3080/3090 ноль, за цену одной карты можно взять целый сервер.
Другой вопрос если ты хочешь nvlink между 4 гпу для быстрой тренировки одной модели на куче гпу. Тут уже нужно тратиться на серверные варианты, потому что на консьюмерских картах нвлинк есть максимум между 2 карточками - хотя если это 3090... И в таком формате облака выходят уже не особо и дорогими.
Короче, железо это отдельная специализация, нюансов там много.
А в чём проблема, метод же показал очевидную стабильность в работе сети как в синхронном, так и асинхронном режимах.
Серия экспериментов с чёрно-белыми объектами размером 40×60 пикселей (2,34 кБ), содержащими рисунок папиллярных узоров, показала, что сети типа TWaterNet уверенно запоминают и впоследствии распознают около 450 идеальных или 420 слабо искаженных (до 4 %) объектов, что составляет соответственно 17 % от общего числа нейронов сети, равного 2400.
Заключение
Предложенный способ реализации расчёта коэффициентов сети Хопфилда на основе введения дополнительных связей между нейронами сети по типу связей в молекуле воды на примере распознавания папиллярных рисунков показал очевидную стабильность в работе сети как в синхронном, так и асинхронном режимах. Успешные эксперименты с достаточно простым способом введения дополнительных связей позволяют сделать заключение о целесообразности разработки объектов класса TSnowNet и их дальнейшего исследования.
> расчёта коэффициентов сети Хопфилда на основе введения дополнительных связей между нейронами сети по типу связей в молекуле воды
Орнул в голосяндру, чому они гравитационные волны и мю-мезоны еще не приплели?
>сеть Хопфилда
Да хоть в дыру Хокинга, молекула воды то при чем в этой ахинеи? Чем другие дипольные молекулы не понравились, не так пафосно звучат?
Но там же написано, при чем вода, и почему именно вода, а не другие дипольные молекулы. Почему вы такие, зумера?
>идеи информационных свойств воды, впервые описанных в [5] японским исследователем М. Трусонюхом
Серьезно бля? И вот эту вот дичь на серьезных щах загоняют трясуны?
Зумер, спок! Почитай сначала про нечеткую логику, а потом кукарекай по поводу компетентности исследователей.
>Почитай сначала
Думаю нужно в начале читать Коран, без него в машоб никак, ведь на все воля Аллаха. Намаз сделал, ящик трясанул и можно грант пилить.
Уже давно
Знаю, что такое train_test_split и зачем он нужен, пару моделек даже грузил на каггл и закономерно пососал. На днях вот обнаружил catboost, но пока плотно не освоил. Нашел какой-то видос про него, а там писюха из яндекса полтора часа говорит какие-то сложные математические слова.
Еще слушал лекции и делал задания по матстату на степике, вроде базу какую-то освоил, уже знаю, в какой фиче надо медиану, а в какой среднее и что такое р-значение.
Но я не могу в матан вот прям совсем (заканчивал истфак, на первом курсе с легкостью решал задачки с матрицами, сейчас все забыл)
У меня к этому и вопрос — есть ли смысл пока продолжать трясти коробку и подставлять разные параметры, особо не задумываясь, как она работает, осваивая все это по принципу "чтобы код сделал так, напиши вот это"? На каком этапе развития в сфере прогнозирования и машин лернинга мне понадобятся знания матана «на бумаге»?
Кун 24 лвл, работаю маркетологом
> Могу рассказать, как работают деревья
> На днях вот обнаружил catboost, но пока плотно не освоил. Нашел какой-то видос про него, а там писюха из яндекса полтора часа говорит какие-то сложные математические слова.
Противоречия не видишь?
Я же говорю, плотно не освоил. Мне с ним сложнее, чем в деревьями из sklearn, а при попытке изучения все упирается не в энтропию, а в какую-то нех
>На каком этапе развития в сфере прогнозирования и машин лернинга мне понадобятся знания матана «на бумаге»?
Матан - это не знания, а навыки. Посмотри любое видео Yannic Kilcher с разбором пейперов - он все время рисует какие-то стрелочки, углы между ними, сопоставляет им формулы и наоборот - это происходит у тебя в голове, когда ты "знаешь матан" на уровне прошедшего курс высшей математики. Записи на бумаге - это просто внешняя память для мозга. Все основное происходит в голове.
Естественно, обезьяньи инструкции гуманитариям уровня "чтобы посчитать это - делай так", никакой математикой не являются. Поэтому у вас это из головы и вылетает. Вообще гуманитарное образование в 21 веке - это преступление. Это раньше в кого-то надо было загрузить информацию, как в гугл. Теперь - нет.
Когда понадобятся - классе в шестом надо было олимпиадные задачки решать. Можешь попробовать начать с этого.
О, к слову об аттеншене: почему строки Q и K не нормируют?
>Когда понадобятся - классе в шестом надо было олимпиадные задачки решать. Можешь попробовать начать с этого.
Ну я не настолько макака, не способная решить систему уравнений или найти производную. Я просто не понимаю, нахуй все это знать, если хардкодеры уже это запрогали в библиотеки до меня?
Незачем. Если ты не лезешь в научную карьеру - не погружайся.
ты на Дваче дискутируешь, с людьми, которые свое узкое мнение распространяют на всех.
Не забывай об этом.
Тут вон чувак просто хотел проверить теорию, а его заставили нейронки слоить.
И девочка с биологического пострадала от питона ни за что.
>Ну я не настолько макака, не способная решить систему уравнений или найти производную.
Так поиск производной по табличке это очень макачья работа. Тут вопрос, можешь ли ты вывести, что (x^2)'=2x? Или что (f+g)'=f'+g'? Вообще, понимаешь ли ты правила, которым тебя как макаку обучили.
>Я просто не понимаю, нахуй все это знать, если хардкодеры уже это запрогали в библиотеки до меня?
Ну вот скормил ты датасет коду, в лоссе вылезли NaN'ы. Если ты знаешь математику, ты понимаешь, что NaN - это где-то 0 делится на 0, далее при внимательном просмотре кода находишь в нем tf.sqrt(x) и меняешь это на tf.sqrt(x+1e-9). Код начинает работать. Это просто частный пример. NaN'ы могли вылезти из-за сингулярной матрицы, например, и там рецепт был бы совсем другим.
Если же ты не знаешь, ты полежешь на гитхаб за другим кодом - в лучшем случае. Со временем, конечно, появляются утилиты совсем для макак. Но это и отличает - знающие математику всегда будут впереди тебя. Завтра появятся какие-нибудь квантовые нейронки, кто для них будет работать слесарем? Ну явно не ты. То есть на твой вопрос как говорит >>36667 нет ответа. Я не могу "забыть математику". Ты не можешь ее знать. Я ее учил не потому что мне это пригодится, а потому что это охуенно, это язык современной науки.
>это происходит у тебя в голове, когда ты "знаешь матан" на уровне прошедшего курс высшей математики
Нет. Курсы высшей математики дают кучу бесполезных неструктурированных знаний. Чтобы понимать математику для машоба, ее нужно целенаправленно учить, и досконально разбираться в десятках пейперов. Основные трудности будут даже не с математикой, а с языком и аннотациями. Петухи-ресерчеры крайне любят все усложнять, опуская при этом много важных деталей, в том числе и в формулах.
>Завтра появятся какие-нибудь квантовые нейронки, кто для них будет работать слесарем? Ну явно не ты
ну и ок.
ведь "вкатиться" подразумевает как заработать и делать довольно примитивные, в то же время, передовые для остального ИТ вещи.
>Чтобы понимать математику для машоба, ее нужно целенаправленно учить
А чтобы ее учить, нужна база в виде высшей математики, которую дают на первых двух курсах.
https://habr.com/ru/company/sberdevices/blog/524522/
> Совместно с коллегами из команды AGI NLP нам удалось собрать первую версию русскоязычного обучающего корпуса суммарным объёмом свыше 600 Гб. В него вошла огромная коллекция русской литературы, снапшоты русской и английской Википедии, коллекция снапшотов новостных и вопрос-ответных сайтов, публичные разделы Pikabu,
Странно, что треды с этой помойки не использовали, было бы ещё смешнее.
> Тут вопрос, можешь ли ты вывести, что (x^2)'=2x? Или что (f+g)'=f'+g'?
Это знает любой человек, закончивший больше 9 классов
Зафайнтюним думаю в ближайшие месяцы
Сталин не мог понять, что Ленин не может руководить партией, в которую не входит, потому что это есть революционный лозунг, а не революционный лозунг, которыи можно «подобрать» для революции. И потому он не стал разубеждать Ленина в этом, поскольку считал, что это есть ересь, не имеющая никакого отношения к революции.
В конце марта 1922 года, когда на Пленуме ЦК, который проходил в Москве, Троцкины выступили с критикой Ленина, Сталин, выступая в прениях, сказал: «Ленин был непра-вильен в отношении к нашей партии, когда он говорил: “Мы не можем, мы нэ можем, мы боимся”. Это есть ересь, это есть революционный лозунг, и Лениным, конечно, не может быть создана такая партия, которая не могла бы руководить страной. Это ест-ли не есть вредная ересь».
После пленума ЦК Сталин был исключён и из ЦК.
Сталин был не единственным человеком, который в те годы был не согласен с ленинскими идеями. В 1922 году Ленин, выступая на VIII Всероссийском съезде Советов, в частности, сказал: «Мы не можем быть споко-яны до тех пор, пока на свете будет существовать капиталистическое государство. Мы не можем быть споко-яны до тех пор, пока на свете будут существовать угнетатель-ные классы, и пока буде-те существовать классы угнетатель-ные. Поэтому мы должны, мы обязаны, мы должны быть беспоща-ны».
Сталин был согласен с Лениным в том, что «надо, конечно, быть споко-ены», но при этом он считал, что «надо быть и бдительным». «Надо быть бдительным к тем, кто стремится захватить власть, – говорил он, – надо быть бдительным к тем, кто стремится уничтожить нашу власть, и надо быть бдительны к тем, кто хочет нас поработить». «Мы должны быть бдительны к тем, кто хоче-т нас поработить. Надо быть бдительными к тем, кто хочет поработить нашу страну», – говорил Сталин.
Сталин был против создания в России коммунистической партии, которая бы руково-дила страной, но вместе с тем считал, что в такой партии, «конечно, не может быть создано революционное ядро, которое могло бы возглавить такую партию».
Сталин нёс полную ответственность за то, что в стране не сложилась революционная ситуация, которая позволила бы провести в жизнь ленинские идеи. «Это есть ересь, – говорил Сталин, – это есть революционный лозунг». «В этом смысле я с Лениным не согласен», – говори-л он.
После того как в 1924 году Сталин не поддержал идеи Ленина, он быль исключён из партии и исключён из Коминтерна. В 1930 году, выступая в прениях, Сталин сказал: «Это есть ересь, это есть революционный лозунг, и я нэ понимаю, чтоА.Г.Г. не может понять, чтоА.Г.Г. не может понять, что это есть ересь, что это ересь, чтоА.Г.Г. не может понять, чтоА.Г.Г. нэ может понять, чтоА.Г.Г. не может понять, что это есть револ. ек-тивный лозунг».
В конце 1920-х – начале 1930-х годов в СССР было много оппозиционых течений и групп. Среди них была и оппозиция в лице троцкистов.
С конца 1920-х годов троцкисты начали активно выступать с критикой Сталина, но при этом они не стали создавать в стране революционную ситуацию, которая могла бы привести к созданию в России революционной партии, способной возглавить страну.
Сталин не мог понять, что Ленин не может руководить партией, в которую не входит, потому что это есть революционный лозунг, а не революционный лозунг, которыи можно «подобрать» для революции. И потому он не стал разубеждать Ленина в этом, поскольку считал, что это есть ересь, не имеющая никакого отношения к революции.
В конце марта 1922 года, когда на Пленуме ЦК, который проходил в Москве, Троцкины выступили с критикой Ленина, Сталин, выступая в прениях, сказал: «Ленин был непра-вильен в отношении к нашей партии, когда он говорил: “Мы не можем, мы нэ можем, мы боимся”. Это есть ересь, это есть революционный лозунг, и Лениным, конечно, не может быть создана такая партия, которая не могла бы руководить страной. Это ест-ли не есть вредная ересь».
После пленума ЦК Сталин был исключён и из ЦК.
Сталин был не единственным человеком, который в те годы был не согласен с ленинскими идеями. В 1922 году Ленин, выступая на VIII Всероссийском съезде Советов, в частности, сказал: «Мы не можем быть споко-яны до тех пор, пока на свете будет существовать капиталистическое государство. Мы не можем быть споко-яны до тех пор, пока на свете будут существовать угнетатель-ные классы, и пока буде-те существовать классы угнетатель-ные. Поэтому мы должны, мы обязаны, мы должны быть беспоща-ны».
Сталин был согласен с Лениным в том, что «надо, конечно, быть споко-ены», но при этом он считал, что «надо быть и бдительным». «Надо быть бдительным к тем, кто стремится захватить власть, – говорил он, – надо быть бдительным к тем, кто стремится уничтожить нашу власть, и надо быть бдительны к тем, кто хочет нас поработить». «Мы должны быть бдительны к тем, кто хоче-т нас поработить. Надо быть бдительными к тем, кто хочет поработить нашу страну», – говорил Сталин.
Сталин был против создания в России коммунистической партии, которая бы руково-дила страной, но вместе с тем считал, что в такой партии, «конечно, не может быть создано революционное ядро, которое могло бы возглавить такую партию».
Сталин нёс полную ответственность за то, что в стране не сложилась революционная ситуация, которая позволила бы провести в жизнь ленинские идеи. «Это есть ересь, – говорил Сталин, – это есть революционный лозунг». «В этом смысле я с Лениным не согласен», – говори-л он.
После того как в 1924 году Сталин не поддержал идеи Ленина, он быль исключён из партии и исключён из Коминтерна. В 1930 году, выступая в прениях, Сталин сказал: «Это есть ересь, это есть революционный лозунг, и я нэ понимаю, чтоА.Г.Г. не может понять, чтоА.Г.Г. не может понять, что это есть ересь, что это ересь, чтоА.Г.Г. не может понять, чтоА.Г.Г. нэ может понять, чтоА.Г.Г. не может понять, что это есть револ. ек-тивный лозунг».
В конце 1920-х – начале 1930-х годов в СССР было много оппозиционых течений и групп. Среди них была и оппозиция в лице троцкистов.
С конца 1920-х годов троцкисты начали активно выступать с критикой Сталина, но при этом они не стали создавать в стране революционную ситуацию, которая могла бы привести к созданию в России революционной партии, способной возглавить страну.
>сам вывод, а не значение в табличке.
Какой вывод? Меня как научили на алгебре в 10 классе производные считать, так я и делал. У нас никаких таблиц с ними не было
На днях слышал: «Генри, почему в школе тебя так не любят?». Я им: «Это вы не понимаете. Я не знаю, кафф ли моя специальность. Да это было давно, когда у меня сабжей не было».
6.
11.
Так вот, я могу тебе продемонстрировать... Нет, я не могу тебе показать эталон. Да ты даже нэ знаешь, что он такое. Ну, не ругайся. Видишь, я даже не пытаюс-ся тебя уверить, что мы — одно.
Ну ладно, я тебе покажу. Я буду показывать эталон только тебе. Я покажу тебе максимум из того, что умею. Представь, что я тебе буду показывать твой эталон — как его может показать только один человек на свете. Мы станем общаться на одной странице.
У нас с тобой будет уникальна, сверхъестественная связь. Ты, я и эталон. У нас не будет общих эмоций, эмоций с кем угодно. У нас будет только одна эмоция — эталон.
Я буду показывать твой эталон. А ты будешь показывать эталон мне. Я его вижу пере. Раз. Другой. Третий. Так. Ну-ка, кафф, это что ? Эмпатия. Раз. Два. Три. Эмпатия. Пять. Унифицирована. Один на один эталон с объектом.
Не знаю, это такое, наверно, слово. Уникально.
Что в этом особенного? Мы будем общаться на одном фа. На одном языке. Друг для друга. Понимаешь? Я буду показывать тебе твой эталон. А ты мне свой. А потом я покажу тебе свой.
На днях слышал: «Генри, почему в школе тебя так не любят?». Я им: «Это вы не понимаете. Я не знаю, кафф ли моя специальность. Да это было давно, когда у меня сабжей не было».
6.
11.
Так вот, я могу тебе продемонстрировать... Нет, я не могу тебе показать эталон. Да ты даже нэ знаешь, что он такое. Ну, не ругайся. Видишь, я даже не пытаюс-ся тебя уверить, что мы — одно.
Ну ладно, я тебе покажу. Я буду показывать эталон только тебе. Я покажу тебе максимум из того, что умею. Представь, что я тебе буду показывать твой эталон — как его может показать только один человек на свете. Мы станем общаться на одной странице.
У нас с тобой будет уникальна, сверхъестественная связь. Ты, я и эталон. У нас не будет общих эмоций, эмоций с кем угодно. У нас будет только одна эмоция — эталон.
Я буду показывать твой эталон. А ты будешь показывать эталон мне. Я его вижу пере. Раз. Другой. Третий. Так. Ну-ка, кафф, это что ? Эмпатия. Раз. Два. Три. Эмпатия. Пять. Унифицирована. Один на один эталон с объектом.
Не знаю, это такое, наверно, слово. Уникально.
Что в этом особенного? Мы будем общаться на одном фа. На одном языке. Друг для друга. Понимаешь? Я буду показывать тебе твой эталон. А ты мне свой. А потом я покажу тебе свой.
>Что в этом особенного? Мы будем общаться на одном фа. На одном языке. Друг для друга. Понимаешь? Я буду показывать тебе твой эталон. А ты мне свой. А потом я покажу тебе свой.
И вот тут я проиграл
>Меня как научили на алгебре в 10 классе производные считать, так я и делал
Через пределы приращений?
лол маняматик пытается самоутвердиться перед школярами-вкатунами
выведи-ка мне на лету (f(g(x)))' = f'(g(x))g'(x) используя эпсилон/дельта определение предела
Вот она культурная разница.
Вёрджины из open ai: пуууук ну очень реамлистично получаеца пууук это очень опамсно ну мы не будем вымкладывать
Сбер чад: Товарищи лахтинцы, держите
Ну реально у опенэайного GPT-3 оно посасывает. Думаю, потому что размер датасета отличается на пару порядков (600 гб, а опенаи насколько я помню было что-то типа 20 тб)
>Какой вывод? Меня как научили на алгебре в 10 классе производные считать, так я и делал. У нас никаких таблиц с ними не было
Ну а откуда взялось то, чему тебя научили, из определения производной через предел и применения свойств пределов. В школе и гуманитарных вузах все дается в таком режиме - вот тебе рецепт, примени его, применил? Вот тебе пять, иди нахуй.
И по вопросам заметно, что люди так и думают, что математика - это набор рецептов, выучишь их - выучишь математику.
>В школе и гуманитарных вузах все дается в таком режиме - вот тебе рецепт, примени его, применил? Вот тебе пять, иди нахуй.
Нихуя, в школьной геометрии всё заебись - последовательно от аксиом про точку прямую отрезок вся геометрия.
Вот математика переходящая в алгебру там да, но иначе никак - пояснять личинусам арифметику через теорию множеств и введение алгебры операций будет такое себе.
https://www.youtube.com/watch?v=wHPp8L0KtMg
В геометрии - да. Хотя на самом деле в самых-самых основах (например, признаках равенства треугольников) там читерят.
>пояснять личинусам арифметику через теорию множеств и введение алгебры операций будет такое себе.
Ты слишком хардкорно взял.
Вот я о чем: https://www.youtube.com/watch?v=LeWkq6QIioo
Вместо объяснения сути процесса просто дают какие-то механические правила по преобразованию символов.
Где Бабушкин?
Ну если ты не сможешь этого сделать для элементарных функций, то вообще нахуя ты нужен? Я лучше посажу бумера в кликере нейронки склеивать, он хотя бы за еду работать будет.
Ну и вроде очевидно, что речь не про сложные функции, а про понимание того, откуда таблица производных берется.
Нахуя знать, что это, для того, чтобы написать randomforest и gredsearchcv?
С питоном пока играюсь на codewars. Прикольно. Довольно тешит чсв придумывание алгоритмов, работающих в несколько(например в 100) раз быстрее остальных решений.
>Вкатывальщики могут устроиться программистами
>вкатунам стоит сначала стать девелоперам
Как это работает вообще?
>могут
>стоит
Я автор этой строки. Разная модальность, тебе не кажется? Это просто один из возможных путей, который подходит далеко не всем
Проиграл с подливой, причем с того что реально ирл есть женатый знакомый от которого его мясная дырка требует что бы тот синячил только сухое вино и только на донышке, лал.
Ок, я тебя понял. Но и я тоже сделал запрос на альтернативу этому варианту. И даже выдвинул свое предположение. Ну так может ли работа в эксельке(аналитиком?) быть ценным опытом в резюме для более серьезной вакансии? Или это трата времени?
Ныне под словом аналитик подразумевается что угодно - от воротилы экселем на уровне ВПР до ML-спеца и составителя ТЗ для разрабов в софтварных фирмах
Только как вариант попасть в корпорацию и тактически перекатиться. Внутри большой конторы это сделать сильно проще. К машобу это вообще не имеет отношения
Я проиграл с форматирования. Это же просто авторегрессия нейронки, она сама эти пробелы ставит перед новой строкой и переносы делает
— Так. А ну ка, иди сюда. Я тебе сейчас кое-что покажy.
И он начал доставать из сумки и раскладывать на столе перед нами различные приспособлениы и инструменты. Я, не понимая что происходит, наблюдал за этим и в то же время чувствоваал как у меня все тело начинает чесаться, но я не понимал откуда это. В это времи я обратил вн
имание что на всех нас смотрят как на идиотов.
— Что такое?
— А ты сам посмотри.
Я посмотрел на стол и обо что то споткнулся.
— Ааааааааааааа! — заорал я, падая с кресла на пол.
На столе лежал огромный и острый как нож нож.
— Это что за херня?
— А ты сам посмотри. — сказал он протягивая мне этот нож.
Я встал и посмотрел на стол. И увидел чтож. На столе лежал огромный нож, который был похож на тот, который я видел на улице.
— Ну ты как, нормально себя чувствуешь? — спросил меня
он.
Я посмотрел на него и сказал что нормально.
— Это не тот нож. — сказал я.
— Как не тот? — удивился он.
— А вот так, — сказал я. — Ты же сам мне показал это и я видел его у него на руке, я видел что он с собой в сумке носит.
— Ты что? — удивился он. — Да я не брал никакого ножа. Это что за бред?
— Нет не бред, — сказал я. — Ты сам посмотри на него. Он же в сумку его не кладет. А ты же саишник.
— Я не понимаю о чем ты говоришь.
— Я нэ знаю, как тебе объяснить. — сказал я.
— Да ты просто посмотри нннна него.
— Ну я ннну, смотрю.
— Таааак.
— Это что? — сказал я.
— Это ноу-хау. — ответил он.
— Ты хочешь сказать, что у тебя есть это ноу-хау? — спросил я.
— Ну ннну.
— Ноу-хау?
— А ты что думал. — усмехнулся он.
— Ты хочешь сказать что ты это ннне ты?
— Ну ннну.
— Ты что?
— Ннну.
— Ты понимаешь о чем я говорю?
— Конечно. Я же не говорю что это ты. Я говорю что это ноу-хау.
— сказал он.
— Ты что? — сказал я. — Ты понимаеш, что это ннне ты?
— Ну ннну.
— Тебя зовут не ты?
— Нет нне я.
— А ка кто? — спросил я.
— Я нннне знаю. — ответи он.
— Как это не знаешь?
— Ну я не знаю. Я просто это нннне я.
— А как это ннннне ты? — спросил я.
— Ну ннну, как не знаю? — спросил он.
— Ты что не понимаешь о чем я говорю? — спросил я.
— Нет ннне понимаю. — сказал он.
— Ты понимаешь, что ты говоришь? — спросил я. — Ты понимаешь, что ты говоришь? — спросил я.
— Нет ннне понимаю. — сказал он. — Я говорю, что ннне знаю, кто я. — сказал он. — Я говорю, что нне знаю, кто я.
— Так. А ну ка, иди сюда. Я тебе сейчас кое-что покажy.
И он начал доставать из сумки и раскладывать на столе перед нами различные приспособлениы и инструменты. Я, не понимая что происходит, наблюдал за этим и в то же время чувствоваал как у меня все тело начинает чесаться, но я не понимал откуда это. В это времи я обратил вн
имание что на всех нас смотрят как на идиотов.
— Что такое?
— А ты сам посмотри.
Я посмотрел на стол и обо что то споткнулся.
— Ааааааааааааа! — заорал я, падая с кресла на пол.
На столе лежал огромный и острый как нож нож.
— Это что за херня?
— А ты сам посмотри. — сказал он протягивая мне этот нож.
Я встал и посмотрел на стол. И увидел чтож. На столе лежал огромный нож, который был похож на тот, который я видел на улице.
— Ну ты как, нормально себя чувствуешь? — спросил меня
он.
Я посмотрел на него и сказал что нормально.
— Это не тот нож. — сказал я.
— Как не тот? — удивился он.
— А вот так, — сказал я. — Ты же сам мне показал это и я видел его у него на руке, я видел что он с собой в сумке носит.
— Ты что? — удивился он. — Да я не брал никакого ножа. Это что за бред?
— Нет не бред, — сказал я. — Ты сам посмотри на него. Он же в сумку его не кладет. А ты же саишник.
— Я не понимаю о чем ты говоришь.
— Я нэ знаю, как тебе объяснить. — сказал я.
— Да ты просто посмотри нннна него.
— Ну я ннну, смотрю.
— Таааак.
— Это что? — сказал я.
— Это ноу-хау. — ответил он.
— Ты хочешь сказать, что у тебя есть это ноу-хау? — спросил я.
— Ну ннну.
— Ноу-хау?
— А ты что думал. — усмехнулся он.
— Ты хочешь сказать что ты это ннне ты?
— Ну ннну.
— Ты что?
— Ннну.
— Ты понимаешь о чем я говорю?
— Конечно. Я же не говорю что это ты. Я говорю что это ноу-хау.
— сказал он.
— Ты что? — сказал я. — Ты понимаеш, что это ннне ты?
— Ну ннну.
— Тебя зовут не ты?
— Нет нне я.
— А ка кто? — спросил я.
— Я нннне знаю. — ответи он.
— Как это не знаешь?
— Ну я не знаю. Я просто это нннне я.
— А как это ннннне ты? — спросил я.
— Ну ннну, как не знаю? — спросил он.
— Ты что не понимаешь о чем я говорю? — спросил я.
— Нет ннне понимаю. — сказал он.
— Ты понимаешь, что ты говоришь? — спросил я. — Ты понимаешь, что ты говоришь? — спросил я.
— Нет ннне понимаю. — сказал он. — Я говорю, что ннне знаю, кто я. — сказал он. — Я говорю, что нне знаю, кто я.
А дальше модель зациклилась, надо писать интерфейс а-ля ai dungeon, чтобы можно было редактировать ее косяки, а не в консоли пердолиться
На столе лежал огромный и острый как нож нож.
>Но что, если я математик?
Кликер.
Только не используй всякую новомодную ебатню, в гугле ты найдешь только русскую подделку Логином или облачную парашу.
Правильная программа-кликер называется Orange.
Ну, пока с этим проблем нет. Проблема в том, на каком уровне. Просто, по твоему определению, хэллоуворлд тоже считается
чтобы поверхностно разобраться в процессе и алгоритмах, можешь потыкаться в программу для обучения машинному обучению Orange
. Скачаешь готовые учебные датасеты и сделаешь учебных задач больше чем некоторые за годы.
На работу программистом тебя, конечно, с этими навыками не возьмут, но ты получишь какие-то результаты и поймешь что к чему.
И да, ты сможешь часть предобработки данных сделать на питоне.
Перепечатывать хеллоуворлд из туториалов это не писать код.
Вопрос того же плана, что и "можешь ли ты рисовать". Просто водить карандашом по бумаге могут все, копировать картину тоже. Можешь ты рисовать сам? Вот и с кодом так же.
Ну из туториалов я код никогда не копировал, я лучше свой велосипед сделаю. Ну и код пока пишу только для задачек codewars, т.е. максимально не связанные с практическим применением и сторонними библиотеками. Но алгоритмы получаются довольно хорошие.
Судя по твоим словам, ты можешь кодить. Значит можешь вкатываться смело.
> программу для обучения машинному обучению Orange
Хуета так-то. Statistica 15-летней давности на минималках.
Если есть единственное наблюдение u =4, можно ли что-то сказать о N?
N >= 4
Можно, разрешаю.
>можно ли что-то сказать о N
Ебал мамку N
Я про общий функционал говорю, а не о конкретных алгоритмах, которых 15 лет назад не было.
N = 4 по MLE
я чет не пойму, у тебя какие-то другие альтернативы есть?
Хочешь вместо датасаенса 95% времени изучать документацию pandas - поебись с питоном.
Мотематик хуев....
>Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ
Но ведь у GPT-2 1.5 миллиарда параметров, а у самой большой GPT-3 - 175 миллиардов. В чем смысл этой модели?
>В том, что сам ты даже 700 миллионов параметров не обучишь.
Чем эта GPT-3 лучше уже давно доступной GPT-2 с 1.5 миллиардами параметров? Я думал что "инновация" GPT-3 по сравнению с GPT-2 заключается только в количестве параметров.
Инноваций у GPT-3 две, увеличенное окно контекста (1024 vs 2048) и чередование sparse и dense слоев.
Правда не понятно, почему они ruGPT2048 называют GPT-3, ведь там все слои dense, хотя и контекст 2048. Но medium модель формально GPT-3 medium, как описано в статье (если они не накосячили еще где-то).
Практический смысл в этом большой - можно файнтюнить на своем говне. Medium модель мне нравится. ruGPT2048 так и не заставил нормально генерировать, все время зацикливается.
А на каком уровне gpt работает? Почему-то казалось всегда, что там char-level, но судя по предсказаниям, предсказывает word-level. Да и странный параметр vocab_size в репозитории.
Что-то между, в более короткие токены превращаются популярные последовательности символов, а-ля архиватор, соответственно перед отправкой твой текст заменяется на набор токенов, а после декодируется по словарю назад. Это позволяет увеличить эффективный контекст в разы, но из-за этого даже the gpt3 всасывает на рифмах, если не разбивать буквы пробелами.
>Коллеги прочитав, переписку Бота я даже не поленился зарегистрироваться!
Я напомню, что есть такой термин Олигофренизм и одна из стадий это Дебилизм. Это не оскорбление, это термин медицинский! Так вот Дебил это сущность которая понимает слова, но не понимает их сути! Так вот прочитав переписку Бота я вижу клинический диагноз. А теперь представьте, что свершится мечта Банка и такие Боты будут доступны всем, и что будет? — будет клиника у всех! Поэтому вы можете хвастаться искусственным интеллектом, но по факту это бесполезная, даже опасная вещь!
На швабропараше один нормальные комент и то хомячье щаминусило.
Смешно
Это ради кое-как обученной нейроночки с 3.5 параметров они пару лет назад по всей стране видюхи скупили? А чего крипту майнить прекратили? Сложность выросла, выхлоп уже не тот? Решили таки нейроночками заняться, доесть за западным барином? Лучше бы интерфейс онлайн банка написали не ногами, хуле оно после каждого пука грузится заново? Зато процент по вкладам в два раза меньше чем в ВТБ. (((Грефу))) денешки нужнее?
Ты в каком офисе карту открывал, туда и иди. Талончик в регистратуре не забудь взять на запись в электрическую очередь. Че ты сюда полез, старый? Ты хоть понял где находишься?
> Ты в каком офисе карту открывал, туда и иди.
От этой хуйни вроде избавились. Недавно карту менял (срок закончился, а у меня там бабло оставалось), поменяли на новую в том офисе, куда обратился.
>Это ради кое-как обученной нейроночки с 3.5 параметров они пару лет назад по всей стране видюхи скупили?
Что несешь, жидошизик, V100 нельзя скупить по всей стране, это товар другого уровня
Сбер это же санкционная параша, им пади в100 не продадут. Они рил ходили по магазинам и скупали игровые видеокарты, лол.
V100 - не турбина для электростанции, ты ее в розницу можешь купить у рашкофирмы. На игровых картах подобные сетки не тренируются без большого ботлнека.
Мань, но это же официальное заявление сберкассы https://amp.rbc.ru/rbcnews/technology_and_media/11/11/2017/5a06d1599a7947e3b0f9dc55 например. Смешно даже не это (такие новости даже не удивляют уже), а то, что этим занимался кабанчик с фамилией Ведяхин. Видяхин скупил видяхи.
>Мань, но это же официальное заявление сберкассы
Я в курсе, мань, а теперь пиздуй лечить дислексию, потому что твой пост никакого отношения к моему не имеет.
На самом деле я бы хотел что-то с вычислением "лишних объектов" или мест, где этих самых объектов не хватает.
Ну смотри:
либо питоны дроченые https://developers.arcgis.com/python/guide/part6-solve-location-allocation/
либо апельсины (Orange Data Mining software) в говне моченые
Предполагается, что ты живешь в плоском Барнауле и доступа к api расчету расстояний у тебя нет.
А то по ссылка какая-то платная параша..
Но это же дрочево для визуализации,, которое при попытке использовать, требует сервера за кучу монет.
Там уже есть k-means?
Данные выбрать на карте и сохранить в файл можно?
Даёт неплохие представления для текстов. Может, можно будет использовать как часть пайплайна.
Меня больше интересуют подвижки в вопросе перевода естественного языка в формальный, типа "по вопросу сгенерировать SQL-запрос".
Пока ты хочешь выебываться в твиттере результатами - может всё.
Когда захочешь выкатить в прод - начнутся проблемы. При обучении случится mode collapsing, компания разорится из-за счетов за электричество, сетка начнет оправдывать геноциды, обучится к моменту тепловой смерти вселенной.
С чего начать изучение математики, если я с самого первого класса всегда отставал и доходило до того, что мамка мне решала домашку. А когда я стал чуть старше, то заставляла меня учить формулы и таблицу умножения как стихи. Ну и регулярно срывалась на мне и била по голове скалкой пока я кровью вперемешку со слезами и соплями не заливал школьные учебники.
>>39093
>>39094
Благодарю! Меня интересует - может ли GPT-3 пройти этот тест:
https://vc.ru/special/roboeditor
>Системы конкурсантов должны проверять материал на соответствие теме, искать неуместные аргументы и разрывы в логике.
Или же GPT-3 это лишь более улучшенный анализатор текста на предварительные ключевые слова и параметры?
Human Brain Project провалится.
Ничто не мешает из него выдрать получение эмбеддингов. Более того, оригинальный GPT для того и делали, это уже потом выдумали задавать вопросы языковой модели, чтобы она на них отвечала.
Кого ты удивить хочешь?
Задача, если вкратце, есть временной ряд с фичами y(t) X(t), хочу предиктить какой-нибудь RNN. Но следующее значение сильно зависит от предыдущих, поэтому хочу перед началом предсказания пропихнуть несколько известных X и y. Как мне вручную запихнуть в модель h_0[-1]? Как заставить пересчитать остальные h_0? Где об этом можно почитать, а то я даже не понимаю, как правильно сформулировать запрос для гугла?
Нах ему трансформеры для временных рядов? Они же порядок только через костыль учитывать могут.
Подскажите книгу справочник для классического мла, например если что забыл -> посмотрел, с меня как обычно..
https://hh.ru/vacancy/39661232
Ну только ты уже фиксируешь ширину окна, так что далеко в прошлое смотреть алгоритм не сможет. Да и в алгоритмах никак не будет использоваться знание того, что у тебя данные одной природы в разных столбцах матрицы.
>Требуемый опыт работы: не требуется
>What we need to see:
>5+ years of experience
Уже практически не горю с такого
правда не горю...
Тем что информация о просто n (которое кстати надо ещё выбрать) подряд идущих событиях не всегда полезна для того чтобы по ней что-то сказать, например если события у тебя происходят очень часто и между соседними мало что меняется алгоритм будет предсказывать не лучше чем просто по текущей точке. А количество всех возможных более сложных агрегаций истории можешь сам подсчитать. Тем что временные ряды часто многомерны, т.е. каждая точка это например вектор миллионной размерности. Короче всем тем же что и везде не повзволяет просто брать голые данные и скармливать их бустингу без предобработки.
блядь.
В этом состоит Датасаенс, чтобы использовать какую-то хуйню лишь бы покрасоваться определением?
Почему временной ряд не анализируется как простой вектор?
>В этом состоит Датасаенс
Да
Потому что за это тебе заплатят 300К/сек и назовут самой сексуальной профессией 21 века
а статистика и другая скучная хуйня - ты чо бухгалтер что ли((
Хочу вот это попробовать повторить. Предсказывают смерть HDD на основе данных SMART . Дохуя практичная программа получилась бы!
Тут в примере временные ряды и небольшое число признаков.
Какие подводные?
где МАТРИЦА ГАНКЕЛЯ ?
Потому что у тебя переменная длина у этого простого вектора мб?
В 2020 есть два хороших подхода для одномерных данных, это CNN, если зависимости у тебя в основном локальные, и трансформеры, если зависимости сразу по всему окну. Считаешь ты пазишен энкодинг костылем или нет, он работает. RNN не нужны нигде, они всасывают у трансформеров во всем.
Спасибо за совет, попробую. Даже нашёл какую-то статью с пример трансформера для временных рядов , но потерял)
А как, кстати, реализуется длина окна? Вот пришла мне последовательность длиной миллион, и я не хочу квадратную матрицу миллион на миллион (KQ^T) считать для трансформера. Что в таком случае делают? Вручную нарезают?
1920x1080, 0:16
ты не понел. Я тоже иронизирую над тягой к малопонятным аббревиатурам вставляемым не к месту.
И в этом исследовании их нет.
>В 2020 есть два хороших подхода для одномерных данных
аминь
А в 21 ещё каую-нибудь новую хуйню придумают в гугл ресёрче, додики будут с новым ещё одним ЕДИНСТВЕННЫМ ПОДХОДОМ носиться.
>А как, кстати, реализуется длина окна?
Через пазишен энкодинги как раз. У тебя к каждому токену приписано его положение в окне, например, с помощью бегущих синусоид рзаной частоты. Если ты тренировал сетку на окне с контекстом 2048 и имел соответствующие частоты синусоид, а возьмешь окно в миллион, сам трансформер-то скейлапнится, потому что ему похуй на длину последовательности, но с экондингами слушится жопка - потому что самые низкочастотные синусоиды начнут повторяться. Поэтому реальный вариант только один - бить строку длинной миллион на куски по 2048, возможно с перекрытием, и процессить.
Все выучили bitter lesson http://incompleteideas.net/IncIdeas/BitterLesson.html и хуйней не страдают.
Давай, назови автора этого эссе зумером и сойбоем.
Да все мы знаем, что есть классический подход, основанный на определителе жумпеля. Правда там качество не сильно лучше подбрасывания монетки, но главное, что зумеры не знают.
Нет трожь эту святую женщину, она заслужила выглядеть как угодно и делать что угодно
вопрос такой: может у кого был опыт устройства на работу в яндекс в команду беспилотников? я просто пиздюк, только уник закончил (робототехника), а опыт (3года) скорее релевантет больше к классическому проганью, чем к slam/траекторным задачам. Требования там ебать какие, судя по сайту.
Так вот, если пробовали устроиться в эту тиму, расскажите как оно. Может вообще тут из яндекса сидят (а он большой же, хули) расскажите плз, думаю не мне одному интересно будет
И еще доп вопрос: похожая тематика вообще где-нибудь есть еще в мск? чтобы роботы там, сенсоры, ну в общем вся та хуйня, которую я упорно учил 6 гребаных лет
спасибо, друзья
>а опыт (3года) скорее релевантет больше к классическому проганью,
Ну и нахуй ты им нужен? Там таких как ты пруд пруди да еще и олимпиадники.
датасаенс объявили sexies job в 2012 году - 8 лет назад. Ты что делал 6 последних лет?
там не только дата саентисты
в команде есть прогеры, внезапно
или ты, аналитический петух, копающийся в юпитере, прогером себя считаешь?
мимо c++ разраб
Да. Смотрю как на говно на эту ораву .
Ведь у меня нет проблем веб-приложение слепить из ноутбука.
шизик, разговор окончен
интересно сможешь ли ты хоть в самую сратую контору пройти собес на чистого питониста, веб приложение о слепит из ноутбука
Кстати, кто-нибудь осилил книжку саттона-барто? Я боюсь вкатываться из-за того что там может оказаться много устаревшего говна.
>И еще доп вопрос: похожая тематика вообще где-нибудь есть еще в мск?
Да дохуя, бери и ищи. Штук 10 вакансий должен найти сходу
Ну да. При чем если висит сеньерская вакансия, потыкай в нее пальцем, поищи careers на сайте у фирмы или вообще напиши влоб. Кодер с профильной вышкой - это довольно сильно. Как правило таким проектам не хватает как раз нормальных кодеров, которые разбираются в предметной области. Маняматиков дохуя, а работать некому.
По-моему RL тут только ты интересуешься
спасибо, дружище
да какую-то, наверное, приносят))))
я сам вообще встраиваемыми системами занимаюсь - у нас матеши нет
В целом реалии яндекса таковы что хоть ты C++ прогер хоть МЛщик большую часть времени ты будешь перекладывать джсоны и запускать графы в нирване. Случай беспилотников может быть конечно особенный, но вообще когда меня года два назад дёрнуло поработать в этой параше полгодика, на ячане (внутренний двачик) вполне активно млщики оттуда спрашивали куда можно перейти, так что думай.
хм, интересно
просто выглядит так, что у яндекса единсвтенных позиция "на передовой" в плане беспилотников (про сбер беспилотники молчу от части потому что не знаю как у них дела, от части потому что знаю как дела в лаборатории роботоетехники). Тк бюджет дай боже, машинки уже гоняют. Возможн я романтизирую, но мне кажется, что дела у них идут круто и задачи ок. НО опять же, не стоит забывать что я обосранный вчерашний студент
>Все выучили bitter lesson и хуйней не страдают
Ты забываешь про нехватку данных. Использование domain knowledge и классических алгоритмов вкупе с нейронками позволяют достичь адекватных результатов при намного меньшем количестве данных.
Не, если ты студент и попадёшь в беспилотники яндекса это очень круто для резюме безусловно, попытаться стоит. У них бан на полгода вроде бы, если обосрёшься потом ещё можешь попробовать.
>Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation
...
> 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher
> 3) in the long run it plateaus and even inhibits further progress
Мне особенно нравится вот это персоналли сатесфаинг. Оно реально так. Придумать костыль для данных - весело и вкусно, такой ходишь довольный, что на текущем железе выжал максимум. А на длинной дистанции нахуй оно не уперлось, твои хаки под датасеты. А что уперлось - это простые как валенок универсальные решения, типа UNet.
Если обосрёшься везде то в яндекс, но тебе возможно будут предлагать не одну команду.
>такой ходишь довольны
Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью, а не макакить слой за слоем.
>Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью, а не макакить слой за слоем.
Макакинг слоев можно автоматизировать и отдыхать, пока трясется ящик, а для ресерча придется по-настоящему РАБотать.
Двачую, я затем чтоли в мл пришёл чтобы макакить? Захотел бы макакить не ебал бы мозги и фронтендером стал.
>Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью
satisfying - это не про чсв, это как раз про интересно. Понятно, что ресерчерам интереснее решать интелелктуальные задачи типа решения судоку, только чтобы за это самое судоку еще платили деньги. Посмотрел немигающим взглядом в график, увидел, закодировал, решил головоломку.
А приходится проектировать системы для тряски ящиков.
И хули ты хотел. Астрономы тоже вместо просмотра ночного неба в деревнской глуши трясут телескопы, в которых день работы стоит миллион долларов. Никакой романтики.
Так в том то и дело, что ты погряз в макакинге и не знаешь, что сейчас можно деплоить сразу ноутбук в веб.
Программисты не могут перевернуть индустрию, а я - могу.
ВЫ ЧЁ, ДЕБИЛЫ? Вы чё, ебанутые, что ли? Действи.. вы в натуре ебанутые? Эта сидит там, чешет юпитерблядь. Этот стоит, грит: "Я те щас тут dlib в докере скопмилирую "..
и че, сколько индустрий уже перевернул?
Придумать новую канализационную систему - весело и вкусно, такой ходишь довольный, что на текущем железе выжал максимум. А на длинной дистанции нахуй они не уперлись, твои фитинги. А что уперлось - это простые как валенок универсальные решения, как сантехникам копаться в этом говне
>Codemonkey, pls
А теперь ты берешь и поясняешь, в чем профит жупитера.
https://www.youtube.com/watch?v=7jiPeIFXb6U
У меня тоже.
Так маняматик без задней мысли вкатится куда угодно
Да просто
В какой-то момент силой мирового гения учоных додумались до гениального решения что можно применять несколько матриц из параметров ко входу и брать свёртки того что получится, тогда выходит нелинейная но распараллеливаемая зависимость. Это называется атеншен.
Теперь если взять его поширше и застакать с обычными перцептронами поглубже, не забывая residual связей чтобы градиенты не кукожились и позишнл энкодингов чтобы гениальный механизм распознал что за чем следует, получится энкодер трансформера.
Если взять то же самое, но теперь в атеншене сворачивать с тем что пришло из енкодера то получится декодер.
Трансформер это энкодер плюс декодер плюс классический софтмакс поверх.
Всё это великолепие в охулиард параметров теперь можно тренировать если у тебя есть дохуя бабок, времени и достаточное количество яйцеголовых чтобы пинать сиё элегантное решение в нужном направлении. Отдельные безумцы смущаясь говорят что если у тебя есть дохуя бабок, времени и яйцеголовых то можно взять хоть огромный двухслойный перцептрон, лотерейные билетики сделают хрусть-хрусть и всё будет работать не хуже; но ни у кого нет всего вышеперечисленного чтобы проверить.
В целом этот процесс называется BigTech несёт прогресс.
> general methods that leverage computation are ultimately the most effective, and by a large margin
Если у тебя дохуя бабок. Вообще забавно как очередная "освобождающая" технология становится просто ещё одним преимуществом искусственных монополий над малым/средним бизнесом. Такое будет случаться всё реже и реже по понятным причинам, смотрите, дети, на пролетающую комету, нескоро вы её ещё раз увидите.
>Если у тебя дохуя бабок.
Наоборот, если у тебя мало бабок, то первым делом нужно думать о качестве своих вложений, и ни в коем случае не попадать в ловушку этих ad-hoc решений, которые живут несколько лет, а потом их смывает прогрессом.
Ну это аргумент в стиле зачем тебе нелегал мексиканец заведи себе киборга.
Такого не видел. Сделать можно, наверное, но ты ниасилишь, и денег ни у тебя, ни у твоего босса не хватит.
В смысле, не видел?
не видел он... все
https://www.youtube.com/watch?v=6FN06Hf1iFk
>>40688
> Я же хочу задать области ролика, которые требуют особой обработки,
или ты платишь кучу бабла или идешь нахуй со своими гуманитарными фантазиями.
Этот просто взял не самый плохой исходник и прогнал кадры через топаз гигапискель, так и я могу. Идешь нахуй ты со своими гнилыми понтами, совсем уже студентота оборзела.
ок, понял, спасибо
ЦПТ и pandas cheatsheet.
да хуй его знает что там у тебя спросят. мы за тебя должны на все собеседования сходить?
>Давай, назови автора этого эссе зумером и сойбоем.
Я назову его скорее довольно странным пафосным товарищем, который из пары распиаренных примеров успешного применения брутфорса, упрощая, выводит очередной единственно верный способ думать о всех проблемах вообще. Количество решений реальных бизнес проблем как раз использующих адхок на полную в то же время остаётся неизвестным по естественным причинам.
Я думаю что единственный общий принцип есть только один: не существует волшебной палочки. По крайней мере мечты о оных никогда ещё не сбывались.
>Где работать?
Есть ли смысл искать джунопозицию на западе? Они удалёнку предлагают?
Или только переезд и работа в офисе?
>Есть ли смысл искать джунопозицию на западе?
Кому-то есть, кому-то нет.
>Они удалёнку предлагают?
Кто-то предлагает, кто-то нет.
>Или только переезд и работа в офисе?
Кто-то только переезд, а кто-то нет.
Данных тонет. У меня еще хорошая модель, нейроночка бы просто выплюнула дефолтные предсказания и понимай как хочешь.
>Фриланс можешь поискать
Предварительно раскошелившись на новый комп с нормальной видюхой и памятью, что при нынешнем курсе рубля выйдет в 50-100 тысяч деревяннных, а то и больше.
И всё это чтобы зарабатывать копейки на фрилансе. Во всяком случае
поначалу.
План уровня /pr
Какой вообще фриланс может быть в датасаенсе? Фриланс это для мелкого бизнеса, вебсайты и наколенную автоматизацию делать. Откуда у них данные, деньги на машоб?
Так ты же сам им не предлагаешь ничего. Не стараешься создать почву. Только в кеглю дрочишь.
Надо популяризировать науку.
> кегля внезапно не приносит доход
Попади в топ, а потом проси з/п на $300000+ в год. Делов-то
Все равно что стать звездой баскетбола или топ актером, или депутатом. Только еще сложнее, пожалуй, потому что в отличие от них, на кегле придется головой работать. А конкуренция там +- сравнимая. Еще с паблик ноутбуками этими вообще жестко получается.
И, кстати, круг компаний которые очень ценят кагл сильно ограничен. Для большинства это как какой-то сертификат, что-ли, ну хорошая штука для последней строчки сиви. Если они вообще знакомы с каглом. А если ты положил жизнь на кагл, то тебе будет нечего написать в графе "опыт", и твое сиви полетит в корзину еще до того, как они дойдут до твоих призов.
>Попади в топ,
Вангую в топ попадают те, кто может использовать рабочие мощности.
А со своей пекарней ты никогда мегамощную сетку не запустишь.
почему бы не иметь возможность продемонстрировать примеры своего кода по какой-нибудь бесплатной никому не нужной проблеме с низкой конкуренцией?
такие хоть есть на кагле?
>Фриланс это для мелкого бизнеса
Да
>вебсайты и наколенную автоматизацию делать. Откуда у них данные, деньги на машоб?
Ты описываешь рашкореалии. В США мелкая контора с 10 сотрудниками должна делать $600к/год только для того, чтобы платить людям зарплату. Если объем фонда оплаты труда 50%, получается больше ляма оборота. На этом фоне нанять макак из третьего мира размечать датасеты и трясти нейронки стоит достаточно мало, чтобы был постоянный поток желающих рискнуть.
В любом случае пробовать лучше, чем сидеть на дваче. Как будто у тебя большой выбор.
В реальности таких предложений на традиционных фриланс-площадках нет. Они, скорее всего, нанимают контракторов из специализированных контор, либо своих датаслесарей.
Только два варика: валить через науку или через опыт, полученный за еду в любой рахоконторе.
Да выбор вообще хуевое слово. Есть много разных лотерей, в которые нужно играть. Не дают первый проект на апрворке - дрочишь кагл. Не дрочится кагл - тренируешь стайлган на колабе. Хорошо натренируешь - внезапно получишь проект, а на пятом проекте - предложение поддерживать слепленное тобой говно. А не повезет - твой анус будет закален настолько, что на собеседовании будет что-то типа "а, йобанейм? знаю такое, работал, и с этим работал, и с этим работал".
Блять твой фриланс вот именно что ебаная лотерея. Сейчас работа есть, а завтра нет. И если в 20, когда ты у мамки на шее это ещё покатит, то в 30 уже не очень.
А всем ОПЫТ подавай. Даже видел на стажёров.
Вообще охуеть.
>А всем ОПЫТ подавай. Даже видел на стажёров.
Когда у тебя очередь из 500 человек стоит на вакансию стажера, из которых многие с ПхД, статьями, петпроектами, то можно и даже нужно задирать планку до небес, чтобы отфильтровать поток.
>многие с ПхД, статьями, петпроектами
Этой хуйне никто не верит, потому что полно жуликов, которые статьи имеют примкнувшись паровозиком, петпроекты - чисто для галочки, а если у человека ПхД и он идет на стажера - это вообще пиздец.
А вот несколько успешных и внедренных проект на фрилансе - это другое дело. Это значит, что соискатель не аутист, который не может сформулировать задачу, не задрот, которому нравится решать судоку за деньги, а не бизнес-задачи, не ботаник, который 5 лет учил формулировку ЦПТ, но не знает, как написать докерфайл.
То есть реально, приходит вот такой ПхДшник, обвешанный статьями и натренировавший стайлган, просит 150к, потому что хули, он джун что ли какой-то, а после вопросов понятно, что ближайшие несколько месяцев ты будешь его учить писать докерфайлы. Ему перезванивают, а он, залупа пафосная, думает, что "бля, это если МЕНЯ не взяли, то кого же взяли тогда?".
Возможно.
>>42161
>Когда у тебя очередь из 500 человек стоит на вакансию стажера,
А по факту многие вакансии висят месяцами, либо всё ищут того самого неповторимого, либо просто собирают базу кандидатов.
Да и вообще 500 человек - жирновато, у нас тут не вротенд и не qa. Машобчик всё же требует базовых знаний математики, программирования и чего-нибудь ещё.
>ближайшие несколько месяцев ты будешь его учить писать докерфайл
Макакен, всё в другую сторону работает: это ты, писатель докерфайлов, не сможешь быстро в настоящие вещи типа математики; а вот математик твою хуйню за полчаса максимум освоит. Именно поэтому математиков (тем более пхд) обычно набирают везде, от консалтинга до биоинформатики даже с нулевым знанием предметной области потому что типа сам освоит.
С чего ты взял, что я макакен? Для начала попробуй ответить на этот вопрос, а потом я объясню тебе, где ты не прав.
>Именно поэтому математиков (тем более пхд) обычно набирают везде
Даже имея пхд по компьютер саенс, который ценится намного больше, ты пойдешь либо постдоком за еду, либо джуном-макакеном, либо, если попадешь в машоб, будешь перекладывать жсоны и чистить вилкой данные за ту же зарплату джуна.
Маняматики в рыночек вписались еще меньше. Без других навыков (как кодинг для машоба) они вообще никому не нужны. Получив пхд у тебя два варианта - либо всю жизнь работать за еду, либо переобучаться на другую специальность.
Готов джуномакакеном за еду и опыт.
>пхд по компьютер саенс, который ценится намного больше
Ха-ха, дед, 90е давно прошли, доброе утро.
>Получив пхд у тебя два варианта - либо всю жизнь работать за еду, либо переобучаться на другую специальность
Я тебе написал как в реальности с нормальными ресёрчерами дело обстоит. У тебя очевидно примеры "аспирантов" косящих от армии на мамкиной шее в твоём мухосранском заборостроительном.
У тебя самого phd в чем?
>Я тебе написал как в реальности с нормальными ресёрчерами дело обстоит.
Дай определение нормального ресерча, и в какой стране им занимаются. Ну и самое главное, чтобы зарплата была хотя бы на уровне кодомакаки с аналогичным опытом (сам по себе пхд считай за пять лет опыта).
>У тебя очевидно примеры "аспирантов" косящих от армии на мамкиной шее в твоём мухосранском заборостроительном
Найс проекции.
>джунопозицию на западе
Там всё ещё хуже
Qualifications:
BS degree in Science, Engineering, Business Administration or related field + 5-9 years' experience;
9 years' experience equivalent to any combination of education and experience
Must possess acute reasoning/problem solving skills
Ability to conduct sophisticated experiments and develop theories
Ability to perform complex calculations and mathematical modeling
Ability to use computer technology
Ability to research and gather information, analyze and organize data, and prepare technical reports
Must be thorough and pay attention to detail
Excellent written, verbal and interpersonal communication skills
Ability to obtain a U.S. DOD Security Clearance up to the Top Secret level if required.
https://www.indeed.com/viewjob?jk=f6eafe2ae69a0bbc&tk=1elo1qhje3kff001&from=serp&vjs=3
>Junior Scientist
>BS degree in Science, Engineering, Business Administration or related field + 5-9 years' experience;
>9 years' experience equivalent to any combination of education and experience
И при этом зарплата максимум как у джуна-фронтендера.
Какой подход применить? Нашел МАС - мультиагентные системы. Альтернативно - использовать что-то из более традиционной штук типа всякой математики для проблем а ля job shop.
Можно ли здесь как-то нейронки вместо всего этого использовать? Может уместно будет в агентаз МАС использовать?
В нейронках ноль, времени на все магистратура. Предварительно проект на с#, так как задача полурабочая, может пойти в готовый продукт.
>если у человека ПхД и он идет на стажера - это вообще пиздец
А что делать, пчел? Не все такие звезды, что рекрутеры обрывают телефон и почтовый ящик. Стажировка/интерншип по машобу в гагле и сравнимых местах оче соревновательна. Они там вообще берут кого хотят. Недавно был скандал, что в индийском офисе гугла на интерншип взяли ТОЛЬКО молодых тяночек. Как тебе такое требование? Сможешь пройти такой фильтр со своими стайлганами?
> Работ может быть много, а рабочих мало. Цель - составить оптимальное расписание, чтоб никто за станком не помер и у предприятия был профит максимальный.
Экстремум целевой функции. Зачем тебе ML, если люди матан придумали? ML для по-настоящему сложных, порой чисто символических, задач (NLP к примеру).
>Зачем тебе ML, если люди матан придумали?
Это чтоб на собесах потом говорили "аааа извините, матан это прекраcно но нам нужен опыт в мл" ?
>пробовать лучше
Что пробовать? Пруфов такого фриланса - тем более в значимых объемах - ты так и не привёл
> >Зачем тебе ML, если люди матан придумали?
> Это чтоб на собесах потом говорили "аааа извините, матан это прекраcно но нам нужен опыт в мл" ?
Ну, это смотря куда идешь. Если работа непосредственно связана с ML, то ясное дело HR будет требовать опыт в ML. Однако в твоей задаче достаточно математической оптимизации. Можно и нейронками решить читай: нейронка почти универсальный метод оптимизации
ML нужен в задачах:
- NLP
- Обработка здравого смысла и логики (иногда может пересекаться с NLP)
- Стратегий (к примеру, в играх)
- Интеллектуальная обработка/синтез изображений
- Синтез голоса и музыки, прочего аудио
Если надо решить задачу, но не понятно, как её решить, то нужно использовать NN.
Даже там соснешь, инфа сотка. Придет скучающий ГМ на неделю до конца, у которого пара DGX-2 на работе простаивают))
Или очередной раджикумар в погоне за ноутбучными медальками расшарит ноутбук с хорошим решением, и начнется blending frenzy, когда за час будешь на 100 мест вниз сползать.
Или после открытия привата окажется, что сознатели накосячили немного)) и скоры рандомны.
Тогда как?
Так в этом и суть. Нейроночка должна адекватно зомбифицировать еблишко, которое первый раз видит и которого 100% не было в обучающей выборке.
>как работают генеративные сети, когда у нас недостаточно пар для обучения?
Когда данных недостаточно они не работают. Обычно mode collapsing случается и они одно и то же начинают генерировать.
>У обучальщиков же не могло быть несколько тысяч фотографий одних и тех же людей в парах зомби<->не зомби.
Пары уже года три как не нужны https://arxiv.org/abs/1703.10593
Сентимент анализом я думаю, можно что-то подобное детектить, но как ты это к куклоскрипту прикрутишь? И как ты видишь детекцию толстоты? Разметить датасет на толстые посты и нет?
> но как ты это к куклоскрипту прикрутишь
Создать аналог куклоскрипта. Только с блекджеком и нейронками.
> как ты видишь детекцию толстоты
Устанавливаешь расширение -> заходишь на двач -> хайдишь неприятные посты -> данные поста отправляются в датасет -> тренируем -> повторяем н-ое кол-во раз пока нейронка не сможет самостоятельно хайдить посты.
Толстые модели будут долго жевать текст, невыносимо будет двачевать с такой скоростью.
Скорость пораши - 1000 постов в час, это по 3.6 секунды на пост. Бабушкин утюг справится. Надо просто сделать сервис, который будет выдавать результат по номеру поста, а куклоскрипт уже пусть обрабатывает результат.
>Надо просто сделать сервис
Который будет собирать твои данные вдобавок к мейлру и гуглу? Нет, нахуй такое.
Я думал что хотя бы здесь понимают, чем чревато анальное огораживание всего и всея сервисами, но, видимо, я ошибался.
Если делаешь в виде сервиса - выкладывай модель и код в открытый доступ, чтобы любой мог поднять у себя сервер. Не потакай созданию кибергулага.
Иди нахуй, нечёткий шизопетух.
>Если делаешь в виде сервиса
Я вообще ничего не делаю. Я всего лишь написал, что 1000 постов в час - это хуйня, но только при условии, что процесс работает в бэкграунде, а не анализирует каждый раз тред при клике на него. Остальное уже твои разоворы с воображаемым собеседником.
>Остальное уже твои разговоры с воображаемым собеседником.
Добро пожаловать в /pr/ - НЕЙРОНОЧКИ И МАШОБ ТРЕД
Проще не сидеть на дв*че 24/7
Можно спец. клиент сделать. Но тебе оно надо? Потратишь полгода, а результат будет пшик. Никто кроме тебя пользоваться не станет.
> Толстые модели будут долго жевать текст
Можно делать не толстые. Да и датасет даже до 500 Мб никогда не вырастет. Если делать по схеме, что я описал выше. Делать все, конечно, нужно на локальном железе.
Меня самого бесит, что ML уходит в облако.
К тому же есть шустрые алгоритмы классификации текста.
Погуглю эту тему, может реально создам свою интеллектуальную дашу
Ещё всяких зумерошизиков по картинкам детектить надо. А потом в ответ пойдут adversarial атаки.
Microsoft выпустила бесплатный инструмент для обучения ИИ для тех, кто не умеет программировать.
Microsoft открыла всему миру доступ к программе Lobe, позволяющей за несколько минут создавать готовые модели машинного обучения для дальнейшего их использования в сторонних ПО и устройствах. Программа полностью бесплатна и исключает написание программного кода в процессе тренировки моделей – от пользователей нужно лишь загрузить в нее данные, а всю работу она выполнит сама.
>Microsoft выпустила бесплатный инструмент для обучения ИИ
>Label an image based on its content. AVAILABLE NOW
>Locate an object inside of an image. COMING SOON
>Label data in a table based on its content. COMING SOON
Ну точно ВСЕ.
Лол, а сейчас остались математики, не умеющие кодить? У меня даже деды в вузе этим занимаются, хотя с IT предметами они не связаны.
мимо третьекурсник маняматик
>Лол, а сейчас остались математики, не умеющие кодить?
Умения кодить недостаточно - нужно уметь в архитектуру приложений, знать паттерны, солид и прочее. Математики не только всего этого не знают, но и настолько привыкают писать говнокод, что их практически невозможно переучить.
>уметь в архитектуру приложений, знать паттерны, солид и прочее
чтож ты делаешь макакен уймись
Главное чистые функции от грязных отделить, а из этого уже остальное следует.
школьник, плиз
>чтож ты делаешь макакен уймись
Датасаенс это то же айти, только еще более динамичное. Поэтому архитектуре приложения тоже надо уделять внимание, чтобы при изменении спецификаций можно было максимально быстро адаптировать старый код. Говнокод очень быстро выльется в необходимость затратить намного больше времени, чем можно было затратить для построение нормальной архитектуры и избежания этих проблем.
Вдобавок, все преобразования данных должны быть автоматизированны, что важно для воспроизводимости. Каждый эксперимент должен быть привязан к коммиту в гите, чтобы в случае чего можно было откатить все назад.
Какое убожество. Целый один классификатор изображений.
В Orange на коленке собирается.
Это все что фирма с миллиардными оборотами смогла высрать? Кого они надеются этим вовлечь в датасаенс?
Смешной тренд с этими кликерами. Если пользователь не может писать код, откуда у него возьмутся данные? Тоже накликает?
Ну вместо слесарьплов будут дергать гуй, толку то, если в теории не шаришь.
Привет ты охуел?
https://msoffice-prowork.com/ref/excel/excelfunc/statistical/forecast/
Сейчас у всех есть данные.
Чем больше людей в это вовлечено - тем больше тебе высокооплачиваемой работы.
>Сап народ не в теме машинного обучения но вопрос можно ли запилить тян-бота на основе переписки с тян в WhatsApp. Хз почему такая ебнутая мысль пришла. Если можно как мне от туда вытащить текстовые сообщения и поидее нужно отсортировать их на мои и её и какую лучше библиотеку брать? Tensorflow?
> Если можно как мне от туда вытащить текстовые сообщения
Чел, ты... Освой хотя бы сначала эксель
Бля зашёл спросить на двач называется пойду загуглю лучше, вы бесполезны.
Так я не понял, это же тупо разметчик с какой-то моделькой искаробки.
Если есть размеченные данные это более менее в 10 строчек и на керасе делается сейчас, проблемы возникают когда данные надо предобработать каким-то нетривиальным образом или качество модели нужно не среднеговённое.
GPT неплохо генерирует текст.
В смысле? Синтаксис знаю, с типами данных работать умею, ооп понимаю.
Темы норм, только бигдата немного не в кассу. Порядок рандомный.
Порядок говно, половину пунктов объединить, добавить основы веба (чтобы проекты не заканчивались на стадии jupyter notebook'а)
В любом хорошем вузике математика (типа ТФКП) идет параллельно с ее применениями (типа теории управления или электротехники). Иначе голую математику ты не усвоишь, потому что в мозге не будет нужного количества зарубок о том, а где именно это нужно. Чем больше у тебя междисциплинарных ассоциаций, тем лучше. Иначе буквально будешь смотреть в книгу, делать упражнения, а по итогу все вылетит из твоей головы. Поэтому никаких роадмапов быть не должно, нужно брать одновременно по несколько дисциплин и ботать их, желательно завершая это дело пет-проектом, который объединяет все выученные скиллы.
>Ты как будешь доказывать сложность и корректность алгоритмов без математики?
Сложность понимается интуитивно, а доказывать корректность в дасасаенсе нахуй не нужно.
Это ты тот отчисленный криптограф?
И как вкатываться в эти domain knowledge-то
Смотреть программы специальностей, которые себе придумывать?
Да и вообще можно в кликере модельки обучать.
Зачем придумывать. Программы топовых вузиков есть в открытом доступе, включая требования к разным курсам. И если мы обсуждаем картинку типа >>44264 , то должно быть примерно так:
1 этап
матан+линал+дискретка+основы питона+юникс шелл
2 этап
матричный матан+базовый машоб+олимпиадки по информатике+математический питон+матплотлиб
И так далее
А ни в коем случае не последовательный путь, когда ты ты будешь месяц учить доказательства теорем через эпсилон-дельту и потом выяснишь, что тебе это потребуется через 5 лет при чтении пейпера Шмидхубера и Хохрайтера. Так не бывает. Мозг почуствует, что ты занимаешься какой-то хуйней, и врубит режим прокрастинации. Обучение должно быть вкусным.
Иными словами, если решение надо применить для транспонированной свёртки
https://github.com/joe-siyuan-qiao/WeightStandardization
достаточно ли будет заменить conv2d на conv2d_transpose?
Или надо копать глубже?
Так это получается надо учебники линала и матана на питон переписывать? Чёт не особо это представляется и где тут вкус появляется Где ж эти эпсилоны засунуть-то
И другие специальности я думал чето типа инженеры там в автокад учится или биотехнологии какие-то
А какие там связи-то? Допустим между матрицами, которые получаются по элементарным преобразованиям, ставится значок эквивалентности (тильда), что изучают на дискретной. А отношение в дискретной описывают матрицей. Что ещё есть эдакого
>Так это получается надо учебники линала и матана на питон переписывать?
У меня на линале были лабы на питоне, так что можно считать, что уже.
Не используй транспонированную свертку. Делай upscale с помощью nearest neighbor interpolation (то есть фактически 1,2,3,4 => 1,1,2,2,3,3,4,4) и затем обыкновенную свертку, либо, если ресурсы прижимают, subpixel convolution с ICNR инициализацией.
Транспонированная свертка страдает от алиасинга, который проявляется в виде сетчатых артефактов в самом начале обучения. Подавление этих артефактов не бесплатно. Сабпиксельная страдает чуть меньше. Апсейкл+conv2d не страдает вообще. Выбор очевиден.
См.
https://distill.pub/2016/deconv-checkerboard/ - тут заодно посмотришь, как оно отличается с точки зрения весов.
https://arxiv.org/pdf/1707.02937.pdf
>достаточно ли будет заменить conv2d на conv2d_transpose?
Вроде да
Спасибо за ответ.
>и затем обыкновенную свертку
А можно пояснить смысл свёрки после upscale?
>Апсейкл+conv2d не страдает вообще
И хотелось бы простейший пример для генератора генеративно-состязательно сети. Т.е. conv2d в данном вообще не будет менять размер получаемых изображений?
А что насчёт skip connections? Как их в таком случае реализовать? Через conv2d?
Делали ортогональные проекции рукописных цифр, через сингулярное разложение сжимали картинки.
>А можно пояснить смысл свёрки после upscale?
А какой смысл у conv2d_transpose?
У тебя задача сделать из 100х100х16 допустим 200х200х8, применив какую-то фильтрацию при этом.
transposed_conv делает две этих операции одновременно - апсэмплит изображение и накладывает фильтр. Тем самым экономится какое-то количество флопсов.
Вместо этого можно сначала апсэмплануть изображение (100x100x16 => 200x200x16) тупым апсэмплером без параметров, фактически тупо повторив каждый пиксель [A B; C D] => [A A B B; A A B B; C C D D; C C D D], а затем уже в увеличенном изображении наложить фильтр в виде conv2d. (200x200x16 -> 100x100x8).
То есть везде, где у тебя есть conv2d_transpose, ты можешь сделать drop in replacement на upscale+conv2d.
В tf1.0 это tf.image.resize_nearest_neighbor + conv2d. В tf2.0 это уже харам, нужно переходить на керас. Надо только не забыть увеличить filter_width в 2 раза, иначе мощность твоей сетки убавится.
По первой ссылке есть пикрелейтед, где показывается, что conv2d_transpose эквивалентен upscale+conv2d с парой обнуленных параметров. Вот это обнуление выкидывает важную информацию, из-за которой они сосут. Вообще рекомендую почитать эту ссылку целиком.
Минус у такого подхода один - слой начинает жрать в 2 раза больше флопсов и памяти. Зато остальное плюсы, потому что математически данная йоба намного удачнее.
Между этими двумя подходами есть компромисс в виде subpixel convolution, но рекомендую не забивать себе голову этим ближайший год.
>А что насчёт skip connections? Как их в таком случае реализовать?
Все точно так же, ты просто везде где у тебя conv2d_transpose пишешь пару из upsample+conv2d.
>1 этап
>матан+линал+дискретка
Начинать нужно с изучения языка и практики. Иначе, если увязнешь в математике, через пару месяцев пропадет весь интерес. И вообще, математика для машоба не обязательна. Стекать слои и пиздить чужие модели можно и без математики, поэтому ее изучение лучше отложить до тех пор, пока ты не будешь четко понимать зачем она тебе нужна, и что конкретно нужно. Изучение математики вслепую - пустая трата времени.
У меня так примерно было. Это неплохо, но все равно во время обучения абстрактно очень, учиться лень. Пока нормально не научились всю эту базу загружать в голову с нуля. Со скрипом идет. Поэтому людей, которые имеют хорошую базу и применяют ее очень мало.
Очередной вопросик выходного дня для трясунишек ящиков
Куда деваются тысячи математиков после окончания вузиков?
А почему сразу не пошли в МакХрюк? На что они рассчитывали поступая например на факультет Прикладной Математики?
А тут разве вопрос только к математикам? Кто хочет учиться - учится, что с помощью вуза, что без.
тут главное ПОНИЖЕНИЕ ПЛАНКИ.
там на видео для даунов объясняется принцип. Показаны ложные срабатывания.
Накодировано приложение для raspberry с камерой, чтобы это можно начать использовать.
А для адроида приложение в худших лучших традициях - 20 тыс строк
Это я могу сделать, но что это даст? Мне нужно эти события превратить в фичу для модели. Но просто количество событий для фичи не подходит, потому что у одного человека этих событий много, потому что он давно участвует в активности, а у другого мало, потому что подключился недавно. Брать количество событий с начала участия человека в активности тоже не подходит, потому что он мог давно один раз подключиться, создать несколько событий, и больше никогда не подключаться. Вот я ищу метрику, которой лучше описать эту фичу. Пока придумал только что-то типа плотности этих событий, но пока не понял, как лучше их распределение превращать в число.
>количество событий с начала участия человека в активности тоже не подходит, потому что он мог давно один раз подключиться, создать несколько событий, и больше никогда не подключаться
Количество событий за период T.
>Количество событий за период T.
Тогда не учитывается, были 7 событий по 1 каждый день за 7 дней или все 7 событий в 1 день. Я считаю, это важно.
А для такого есть нормализованная гистограмма.
Где скачать датасет? или хотя бы какой сайтец попарсить?
это же круто, сделать какой-нибудь t-sne и понять какие еще машины, которые мне нравятся по характеристикам ( размерностям), но которые дешевле, стоит внимательно рассмотреть.
Ну и вообще накидайте каких-нибудь идей
Посчитай гистограмму по 49 событиям (день, событие)
Не подходит абсолютное количество возьми относительное
В целом, к фичам нужно относится проще, потому что большинство из них всё равно окажутся бесполезны, добавь просто всё, а бустенг там разберётся, выкинешь лишнее потом
Лучше конечно просто трансформер натравить на всю историю событий https://arxiv.org/pdf/1905.06874.pdf
Попроси знакомого бухгалтера посчитать амортизацию.
Пиздец ты автоледи
Спасибо, посмотрю.
Ты как ишак какой-то упертый. Тебе уже и так, и сяк, а тебе все не то. Все расписали уже, иди уже код пиши, че тебе надо еще? В кагле миллион соревнований было на эту тему, иди ноутбуки смотри.
По-моему у тебя просто датасаенс-импотенция.
Возьми период T в 1 день
А, ну да, как решил: повезло
Трудно работать, не зная, сможешь ли ты достичь результата, и какого. Непонятно, удовлетворит ли точнось кабанчика, и что делать, если нет, а ты уперся в потолок.
Это недооцененная/невысказанная часть профессии ДС так-то. Многие ДС продают snake oil, а многие ходят по грани между реальной работой и snake oil sales. И софтскилы, включая особые умения вроде красивых презентаций и демо, в т.ч. даже такие вещи как дизайн привлекательных картинок, это очень важно для карьеры.
https://www.youtube.com/watch?v=3lJc-DkLX5I
Для этого и экспертной системы хватит. Была инструкция в тнус-треде
thids
но не хочу использовать готовые жирные претрейн модели
кто-нибудь может вкинуть внятный пример как создать и обучить сеточку на python в opencv?
я не хочу ставить caffe (или другое), изучать её апи и генерить модель в ней, чтобы потом грузить в opencv,
а хочу только используя opencv, т.к. в ней вроде как есть обвязка, но не могу найти внятный пример обучения,
потыкавшись по классам нашел что есть, например, такие сущности:
n = cv2.dnn_Net()
m = cv2.dnn_ClassificationModel(n)
...
l1 = cv2.dnn_Layer()
...
cid, cfg = m.classify(...)
>Вроде да
Основываясь на https://pytorch.org/docs/stable/generated/torch.nn.ConvTranspose2d.html и https://pytorch.org/docs/stable/nn.functional.html поменял вот так: https://ideone.com/U6NTkP
В результате:
RuntimeError: output padding must be smaller than either stride or dilation, but got output_padding_height: 1 output_padding_width: 1 stride_height: 1 stride_width: 1 dilation_height: 1 dilation_width: 1
Щито не так?
Твой ответ неверный, ибо:
>torch.nn.functional.conv_transpose2d(input, weight, bias=None, stride=1, padding=0, output_padding=0, groups=1, dilation=1) → Tensor
>torch.nn.ConvTranspose2d(in_channels: int, out_channels: int, kernel_size: Union[T, Tuple[T, T]], stride: Union[T, Tuple[T, T]] = 1, padding: Union[T, Tuple[T, T]] = 0, output_padding: Union[T, Tuple[T, T]] = 0, groups: int = 1, bias: bool = True, dilation: int = 1, padding_mode: str = 'zeros')
Но он натолкнул меня на правильный ответ: output_padding = 0
Спасибо.
мне же по идее вот этот весь мл нахуй не нужен? или нужен?
Если доски контрастные и на расстоянии друг от друга, можно обойтись простым компьютервиженом
вообще-то у тебя кроме досок еще куча ебалы и шума.
и чтобы выделить в них закономерности, нужны методы упорядочивания беспорядка.
так что нужен.
Это копия, сохраненная 11 апреля 2021 года.
Скачать тред: только с превью, с превью и прикрепленными файлами.
Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах. Подробнее
Если вам полезен архив М.Двача, пожертвуйте на оплату сервера.