НЕЙРОНОЧКИ И МАШОБ ТРЕД №34 - Программирование

Когда у тебя одномерный поток байт типа текста - стекай трансформеры и не еби мозг.
Вот с этого можешь начать https://keras.io/examples/nlp/text_classification_with_transformer/
Только там где у него
x = transformer_block(x)
настекай больше таких блоков
x = transformer_block(x)
x = transformer_block(x)
x = transformer_block(x)
x = transformer_block(x)
Желательно ужать длину чанка в 128-512 токенов, после константа в o(n^2) будет жрать дохуя ресурсов. Токен - не обязательно символ, можно сжимать данные токенизатором типа https://en.wikipedia.org/wiki/Byte_pair_encoding , так делают OpenAI.
Если нужны чанки от 1024 - читай статьи Efficient Transformers: A Survey и Long Range Arena: A Benchmark for Efficient Transformers, получишь интродакшен в 2020 год. tldr для длинных чанков переходи на BigBird.
LSTM после появления трансформеров потерял смысл.
Сверточные сети могут сработать, если данные сильно локальные и однородные. Можно использовать их как пре-процессинг вместо токенизатора. То есть изначальный поток байт серией из сверток со страйдом сжимаешь до многоканальной последовательности меньшей длины, а на это наворачиваешь трансформеров. Но не забывай скип коннекшены и батчнорм. В трансформеры нормализация и скипы уже встроены, а в свертках их нет, и не похоже, что ты знаешь об этом, судя по твоему посту.

Ответы02826

16 6 янв, 17:51 1902826

>>02822
В трансформер встроен скип?

Ответы02829

17 6 янв, 17:51 1902827

Ба, bigbird в слесарьплов завезли https://github.com/tensorflow/models/official/nlp/projects/bigbird
Охуенно

80 Кб, 510x680

18 6 янв, 17:52 1902829

>>02826
Ага, и в декодере, и в энкодере, везде скипы и LayerNormalization слои

Ответы02905

19 6 янв, 18:01 1902846

Надо, кароч, вкатываться в трансформеры, посоны. В 20к21 все остальное это помоечка.

Ответы02905 02942

20 6 янв, 18:40 1902905

>>02829
https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.
BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.
GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.
Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>>02846
Да. Кто еще не вкатился - тот дурачок.

Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа
[w1 w2 w3 0 0 0 0 0
0 w1 w2 w3 0 0 0 0
0 0 w1 w2 w3 0 0 0
...и так далее...
]
То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где
x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).
То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.
Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету. То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.
Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.

20 6 янв, 18:40 1902905

>>02829
https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.
BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.
GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.
Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>>02846
Да. Кто еще не вкатился - тот дурачок.

Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа
[w1 w2 w3 0 0 0 0 0
0 w1 w2 w3 0 0 0 0
0 0 w1 w2 w3 0 0 0
...и так далее...
]
То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где
x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).
То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.
Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету. То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.
Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.

Показать весь текст

Ответы02949 03293 04340

21 6 янв, 18:46 1902914

Имеет ли возможность хохол поступить в шад на заочку или типа того?

22 6 янв, 18:49 1902926

Хммм, а хоть где-то остались рекуррентные сети?
Могу вспомнить только RL агентов и всякие модификации берта, про которые на следующий же день забывают.

Ответы02939

23 6 янв, 19:08 1902939

>>02926
Проблема рекуррентных сетей в том, что в теории у них контекст бесконечный, но на практике у тебя back propagation through time обрезает его до величин, позволяющих ужать сетку в память gpu, и эти величины меньше трансформерных. По итогу смысла мало.
Чтобы смысл был, нужно отказаться от бэкпропа, мозг ведь как-то работает без него, там бэкпроп максимум на уровне отдельных нейронов. Но мозг может выезжать чисто на том, что отдельный нейрон - крутой аналоговый компьютер. Или тупо на количестве нейронов.
Пока этого нет, забудь о RNN.

24 6 янв, 19:17 1902942

>>02846
Ну вот в 2021 какую-нибудь новую хуйню родят в недрах гугла или опенаи и будет новая мода, а трансформеры в том виде как они есть выкинут. В машобе жанра stackmorelayers нет смысла бегать за прошлогодними трендами.

Ответы02951 02955

25 6 янв, 19:27 1902949

>>02905

>Лично я использую подход

А ты разботал как DALL-E кодирует? Они картинки бьют на 8х8 квадраты и переводят их в дискретные (?) токены. Этот перевод делает специальная нейроночка еще до начала тренировки трансформера, как я понял.

Ответы02994

26 6 янв, 19:28 1902951

>>02942
Дело определенно в моде, да, ты прав.

Ответы03002

27 6 янв, 19:30 1902952

Есть мода, а есть результаты. Попробуй ГПТ-3 на ЛСТМах сделать.

Ответы03002

28 6 янв, 19:35 1902955

>>02942
Как будто что-то плохое. Если усвоил биттерлессон, то ты просто заменяешь один слой новым и все.
А вот те кто наделали adhoc костылей, плачут горькими слезами и думают, какой бы еще костыль накостылить, чтобы еще годик продержаться перед тем, как все юзеры проапгрейдят свои видюхи и твои старания пойдут на помоечку.

Ответы02989

29 6 янв, 20:28 1902989

>>02955

>Если усвоил биттерлессон, то ты просто заменяешь один слой новым и все

Если ты ничего кроме битерлесона не читал до трансформера ты просто не додумаешься.

Ответы03021

30 6 янв, 20:33 1902994

>>02949

>А ты разботал как DALL-E кодирует?

Не особо, чтобы понять что-то из их куцых фраз, нужно хорошо знать тему VAE. И если как работает VQ-VAE я примерно понимаю (если ты не понимаешь, почитай christineai.blog/vq-vae/), то про continuous relaxation впервые слышу. Нужно хотя бы https://arxiv.org/abs/1401.4082 покурить.
В принципе задача любого автоэнкодера это обеспечить информационный ботлнек, чтобы энкодер и декодер обучались чему-то в плане поиска сжатых представлений. VAE делает это, заставляя энкодер генеририровать матожидание и сигму, а затем генерируя рандомное число из этих параметров, VQ-VAE заменяет то, что накодировал энкодер ("попиксельно" - то есть каждый многоканальный пиксель - это отдельный вектор) на ближайший вектор из обучаемого словаря, тоже ботлнек очевиден - это собственно "квантизация" к ближайшему значению из словаря.
А вот тут не понятно. одной стороны они пишут, что словарь им там не нужен благодаря continuous relaxation. С другой - ссылка на 1401.4082 нихуя не проясняет.
Пока писал пост, увидел, что Килхер уже выпустил видео, и он тоже нихуя не понимает эту часть https://www.youtube.com/watch?v=j4xgkjWlfL4 , на 27-й минуте у него такие же wtf'ы как у меня.

>Этот перевод делает специальная нейроночка еще до начала тренировки трансформера, как я понял.

Да, это принципиальное отличие от "моего" подхода. У меня сверточные слои тренируются одновременно с трансформерными end-to-end, а у них отдельно тренируется "энкодер-декодер картинки низкого разрешения, но с большим числом фич-каналов". Что довольно понятно, почему - энкодеру by design нужно видеть всю картинку целиком, а вот DALL-E генерирует попиксельно. Но вообще интересная мысль, надо попробовать.

31 6 янв, 20:42 1903002

>>02951
>>02952
И тем не менее, до трансформеров все так же кипятком ссали от лстмов и прочих gru, а потом любовь прошла.

Ответы03016

32 6 янв, 20:56 1903016

>>03002
Потому что они так же дико повысили метрики, как сейчас трансформеры.
Меня больше удивляет, почему не взлетели всякие теоретически обоснованные попытки сделать рекуррентную ячейку, которая будет лучше чем лстм. Вроде как лстм была сделана суперхуево на коленке с кучей лишних гейтов.
А ведь были всякие структурно регуляризованные SCRNы, унитарные матрицы весов, эволюционный поиск ячеек. Даже интересно, чего это всё загнулось.

Ответы03060

33 6 янв, 21:00 1903021

>>02989
Я и не претендую. До него люди умнее меня 50 лет не могли додуматься, пока в гугле работающие над машинным переводом люди не посмотрели на seq2seq with attention и не выкинули оттуда нахуй RNN часть. Куда уж мне.

34 6 янв, 21:44 1903060

>>03016
У всех RNN один и тот же фатальный недостаток - _каждый_ таймстеп должен хранить инфу обо _всем_ прошлом, потому что инфа может потребоваться и сейчас, и в будущем.
Плюс машинерия которая позволяет это прошлое копить.
Плюс отсутствие возможности процессить таймстепы параллельно - а значит нужны гигантские батчсайзы, чтобы на уровне каждого отдельного таймстепа видюха грузилась на 100%.

В итоге чтобы это работало эффективно, тебе нужно, чтобы вычислительное ядро видюхи имело на пару порядков больше локального кэша. Иначе видюха будет простаивать, пока данные гоняются между глобальной gddr памятью видюхи и вычислительными модулями.
Но локальный кэш (то что в cuda терминах называется shared memory) - это дорогая статическая память, а не дешёвая динамическая.
В итоге RNN тупо недогружает железо. А если ты попытаешься побороть эти недостатки, ты повторишь путь к трансформерам.

Ответы03126

35 6 янв, 22:39 1903126

>>03060
Имхо не в этом самая большаю проблема. Трансформеры тоже дай бог жрут ресурсов. РНН имеет тенденцию забывать очень быстро. Потому что прошлый токен он вот он, а что там было тысячу токенов назад, уже прокрутилось тысячу раз. Даже в ЛСТМ все умножается каждый шаг на число, и чтобы что-то сохранилось, это число должно быть 1 на каждом шагу. Это со скрипом учится, на деле что-то нетривиальное не учится совсем дальше нескольких десятков шагов.

Ответы03193 03217

115 Кб, 482x400

36 6 янв, 23:18 1903191

>>02657

>Чтобы вонючей необразованной пидорашкой не быть

37 6 янв, 23:20 1903193

>>03126
https://arxiv.org/pdf/1511.06464.pdf
Поэтому я и говорю, что вот такие штуки в теории должны были взлетать и отбирать пальму первенства у lstm. Но почему-то не произошло такого. Вопрос - почему.

Ответы03200 03231

38 6 янв, 23:30 1903200

>>03193
Сложно, и на практике пользы не было. На синтетических тасках ЛСТМ тоже может 10000 шагов помнить, это еще в самой первой статье показано. То, что градиенты не взрываются, еще не значит что оно будет все помнить. Это значит лишь, что тренировка в принципе возможна.

Ответы03209

39 6 янв, 23:41 1903209

>>03200
Так это диплернинг, тут везде с гарантиями плохо.

40 6 янв, 23:43 1903213

Сетки не "помнят" ничего.

Ответы03335

41 6 янв, 23:47 1903217

>>03126

> РНН имеет тенденцию забывать очень быстро

Это недостатки конкретных типов рнн.
Теоретически ничто не мешает тянуть тебе все прошлое с собой. Были эксперименты со всякой памятью такого рода. Идеи приходят вплоть до тупой конкатенации аутпутов прошлых шагов в одну большую матрицу.
Но практически возникает проблема с тем что я описал, так как каждый таймстеп - это вещь в себе, он должен содержать в своём текущем стейте инфу обо всем прошлом. Это дохуя. Поэтому практические рнн задизайнены так, чтобы память о прошлом была постоянной. А это значит, что из нее постоянно надо что-то выкидывать. Но ты не Ванга, и можешь выкинуть что-то что потребуется в будущем.

Ты скажешь - если n шагов содержат инфу каждый в среднем об n/2 предыдущих шагов, это так же o(n^2) по памяти, что у трансформера. Какая разница.
Но тут возникает уже железо.

Если грубо и на пальцах, пусть q - это вектор, а Q - матрица состоящая из n таких векторов, K - это матрица, соответствующая стейту этой rnn, которая помнит все свое прошлое.

Если трансформер считает K*Q' один раз, все вектора скопом
RNN считает K q' для каждого q, итого n раз.

Второе сильно хуже.

42 7 янв, 00:04 1903231

>>03193
Ну фундаментально это - а давайте запилим такой костыль, чтобы забывать ненужное и помнить нужное. И вот с нашим костылем на этих датасетах, которые мы подобрали под костыль, у нас sota.
И по факту
Copying problem решена
Adding problem сосёт у lstm
Mnist обучается быстрее, но lstm по итогу работает лучше
Далее они с горящей жопой придумали добавить permuted lstm, чтобы результаты не были таким днищем, получили небольшое улучшение, уря, победа

Хуйня в общем

Ответы03252

43 7 янв, 00:48 1903252

>>03231

>Adding problem сосёт у lstm

The uRNN achieves lower test error, but it’s curve is more noisy.

>Mnist обучается быстрее, но lstm по итогу работает лучше

This equates to roughly 60K parameters for the LSTM and almost 9K for the uRNN.

>Далее они с горящей жопой придумали добавить permuted lstm

Если опустить твои охуительные фантазии, то в чем проблема? Задача некорректная будет?

>чтобы результаты не были таким днищем

Ты сказал? Сходится в десятки раз быстрее, параметров меньше, качество в задаче лучше, теоретические обоснования есть.

>Хуйня в общем

Можно заливать твой отзыв на openreview

Ответы03277

44 7 янв, 02:15 1903277

>>03252

>The uRNN achieves lower test error, but it’s curve is more noisy.

На одном графике с T=750. И это единственный график где оно заметно лучше из всех в статье. В остальных лстм либо лучше, либо статпогрешность.

>This equates to roughly 60K parameters for the LSTM and almost 9K for the uRNN.

Так почему не сделать 60к параметров и въебать лстм еще сильнее? Значит хуитка какая-то. Например, просад по флопсам, или качество не растет с увеличением веса, или параметров мало, а памяти они жрут много. Иначе что ща хуйня вообще.

>Если опустить твои охуительные фантазии, то в чем проблема?

Да не фантазии это. Когда метод реально хорош, автор разве что свой рентген не выкладывает, а когда плох сравнивает красное с синим и постоянно недоговаривает. Может ты еще в магазине на диване товары покупаешь.

>Задача некорректная будет?

Ты правда считаешь, что это самая интересная задача на длинный контекст?

>Ты сказал?

Автор выпустил единственную статью на которой он протестил работу на 4 мелких и экзотических датасетах и не стал развивать свою работу. Тут уже все ясно. Ты можешь конечно верить что это hidden gem, но вообще намного более вероятно что это типичная статья где для публикации он расфорсил достоинства, но по факту там все не так однозначно.

>Можно заливать твой отзыв на openreview

Доя этого статью хотя бы прочитать надо, а я пошел стандартным путем абстракт картинки результаты и что-то вообще не интересно копаться и тем более тестить.
Может ты меня разъебешь ща и я перейду на эту хуйню с трансформеров.

45 7 янв, 02:33 1903293

>>02905

>https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.

>BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.

>GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.

>Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>Да. Кто еще не вкатился - тот дурачок.

>Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа

>[w1 w2 w3 0 0 0 0 0

>0 w1 w2 w3 0 0 0 0

>0 0 w1 w2 w3 0 0 0

>...и так далее...

>]

>То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

>А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где

>x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).

>То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

>То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.

То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.

>Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.

>>02905

>Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету.

Можно поподробнее (или где читать) про это и про атеншн модуль? Спасибо

45 7 янв, 02:33 1903293

>>02905

>https://keras.io/examples/nlp/text_classification_with_transformer/ тут используется и закодирован под именем transformer_block энкодер, он слева. Оригинальный декодер справа.

>BERT - encoder-only сетка, этот подход хорош для задач типа классификации, потому что контекст ловится целиком, без маскинга "будущего". Такие сетки можно претрейнить на неразмеченных данных, поместив dropout слой сразу за инпутом и обучая fit(inputs=siriye_danniye, outputs=siriye_danniye), как в стандартном денойзинг автоэнкодере.

>GPT - decoder-only, но сам декодер не как на картинке, а попроще, без среднего слоя. То есть фактически тот же энкодер, но с маской, маскирующей для токена "будущее". Это подход хорош для генерации, контекст здесь ловится только "из прошлого" с помощью маски, соответственно сетку можно использовать в авто-регрессионном режиме, заставляя ее высирать по токену а скармливая выход входу.

>Вроде бы подход кажется медленным говном по сравнению с BERT'ом, но оказалось, что такие сетки являются zero shot learners: если в контексте описать им суть задачи в виде нескольких примеров, они начинают генерировать новые данные по этим примерам. Например, отвечать на вопросы, выписывать tldr для текста, теперь вот DALL-E может генерировать картинку по образцу. Короче это самое близкое к General AI, что есть на данный момент.

>Да. Кто еще не вкатился - тот дурачок.

>Свертки хороши, но они по сути - то же самое умножение входного вектора на матрицу весов, как у персептрона, только сама матрица особого вида типа

>[w1 w2 w3 0 0 0 0 0

>0 w1 w2 w3 0 0 0 0

>0 0 w1 w2 w3 0 0 0

>...и так далее...

>]

>То есть свертка менее выразительна, чем персептрон, но жестко зашивает пространственную инвариантность в структуру данных, что делает ее эффективной для широкого, но ограниченного класса задач.

>А трансформер - это, если его сильно кастрировать, выкинуть нормализацию, перемножить матрицы и оставить только одну голову, сводится к f(x)=softmax(x' W x) x, где

>x - входная последовательность векторов размерности d и общей длины N, а softmax(x' W x) - аттеншен-матрица NxN, W - матрица dxd собственно параметров, Дальше еще нужно добавить вектор P - пазишен энкодинг, который по сути накладывает всякого рода красивости на аттеншен-матрицу и вычислять вместо f(x) - f(x+P).

>То есть softmax(...) - это NxN матрица, а x - входной вектор. Очень напоминает персептрон.

>То есть эта хуитка - персептрон, который генерирует свои веса динамически, на лету. И доказано, что если у тебя голов в аттеншене достаточное количество, это не просто имеет ту же выразительную силу, что и свертки, но и при обучении генерируются похожие кернелы, которые генерирует сверточная сеть.

То есть, все, как заказывали, настекал слоев, а оно само думает, что делать с данными. По сути это персептрон done right, который круче и персептрона, и сверток, и неба, и аллаха, Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай, с экспоненциальной емкостью запоминания паттернов. Ну и главное, что это не просто абстрактный академический надроч, а реально работающая штука, без геморройных RNN и жестко зажатых своей пространственной инвариантностью сверток.

>Лично я использую подход DETR, который "избрел" сам https://arxiv.org/pdf/2005.12872.pdf , то есть CNN сначала ужимает сырые данные в набор фичастых данных, но с меньшим разрешением, а трансформеры уже работают с этими данными. Получается лучше, чем чистая CNN, но пришлось помучаться перед тем, как оно заработало - во-первых adam'у нужен обязательный warmup где-то первые 2000 шагов обучения, то есть плавный рост learning rate от 0 до целевого значения, во-вторых я до сих пор экспериментирую с энкодингами, нынешний вариант перестает работать, если увеличить emb_dim. Но и нынешний вариант работает сильно лучше чистой сверточной сетки.

>>02905

>Но у сверточной сети размер фильтра - это гиперпараметр, а трансформер размеры своих фильтров настраивает на лету.

Можно поподробнее (или где читать) про это и про атеншн модуль? Спасибо

Показать весь текст

Ответы03338 03358

46 7 янв, 05:06 1903335

>>03213
Звучмт как название русской пост-панк группы.

13 Кб, 220x244

47 7 янв, 05:38 1903338

>>03293

> По сути это персептрон done right,

> , Хохрайтер (все в мире считают его автором LSTM, хотя мы знаем, что LSTM придумал Жопенмульцер в 1952 году, не надо меня поправлять) показал, что это вообще обобщение сети Хопфилда на непрерывный случай

Ну то есть вы же пынямаете, что по-сути, все эти ололо мегагитлер трансформеры не очень далеко ушли от перцептрона и сетей Хопфилда, и что их придумывают только потому что вычислительные мощности позволяют. В 60х трансформеры были бы просто бесполезны, даже если бы кто-нибудь до них додумался. Как машины Больцмана в 80х, придумать их придумали, а толком применить смогли только в нулевых. Или как с неокогнитроном (по-сути, прообразом сверточных сетей) в те же 80-90е. Тогда оно физически не могло выстрелить.

Ответы03341

48 7 янв, 05:48 1903341

>>03338
Все это знают. Мощности + сейчас в этом занято на порядки больше людей. Они рандомно меняют код и находят методом тыка работающие методы. Те же трансформеры не вышли из сетей Хопфилда, а высосаны из пальца, протестированы, обнаружено что они круты, а потом уже за уши был притянут этот Хопфилд ради красивой статьи.

Ответы05001

49 7 янв, 08:00 1903356

>>1901437 → simple LSTM to predict - editted code

https://pastebin.com/jaUrBX6W

Ответы03357

50 7 янв, 08:02 1903357

>>03356
...edited

51 7 янв, 08:02 1903358

>>03293
Аттеншен модуль - attention is all you need
Связь со свертками - On the Relationship between Self-Attention and Convolutional Layers
По первой статье можешь посмотреть разбор Kilcher'а на ютубе.

Ответы03399

52 7 янв, 10:38 1903399

>>03358
Спасибо!

30 Кб, 512x487

53 7 янв, 21:52 1904031

Знатоки, подскажите, пожалуйста.
Есть датасет на котором использован XGBRegressor:
XGBRegressor(max_depth=8,
n_estimators=500,
min_child_weight=1000,
colsample_bytree=0.7,
subsample=0.7,
eta=0.3,
seed=0)
Что дало такую вот картинку. Она явно неудовлетворительна.
Как подбирать параметры, чтобы регрессия работала лучше?

Ответы04089

54 7 янв, 22:31 1904071

Как блять устроиться на машоб работу если ты на 3 курсе?

Ответы04089

55 7 янв, 22:41 1904089

>>04031
Поменяй xbgoost на lightgbm (он быстрее и вроде как больше разных фишек).

>Как подбирать параметры?

RandomSearch + train-test-split/кросс-валидация.
Если нечего делать, то можешь попробовать latin hypercube sampling или вообще какой-нибудь hyperopt.
Ну и новые фичи погенерировать можешь, но для этого нужно смотреть на предметную области и сами признаки.
>>04071
Так же, как и на любую другую работу?
Если не очень умный, то можешь отловить какую-нибудь летнюю школу от большой компании-галеры а ля сбер/тинькофф, пройти её и потом с большой вероятностью получишь оффер на мл-эникейщика.

Ответы04100

56 7 янв, 22:55 1904100

>>04089

>RandomSearch

Задаём диапазон и случайным образом выбираем набор параметров?
И сколько раз повторять случайный выбор?
Ещё вопрос вдогонку - для валидации и оценки точности используется eval_metric="rmse" и метод наименьших квадратов.
xgb train rmse: 0.9273652195391977
xgb validation rmse: 5.025476198882563
Может из-за этого валидационная ошибка быть такой большой?

Ответы04108

57 7 янв, 23:08 1904108

>>04100

>Задаём диапазон и случайным образом выбираем набор параметров?

Да. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

>И сколько раз повторять случайный выбор?

Сколько хочешь. Можешь повторять до тех пор, пока результат не перестанет улучшаться (за последние k итераций).

>xgb train rmse: 0.9273652195391977

>xgb validation rmse: 5.025476198882563

Подозреваю, что у тебя или лик, или данные оооочень разные. Попробуй посмотреть значимость признаков в бустинге или какие-нибудь попарные корреляции.

Ответы04112

58 7 янв, 23:14 1904112

13 Кб, 853x380

23 Кб, 550x231

>>04108

>Сколько хочешь. Можешь повторять до тех пор, пока результат не перестанет улучшаться (за последние k итераций).

Вообще-то я задал диапазон для каждого из параметров, потом применил itertools.product() для получения всех возможных комбинаций, и вот уже несколько часов это всё перебирается.
Решение уровня /b, в общем.

> Попробуй посмотреть значимость признаков в бустинге или какие-нибудь попарные корреляции.

Как-то так.

Ответы04328 05067

59 8 янв, 11:24 1904328

>>04112
1. Скинь свой код
1.2 пытался ли ты подкрутить регуляризацилнные параметры?
1.3 кросс-валидирование делал?
2. Когда ты делаешь сплит? В каком соотношении?
3. Почему бустинговый алгоритм используешь? Линейные модельки пробовал? kNN тоже тестил? Простой MLPRegressor тестил?
4. Я тебе, если ты хочешь, пришлю Н2О AutoML скрипт для твоего Гугл куколдлаба, посмотришь перформанс различных моделек на твоём сете. Может линейные больше подойдут.

Ответы04674 05067

60 8 янв, 12:07 1904340

>>02905

> Да. Кто еще не вкатился - тот дурачок.

А уже пора выкатываться обратно. Трансформеры - помоечка из 2017, уже есть более эффективные перформеры.

Ответы04596

61 8 янв, 16:07 1904596

>>04340
Читай Long Range Arena: A Benchmark for Efficient Transformers

62 8 янв, 16:53 1904674

>>04328
Почту можешь свою оставить?

Ответы05004 05059

63 8 янв, 18:45 1904789

Анчоусы, вопрос. Хватит мат базы для начала в deeplearningbook`e?

Ответы04800 04829

64 8 янв, 18:57 1904800

>>04789
Все необходимое там есть. Но не лучшее изложение.

Ответы04812

65 8 янв, 19:10 1904812

>>04800
а где лучше есть?

Ответы04818

66 8 янв, 19:12 1904818

>>04812
В /math лучше спроси. Тебе нужны учебники по линалу, матану, терверу, матстату для нулей.

67 8 янв, 19:20 1904829

>>04789

>deeplearning

>мат базы

Не лезь бля, оно тебя сожрёт, станешь вапникошизом. Лучше дрочи код и stack more layers

Ответы04937 05001

68 8 янв, 19:27 1904844

диппавлов норм чуваки или хуйнёй занимаются?

69 8 янв, 20:29 1904937

>>04829
вапникошиз это кто?

Ответы04971 04972

70 8 янв, 21:05 1904971

>>04937
Это посттравматический синдром треда

71 8 янв, 21:06 1904972

>>04937
Борец с НУ ТУПЫМИ зумерами и битерлессоном, ты его ещё увидишь

Ответы05006

72 8 янв, 21:47 1905001

>>04829

> stack more layers

Смотрел на ютубах того пшека(?), поясняющего за трансформеры, так вот:
- Во-первых, это манямнение >>03341

> Они рандомно меняют код и находят методом тыка работающие методы. Те же трансформеры не вышли из сетей Хопфилда, а высосаны из пальца,

Есть былинная дрисня из-под коня, высосанная предыдущим оратором непонятно из чего. Там на самом деле все очень не рандомно сделано, и далеко не на пустом месте.
- Во-вторых, речь в конечном счёте все о тех же распределениях вероятностей и аппроксимации функций зависимости выхода от входа, что и 60 лет назад. Идентификация систем итд. Просто более эффективные методы для этого, использующие высокую скорость операций с матрицами на GPU, что позволяет эффективно считать то, от чего ещё несколько лет назад просто отказались бы как от неподьемной задачи. Закон Мура работает, в общем. Плюс, речь опять же о том, что все алгоритмы машобчика по-сути считают одно и то же, просто по-разному и в разных объемах.

Ответы05054

220 Кб, 289x381

73 8 янв, 21:49 1905004

>>04674
Бумп вопросу

74 8 янв, 21:50 1905006

>>04972
А как с биттерлессоном бороться то лол

Ответы05069

75 8 янв, 22:08 1905039

Проходили курс от стенфорда на курсере? Что скажете? Вроде дохуя народу хвалят.

76 8 янв, 22:20 1905054

>>05001

>все алгоритмы машобчика по-сути считают одно и то же

Да, ганы и свм по сути считают одно и то же. А что, кстати?

Ответы05335

77 8 янв, 22:26 1905059

>>04674
o3bbv;q10ANUSg~CAmailPUNCTUMco_09m

Ответы05094 05192

78 8 янв, 22:36 1905067

>>04112
Расшарить данные нельзя?
>>04328

>3. Почему бустинговый алгоритм используешь?

Так бустинг это же стандартный бейзлайн, на уровне случайного леса. Никакая существенная предобработка не нужна и всё сразу нормально будет работать.

>kNN тоже тестил? Простой MLPRegressor тестил?

Не представляю случай, когда кнн/млп-бейзлайн будет существенно лучше бустинга или линейной регрессии.

Ответы05192

79 8 янв, 22:37 1905068

Как правильно исследовать датасет до послания модели? Я сейчас считаю центральные моменты до 4 порядка. Допустим, вижу на каком-то признаке сильный перекос. Если он уж очень сильный, то можно посчитать это за выбросы и убрать такие прецеденты. Или если из 10к прецедентов 9990 принимают нулевое значение, а остальные 1, и тогда я этот признак вообще отбрасываю. Плюс, делаю PCA и верчу в трёх измерениях данные, просто чтобы убедиться в потенциальной сложности задачи классификации. Что ещё я могу применить?

Ответы05074

80 8 янв, 22:40 1905069

>>05006
Вот так: заявляешь что это просто маняфантазии отдельно взятого шиза, наслаждаешься горением школьников

Ответы05168

81 8 янв, 22:43 1905074

>>05068
Открой на кегле какой-нибудь кернел с EDA и посмотри.
https://www.kaggle.com/notebooks?searchQuery=eda

>Или если из 10к прецедентов 9990 принимают нулевое значение, а остальные 1, и тогда я этот признак вообще отбрасываю.

Зависит от данных. Если у тебя данные - огромные вектора из нулей и единиц, а y = int(sum(x) > 0), то тогда такое удалять нельзя.
А вообще, какие-нибудь леса-бустинги автоматически такое обработают.

82 8 янв, 23:00 1905094

>>05059

> o3bq

Это Отабек.

> 10

2010 года рождения.
Вот такие у нас эксперты уровня /pr

83 8 янв, 23:44 1905133

Народ, а какой размер датасета для обучения гана нужен? Минимальный

Ответы05149

84 8 янв, 23:58 1905149

>>05133
5-й.

85 9 янв, 00:14 1905168

>>05069
А вот и сам вапникошиз пожаловал.
Неприятно осознавать, что с появлением ГПТ-3 высеры твоих любимых кокодемиков займут заслуженное место на свалке?

Ответы05215

86 9 янв, 00:31 1905192

>>05059
Отправил
>>05067

>Расшарить данные нельзя?

Теоретически, можно.
но может быть по почте?

87 9 янв, 01:06 1905215

>>05168
Осознавать это абсолютно всё равно ибо, как и всегда, это просто очередные манямечты троечников фантазёров

88 9 янв, 01:58 1905258

Ваш прогноз: как скоро сделают нейроночку, которая пощелкает весь литкод? На входе текстовое описание, на выходе правильный код решения.
Ящитаю, < 5 лет.

Ответы05259 05260 05263 05416

89 9 янв, 02:07 1905259

>>05258
Проблема в неточности. Нейронка это тебе не строгая система типов, и не дедуктивная система логического вывода. Нет гарантий, что программа будет правильной.

Ответы05264

90 9 янв, 02:07 1905260

>>05258

>Ящитаю, < 5 лет.

Лет 20 назад делали схожие прогнозы. Сейчас, мне кажется, уверенность в возможностях АИ приубавилась и сроки больше закладывают.

Ответы05265

91 9 янв, 02:12 1905263

>>05258
Когда будут подбираться к сильному ии

92 9 янв, 02:28 1905264

>>05259
Так и описания неформальны. Как человек будет.
Критерий - прохождение встроенных тестов на литкоде. Для людей это норм, ну и тут тоже будет убедительно.

Ответы05410

93 9 янв, 02:30 1905265

>>05260
Именно по тексту 20 лет назад никто не мог всерьез сказать про 5 лет. 20 лет назад с естественным языком все было плохо. По формальной спецификации генерировать - да, были надежды. Оказалось и это трудновато для классики.

Ответы05347

94 9 янв, 07:08 1905335

>>05054

> Да, ганы и свм по сути считают одно и то же. А что, кстати?

Распределение вероятностей, максимизацию матожидания. Весь существующий машобчик это пляски с бубном вокруг https://en.m.wikipedia.org/wiki/Expectation–maximization_algorithm#:~:text=In statistics, an expectation–maximization,depends on unobserved latent variables.

Ответы05496

95 9 янв, 08:55 1905347

>>05265

> 20 лет назад с естественным языком все было плохо.

С естественным языком до 2013 все было плохо. А сейчас трансформеры уже порешали Winograd schema challenge, и по машинному переводу набирают 28 в той же метрике, по какой человек-переводчик оценивается на 30. И предложения парсить они могут сами по себе, за счёт аттеншена, без всякой узкоспециальной лингвистической хуйни, это на заметку местному свидетелю экспертных систем.

Ответы05374 05377

96 9 янв, 11:12 1905374

>>05347
Да мы поняли, что трясуны перемогают по всем фронтам, только в реальности ходят в обосранных шароварах.

Ответы05378

97 9 янв, 11:19 1905377

>>05347

>Winograd schema challenge

Прооренькал с этих вопросиков, это они там анофору в однострочниках пбеждают?

Ответы05487

98 9 янв, 11:21 1905378

>>05374
Разве что в твоей маняреальности.

99 9 янв, 11:33 1905382

>>02498
Это и есть битерлесон?

100 9 янв, 13:01 1905410

>>05264
Но наврядли это будет использоваться где-то кроме фронт-энда. Во всех серьезных сверах нужна надежность и отказоустойчивость.

101 9 янв, 13:06 1905416

>>05258
Лично мне похуй на такую постановку вопроса, потому что получение кем-то ачивки мало что решает. Правильный вопрос - когда это будет запускаться на пеке за $1000, чтобы частный бизнес мог рубить профиты и менять мир. В идеале вообще запуск на смартфоне.
И 5 лет тут это очень оптимистично. Надо менять архитектуру GPU так, чтобы терабайтные нейронки были нормой. Как - не знаю, видимо нужен прямой доступ к nvme, быстрый доступ к ram вплоть до 3D напыления на самом чипе, переход к аналоговым вычислениям, оптике, и подобные йобы.

Ответы05422 06001

102 9 янв, 13:15 1905422

>>05416

> Правильный вопрос - когда это будет запускаться на пеке за $1000, чтобы частный бизнес мог рубить профиты и менять мир. В идеале вообще запуск на смартфоне.

Через несколько лет после того, как потеряет актуальность. Зачем тебе именно локальный запуск? Есть облачные сервисы, всякие там куколабы итд. Любому кабанчику этого за глаза хватит для начала, как минимум показать, что у него есть что-то способное изменить мир.

Ответы05511

103 9 янв, 14:45 1905487

>>05377

> Прооренькал с этих вопросиков, это они там анофору в однострочниках пбеждают?

За умного сойти решил что ли? Ну покажи ещё хоть один алгоритм, который может решить такую задачу для любой подобной фразы любого содержания с любым порядком слов и на любом языке.

Ответы05500 05546

104 9 янв, 14:55 1905496

>>05335

>Распределение вероятностей

В svm нет вероятностей.

Ответы05526

105 9 янв, 14:57 1905500

>>05487
Алгоритм жопеншмульцера (1957, Zhopensmultser et al).
А нейронки могут на любом языке с любой фразой правильно ответить?

Ответы05526

106 9 янв, 15:11 1905511

>>05422

>Через несколько лет после того, как потеряет актуальность.

Актуальность в инновационном цикле у всех участников рынка разная.
Если вопрос научно актуален, значит твои инвестиции может поделить на ноль какое-то открытие одного из 10000 ученых. Или вообще на вопрос "а задача точно решаема?" ты отвечаешь бизнесмену - а хуй знает, давай въебем полгода и посмотрим.
А вот если в науке уже стагнация, то бизнес с одной стороны знает, что задача решаема, с другой - что технология не будет смыта на помоечку. В этот момент идет вал инвестиций и реальных продуктов. Например посмотри на задачу с распознаванием лиц - она сейчас заканчивает инновационный цикл.

>Зачем тебе именно локальный запуск?

Это показатель дешевизны и зрелости технологии. Облака нужны для сейклинга, сами по себе они чудес не совершают и дешевле чем локальный запуск не выходят, они выходят дороже, потому что главная фишка облаков - это аутсорс админской работы. Сервер с 8 GPU работает быстрее не в 8 раз, а в 4-6 раз, и стоит дороже чем 1 GPU не в 8 раз, а где-то в 30-100 раз. Поэтому когда что-то начинает помещаться в 1 пеку, возникает резкий фазовый переход в окупаемости и вале продуктов.
Вот это для меня интересно. А когда просто кто-то ачивку сделал, это хорошо, потому что другие мегакабаны начинают инвестиции в эту тему, но лично мне как слесарю и жителю дна этой экосистемы (ниже меня только уже конечные потребители и хорошо если это b2b), это чисто как футбол посмотреть с бегающими по траве миллионерами. Интересно, и пообсуждать за пивасом можно, но бесполезно.

107 9 янв, 15:29 1905526

>>05496

> В svm нет вероятностей.

Распределение вероятностей не в SVM, а в датасете. Алгоритм машоба это распределение восстанавливает по тренировочным данным.
>>05500

> Алгоритм жопеншмульцера (1957, Zhopensmultser et al).

Ясно, фиксируем слив чухомора.

Ответы05537

108 9 янв, 15:50 1905537

>>05526

>Алгоритм машоба это распределение восстанавливает по тренировочным данным.

СВМ не восстанавливает распределение.

Ответы05562

109 9 янв, 15:57 1905546

>>05487

>который может решить такую задачу

Кокую задачу, выбрать один из двух вариантов ответа?

Ответы05562

110 9 янв, 16:11 1905562

36 Кб, 511x407

180 Кб, 701x539

>>05537

> СВМ не восстанавливает распределение.

Это ведь зумер сказал, как же я мог не поверить. А у Вапника уже в самой первой главе общая задача машобчика ставится через восстановление плотности распределения. Но то такое, куда уж Вапнику в лаптях за паровозом...
>>05546
Мозги купи.

Ответы05565 05682 05766

111 9 янв, 16:12 1905565

>>05562
А теперь ты находишь вероятности в выводе свм.

Ответы05570

112 9 янв, 16:13 1905570

>>05565
Ты че, вообще не понимаешь, о чем речь? А в этом треде ты что забыл?

Ответы05579

113 9 янв, 16:18 1905579

>>05570
Фиксирую слив шизика.

114 9 янв, 17:22 1905636

Как работает поиск по картинкам? Я могу еще понять индексирование/кэширование изображений с сайтов, но оно там все их перебирает и сравнивает с оригиналом? Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?

Ответы05683 05742 05854

115 9 янв, 17:56 1905682

>>05562

>. А у Вапника уже в самой первой главе общая задача машобчика ставится через восстановление плотности распределения.

Вообще-то нет.

Ответы06302

116 9 янв, 17:59 1905683

>>05636

>Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?

Да.
Ещё желательно быстро искать соседей, потому что наивно итерироваться по миллионам векторов размерности 1000 не очень хочется, поэтому всё кладётся в HNSW.

117 9 янв, 19:17 1905742

>>05636

>Или типо выделяет фичи из изображения для поиска, а потом ищет максимально совподающие по этим же фичям среди банка изображений?

Это как-то слишком общо звучит. У тебя есть йоба, которая для картинок выдает векторы, при чем она обучается так, чтобы для похожих картинок выдавались близкие векторы, а для разных - далекие. Обычно это нейронка.
И есть библиотека для k nearest neighbor поиска, типа вышеупомянутого HNSW. Он бывает точный - основанный как правило на чем-то типа kd-tree, бывает приближенный, основанный на разного рода locality sensitive hash и прочем.

Ответы06083

118 9 янв, 19:34 1905766

>>05562

>куда уж Вапнику в лаптях за паровозом...

Так и есть. Вапник и его подсосы оптимизируют телегу на конной тяге, когда уже есть железная дорога ГПТ-3

Ответы05869

119 9 янв, 20:19 1905854

>>05636
Это же обычная задача динамического программирования, есть хэш-таблица с фичами, по ней и ищет.

Ответы05927

120 9 янв, 20:29 1905869

>>05766
Проблема не в том, что книга вапника из 90-х устарела, а в том, что вапникошиз ссылается на вапника там, где вапник пишет совершенно другое. То есть когда ты видишь, что-то типа "вапник говорил" в треде, можешь быть уверен, что нихуя подобного не было, за редким исключением.

Ответы06302

121 9 янв, 21:02 1905927

>>05854
Как связано динамическое программирование и поиск в хэш-таблице?
Ну и на практике, если у тебя миллионы картинок, то ты не можешь себе позволить сравнивать с каждой.

122 9 янв, 21:37 1906001

>>05416
Зделяют сервис, где, заплатив 5 баксов, кабанчик будет удовлетворять любую свою прихоть. Будь то сдвиг кнопки ОК на 5 пикселей влево, или фейсбук с красным оформлением. И это будет переворот - ничем больше пользоваться не будут. Динозавры, кодящие руками, просто вымрут. Тут даже хуже чем с какими-нибудь кузнецами: там ручная работа еще ценится, а на рукотворный код всем будет насрать.

Ответы06124 06128 06146

123 9 янв, 22:30 1906083

>>05742
а как обучить модель выдавать вектор по изображению? Вот щас ради интереса смотрю как делают распозновалки лиц и чо-то все кажется каким-то супер сложным, если по сути можно просто получать нейронкой вектор из лица и сравнивать расстояние с лицами из бдшки, короче хочу че-нить такое простое попробовать замутить, но не вдупляю пока, как лейблы получить для такого типо хеширования

Ответы06110

124 9 янв, 22:43 1906110

>>06083
Читай про triplet loss. Из чуть более старого можешь про siamese networks.
Минимизируем расстояние между лицами одного человека и максимизируем между лицами разных людей.

Ответы06150

145 Кб, 477x726

125 9 янв, 22:44 1906111

Это нейросеть?

Ответы06129 06143

126 9 янв, 22:51 1906124

>>06001
Ага, а если что-то пойдёт не так кабанчик пойдёт качать туториалы по куче фреймворков и исправлять ошибки сетки.

127 9 янв, 22:53 1906128

>>06001
Да, сейчас все будут сайты на ucoz делать и фронтэнд умрет.

128 9 янв, 22:54 1906129

>>06111
Нет.

Ответы06133

129 9 янв, 22:56 1906133

>>06129
Почему?

Ответы06140 06145

130 9 янв, 23:00 1906140

>>06133
Что из этого обучаться должно?

131 9 янв, 23:06 1906143

>>06111
Зависит от определения.

132 9 янв, 23:09 1906145

>>06133
Функции недифференцируемые

Ответы06167 06242 06385

133 9 янв, 23:10 1906146

>>06001
Так я и буду делать. Гуглам и фейсбукам такое неинтересно, много гемора с техподдержкой и мало профита

134 9 янв, 23:15 1906150

>>06110
а если обучить автоенкодер а потом правую часть, которая восстанавливает лицо из вектора просто отрубить, будет работать?

Ответы06158 06238

135 9 янв, 23:26 1906158

>>06150
Скорее всего будет работать хуево. Наверняка будут закодированы фичи в стиле "в какую сторону смотрит лицо" и "цвет шапки на голове", которые наоборот нужно игнорировать в данной задаче.
Лучше сразу обучать для нужной задачи.

136 9 янв, 23:40 1906167

>>06145
Как и часть активационных функций нейронок

Ответы06236

137 10 янв, 00:43 1906236

>>06167
Например?

Ответы06240

138 10 янв, 00:48 1906238

>>06150
Можно обучить автоэнкодер, а внутри его латентного пространства обучить уже сетку попроще на triplet loss
За такими подходами будущее думаю

139 10 янв, 00:52 1906240

>>06236
Я видимо обосрался. Если так то объясни пж как от них производные брать пж.
Функция Хевисайда
Relu
Elu
Например эти 3

Ответы06244 06251 06258 06385

140 10 янв, 00:56 1906242

>>06145
https://ru.wikipedia.org/wiki/Производная_булевой_функции

141 10 янв, 01:09 1906244

>>06240

>Функция Хевисайда

Блин, почему у вас такие смешные названия?

Ответы06301 06774

142 10 янв, 01:17 1906249

производная константы равна нулю, так и брать, и ваще при вводе функции дирака любая функция дифференцируема, в точке разрыва производная равна функции дирака с весовым коэффициентом равным разные значения до разрыва и после

функция дирака - производная функции хевисайда

Ответы06251 06253

143 10 янв, 01:18 1906251

>>06240
>>06249

144 10 янв, 01:19 1906253

>>06249
разнице*

145 10 янв, 01:22 1906258

>>06240
Функция хевисайда как активация не используется. Производная- дельта функция, но она почти везде равна нулю, то есть никаких апдейтов градиента быть не может.
Производная relu - функция хевисайда. Слева от 0 нулевая, справа от 0 равна производной y=x, то есть 1. То есть у кусочно заданной функции просто кусками и считаешь.
У elu посчитай по школьным правилам.

70 Кб, 592x532

146 10 янв, 04:18 1906301

>>06244

> Блин, почему у вас такие смешные названия?

147 10 янв, 04:19 1906302

>>05869

> вапник пишет совершенно другое.

>>05682

> Вообще-то нет.

Ты читать не умеешь.

195 Кб, 1080x809

148 10 янв, 06:56 1906335

Хуесос

Ответы06337 06349

149 10 янв, 07:01 1906337

>>06335
Если бизнес это перемещение кнопки ОК по веб-страничке заказчика, то он прав. Тут юпитер только помешает.

Ответы06349

150 10 янв, 09:27 1906349

>>06335
>>06337
Для бизнеса важнее даже не матеша и кодинг, а понимание бизнес-процессов, маркетинг и софт-скиллы с помощью которых будешь доносить суть своей деятельности кабанчику.

Ответы06551

151 10 янв, 13:01 1906385

>>06240 >>06145
Гугли обобщенные производные или производные обобщенных функций.

18 Кб, 533x479

152 10 янв, 15:04 1906461

Сап, вопрос нубский. Короче пик: дана последовательность из 5 символов нулей и единиц и соответствующие выводы (либо 0, либо 1). Как сделать нейросеть, предсказывающую output для таких последовательностей?

Ответы06490 06492

153 10 янв, 15:24 1906490

>>06461
Это какой-то новый уровень оверкилла. Такое вообще на транзисторах собирается, даже без ЦПУ. Гугли карты Карно

Ответы06494

154 10 янв, 15:26 1906492

>>06461
Вообще на твоей картинке получается выход равен первому входу

Ответы06494

155 10 янв, 15:32 1906494

>>06490
>>06492
Я в курсе, смысл в том чтобы сделать это на нейросетке.

Ответы06510

156 10 янв, 15:52 1906510

>>06494
Гуглишь neural network classification языкпрограммированиянейм и вперед

157 10 янв, 16:37 1906551

>>06349
Кого ебёт чего там бизнесу важно. Gpt-4 уже скоро на дворе, бизнес отменяется, бизнес не нужен.

Ответы06560

158 10 янв, 16:47 1906560

>>06551
https://openai.com/blog/openai-api/

Ответы06755

159 10 янв, 17:37 1906636

GPT-3 это конечно круто, но эта хуйня с закрытым сугубо коммерческим доступом.
Насколько реально сделать так, чтобы нейросетка вроде GPT-3 работала в системе с распределенными вычислениями? Типа как в майнинг пулах майнят btc

Ответы06648 06657 06745

160 10 янв, 17:44 1906648

>>06636

> Насколько реально сделать так, чтобы нейросетка вроде GPT-3 работала в системе с распределенными вычислениями? Типа как в майнинг пулах майнят btc

Какбе абсолютно реально. Она изначально задумывалась легко асинхронизируемой. Думаю использовать распределенные вычисления для ИИ-сервисов поддерживаемые исключительно пользователями (не корпорациями / государством) - единственно верный выбор.

Ответы06662

161 10 янв, 17:50 1906657

>>06636
Смысл, она на средней пеке из 2020 должна заработать.
Там вся проблема в том, что она в ram целиком не влезет и надо постоянно подгружать веса с nvme

Ответы06674

162 10 янв, 17:55 1906662

>>06648
Бля, а в какие сроки реально освоить как устроена та же GPT-2? Насколько я помню, ее код есть в открытом доступе, а от третьей версии она ничем не отличается.
Прогать умею, питон умею, математика на очень высоком левеле (даже core math кто знает тот поймет), о нейросетках ничего не знаю

Ответы06665 07573

163 10 янв, 17:56 1906665

>>06662
ничем не отличается кроме объема скормленных данных*

164 10 янв, 18:00 1906674

>>06657

> Смысл, она на средней пеке из 2020 должна заработать.

Неа. К тому же в мире юзеров есть и смартфоны.

Ответы06869

165 10 янв, 19:08 1906745

>>06636

> GPT-3 это конечно круто, но эта хуйня с закрытым сугубо коммерческим доступом.

Ну они же пишут, а вдруг тираристы икстримисты будут использовать, если доступ открыть. Ты дяде напиши, а он решит, давать тебе доступ, али вдруг ты слишком белый, нидайбох в соцсетях про Трампа что-то хорошее спизданул, или там all lives matter. Это дело-то такое. А если нахуй пошлют, так это их дело, частная компания. Не нравится - не ешь, сам создавай.

166 10 янв, 19:21 1906755

>>06560

> June 11, 2020

Ну как там революция бизнеса?

167 10 янв, 19:43 1906774

>>06244
Учу математику только из-за смешного

Ответы06777

168 10 янв, 19:45 1906777

>>06774
У тебя многочлен видно.

Ответы06786

169 10 янв, 19:52 1906786

>>06777
Да это у меня ещё вялый пучок

170 10 янв, 21:38 1906869

>>06674

>Неа. К тому же в мире юзеров есть и смартфоны.

Смартфоны нужны только для звонков.

Ответы06871

171 10 янв, 21:43 1906871

>>06869
Не быть тебе маркетологом, а уж тем более бизнесменом.

172 10 янв, 23:20 1906929

Я правильно понимаю что жопэтэ это дефолтная рекуррентка но тупо с дохуя параметрами обученная на половине тырнета? Если так не понимаю чо за дроч вокруг нее, какие задачи это вообще может решить?

Ответы06934 06962 06971

173 10 янв, 23:32 1906934

>>06929

> Я правильно понимаю что жопэтэ это дефолтная рекуррентка

В том то и дело, что никаких RNNв ней нет. Чистый Transformer

Ответы06945

174 10 янв, 23:36 1906935

Аноны, есть задача. Делаю рогалик. Писать генераторы лень. Есть быстрый алгоритм, который генерировал бы контент по примерам? Данные имеют низкую размерность.

Ответы07260 07447

175 10 янв, 23:51 1906945

>>06934
Ну ок архитектуру не угадал, смысл у нее то какой? Выполнять работу гугла, но в 99999 раз медленнее??

Ответы06948

176 10 янв, 23:59 1906948

>>06945

> Ну ок архитектуру не угадал, смысл у нее то какой?

Генерировать текст, код, изображения, отвечать на вопросы, исправлять ошибки в тексте, играть в игры, да что-угодно.

Ответы06952

177 11 янв, 00:06 1906952

>>06948
на счет играть в игры не понял, все остальное делает гугл, на котором и обучена модель

Ответы06953 06957

178 11 янв, 00:07 1906953

>>06952

> все остальное делает гугл

Гугл не может тебе код генерировать и изображения.

179 11 янв, 00:13 1906957

326 Кб, 623x1280

340 Кб, 623x1280

>>06952

>на счет играть в игры не понял

Пикрелейтед, > - мои реплики, все остальное генерит сетка. Я еще добавил фразу про кислоту, дальше все тоже сгенерировано. Это реально текстовая РПГ в которой можно вообще что угодно, я убегал из тюрьмы через канализацию, меня травили школьники в классе, я разыгрывал диалоги с историческими персонажами (довольно шизоидные, но тем не менее).

Ответы06963 06985

180 11 янв, 00:17 1906962

>>06929
Вообще, открой статью про gpt-3. Там вся суть статьи в том, какие она задачи может решать.
Как сейчас применять это всё в бизнесе - другой вопрос. Но это r&d, от них и не требуется.
Потенциально - всякие умные чатботы, вопросно-ответные системы, создание выжимок из текстов.

181 11 янв, 00:17 1906963

>>06957
Только у нее не хватает памяти. Все твои действия забудутся через десять реплик.

Ответы06970

182 11 янв, 00:17 1906964

348 Кб, 623x1280

383 Кб, 623x1280

275 Кб, 623x1280

Забыл приложить в прошлом посте третий пик.

На втором пике я написал только первое предложение и добавил Lenin: , на втором я просто написал два ника - vova и nagibator666, а она родила этот пиздец.
Короче, когда к GPT-3 прикрутят DALL-E это будет полный пиздец

Ответы06985 06991

183 11 янв, 00:32 1906970

>>06963
Каждый раз возникает этот душнила. Нормально там с памятью все, около 4-6 кб только контекст, а еще можно создавать постоянную область, куда копипастить важные вещи типа имени твоих тиммейтов. Но так как суть рпг это постоянные путешествия, особо это не напрягает.
Вообще ощущения очень странные, потому что GPT-3 умудряется сделать осмысленный текст из любого действия, которое ты ему напишешь. Ну то есть напишешь "убей стражника помидором", и оно сука возьмет и распишет, как это произошло. Эта хуйня не троллируема, в отличие от GM из мяса.

Ответы06982

184 11 янв, 00:34 1906971

>>06929

>Если так не понимаю чо за дроч вокруг нее, какие задачи это вообще может решить?

Смысл в zero shot learning, она по примерам описанным на естественном языке способна решать задачи, это максимально человечное поведение, которое кто-либо видел. То есть ты пишешь что-то вроде

Текст статьи:
[дальше статья длиной в несколько килобайт]
Ее краткое содержание:

И она дописывает ее краткое содержание сразу после двоеточия.

185 11 янв, 01:19 1906982

>>06970

>Нормально там с памятью все, около 4-6 кб только контекст

Это вообще ни о чем.

>а еще можно создавать постоянную область, куда копипастить важные вещи типа имени твоих тиммейтов

А еще можно писать текстовый квест руками, без всяких ГПТ, как делали деды. Это все костыли, не имеющие отношения к самой архитектуре. Нормальной памяти у ГПТ нет. Вместо большого контекста можно было бы периодически файнтюнить, но и этого не просходит. В результате все твои действия быстро забудутся.

>Но так как суть рпг это постоянные путешествия, особо это не напрягает.

Только в прежние места уже не вернешься.

Ответы06983

186 11 янв, 01:25 1906983

>>06982
Можно дохуя чего делать, главное не быть душнилой типа тебя

Ответы06984

70 Кб, 592x532

187 11 янв, 01:26 1906984

>>06983

>Можно дохуя чего делать, главное не быть душнилой типа тебя

188 11 янв, 01:28 1906985

>>06964
>>06957
Блядь! Я наконец-то понял, как играть в это по нормальной схеме. В поле "Remember" нужно указывать ИИ, как вести игру.
К примеру:
"Когда игрок пишет 'осмотреться' детально опиши локацию вокруг него. Никогда не действуй за игрока. Просто описывай, что происходит после его действий. Игрок живет в мире похожий на 16 век. Все города здесь называются в Европейском стиле по типу 'Пасро', 'Вайтран', 'Рубинхейген'. Создавай походие имена."

И знаете что? Это работает! ИИ действительно делает всё так, как я объяснил. Он создает названия по типу "Хельген", он не пытается дейтсвовать за игрока, а всегда пишет в конце "Что ты будешь делать дальше?". Надо лишь объяснить, как правильно играть, и он перестанет нести бред.

По-моему Дивный Новый Мир с ИИ совесем близко.

Ответы06997 07017

189 11 янв, 01:43 1906991

>>06964
затестил, конеш потенциал бомбический, но эльфийка которая попросила побить гоблина который на нее напал, через пару реплик забыла про него как я понял

Ответы06994

190 11 янв, 01:44 1906994

>>06991
алсо мне доставила что я написал эльфийке привет на эльфийском из драгон ейджа и она поняла что это значит

191 11 янв, 01:51 1906997

>>06985
Однако 1000 символов в Remember это мало как-то. Прямо очень мало.

192 11 янв, 02:56 1907017

>>06985
Ты только учти что бесплатная версия там gpt2, а gpt3 еще круче лал

193 11 янв, 06:47 1907038

Вообщем, навались. Нужно написать на Р, простенькую рекомендашку. Данные:Списки клиентов и списки книг которые они купили, так-же вся фин стата типа валовый оборот и доход клиента и прочее. У книг - нету рейтига, просто есть факт того что ей покупали. Посоветуйте пожалуйста в какую сторому смотреть\искать. Ожидаемый эффект от такой модели, анализ истории покупок клиента и формирования списка рекомендации, да, КЕП. Модель заказали контентщики, сами не понимая что ждут на выходе, по-этому, по сути, могу впихнуть любую рабочую идею.

Ответы07044 07068 07234

194 11 янв, 07:41 1907044

>>07038
Очевидная коллаборативная фильтрация

Ответы07045 07047

195 11 янв, 07:54 1907045

>>07044

>коллаборативная фильтрация

Збс, то что нужно, буду гуглить варианты.

196 11 янв, 07:59 1907047

>>07044
Правда токо нужно придумать что вместо оцено подсунуть.

Ответы07054 07057

197 11 янв, 08:54 1907054

>>07047
кокококой-нибудь imdb для книг и оттуда оценки спиздить

Ответы07066

198 11 янв, 09:29 1907057

>>07047
Купил книгу - 1, не купил 0.

Ответы10177

199 11 янв, 10:20 1907066

>>07054
Такого говна на имдб точно нет, "1542 рецепта голубцов с говном для самых маленьких"

200 11 янв, 10:25 1907068

>>07038
google "svd in recommender systems"

А, пардон, у нас тут храм горьких невыученных уроков.
Хуй тебе, короче.

Ответы10177

201 11 янв, 13:37 1907234

>>07038

>Посоветуйте пожалуйста в какую сторому смотреть\искать

https://cs.stanford.edu/~srijan/teaching/cse6240/spring2020/slides/22-deep-recsys.pdf
Это не самый cutting edge, но для интродакшена сойдет, там описывается как от дидовских методов перейти к нормальным и почему они лучше дидовских.
Для cutting edge нужно рассматривать историю как историю, то есть последовательность событий, когда ты и сезонность начнёшь учитывать, и много другое. Но у тебя вряд ли достаточно данных.

Еще можешь https://github.com/Microsoft/Recommenders почитать, но там очень горько, осторожнее

Алсо датасеты можно пиздить с помощью парсинга крупных магазинов и для мелкого кабанчикобизнеса это скорее всего будет эффективнее.

Ответы07244 10177

202 11 янв, 13:50 1907244

>>07234
В состоянии ли тут DL выиграть, если очевидно, данных маловато?

Ответы07265

203 11 янв, 14:11 1907260

>>06935
Да, пишешь, "гпт, хочу рогалик такой то и такой-то". Хоп, и вот тебе полный код рогалика, ничё писать не надо.

Ответы07406

204 11 янв, 14:15 1907265

>>07244
Моих телепатических скиллов тут мало, нужно объединить усилия треда, чтобы совершить астральную атаку на датасет и запустить AstralML

205 11 янв, 15:21 1907406

>>07260
GPT не запустится на компьютере юзера. А еще GPT очень много весит.

206 11 янв, 15:41 1907447

>>06935
Без машоба - https://robertheaton.com/2018/12/17/wavefunction-collapse-algorithm/
С машобом можешь хоть char-rnn взять из статьи карпатого (https://karpathy.github.io/2015/05/21/rnn-effectiveness/ https://medium.com/@ageitgey/machine-learning-is-fun-part-2-a26a10b68df3#.cvhzo63n0), можешь взять мелкий стек трансформеров с такой же целью, можешь VAE попробовать.
Скорость это вопрос архитектуры.

Ответы07507

207 11 янв, 16:33 1907507

>>07447
Спасибо, анон. Мне главное, чтобы генеративный алгоритм смог хорошо улавливать закономерности в данных. Трансформеры это вещь конечно, надо попробовать какой-нибудь линейный. Но сначала надо попробовать

> Без машоба - https://robertheaton.com/2018/12/17/wavefunction-collapse-algorithm/

208 11 янв, 17:24 1907573

>>06662
Бамп
Как быстро можно полностью понять, как устроены gpt, если знаешь матан?

Ответы07588

209 11 янв, 17:50 1907588

>>07573
MLP, rnn, lstm, seq2seq, seq2seq with attention, scaled dot product attention, multi head self attention, transformer, дальше читаешь пейпер по gpt2 (language models are что-то там by openai)
За неделю можно управиться на уровне "по верхам", читая оригинальные пейперы, разборы индусов в бложиках и посмотрев Килхера

Ответы07597

210 11 янв, 18:06 1907597

>>07588
А в целом в ML (DS?) за сколько можно вкатиться, если ты действующий прогер с хорошим мат. бэкграундом?

Ответы07602

211 11 янв, 18:20 1907602

>>07597
Примерно как перекатиться с фронтэнда на написание драйверов. Кто-то за месяц выйдет на джуна и за полгода на автономного мидла, а кому-то годы нужны, чтобы узнать, что такое dvc

Ответы07610

212 11 янв, 18:35 1907610

>>07602
в машоб джуна за месяц? да ты ебу дал

Ответы07613

213 11 янв, 18:44 1907613

>>07610
Если ты прогер с мат. бэкграундом, то сколько ты хочешь, год слесарьплов учиться импортить?

Ответы07636

214 11 янв, 19:15 1907636

>>07613
Тогда я похоже немного переоцениваю машоб-специалистов

Ответы07650

215 11 янв, 19:20 1907650

>>07636
Скорее ты недооцениваешь программистов

216 11 янв, 19:48 1907703

как засунуть транфсформер в бустинк

Ответы07788

217 11 янв, 20:43 1907788

>>07703
Пальцем разрабатывай

218 11 янв, 23:01 1907892

От умничка наша
https://www.youtube.com/watch?v=EgoXjFqgvns

Ответы08044

219 12 янв, 05:47 1908044

>>07892
Репортнул за самопиар.

220 12 янв, 09:29 1908070

Анон, объясни дурачку:

Чем кардинально отличается PyTorch/Keras от TensorFlow?

Какие преимущества одного над другим?

Ответы08150 08292

48 Кб, 604x453

221 12 янв, 12:15 1908150

>>08070

> Какие преимущества одного над другим?

Что нравится, то и используй. Вряд ли что-то можно сделать одним из них, чего нельзя другим.

222 12 янв, 15:05 1908281

А можно ли тренировать нейросеть на сразу множестве компьютерах, связанных только интернетом (распределенная система)?

Ответы08293

223 12 янв, 15:34 1908292

>>08070
Если спрашиваешь, используй pytorch
Tf - очень плохая политика api, там зоопарк и постоянные deprecated ворнинги при обновлении. Keras это официальный api для tf2.0.
Pytorch прост и понятен.

Надо в faq добавить

Ответы08319

224 12 янв, 15:35 1908293

>>08281
Со стандартным бэкпропегейшеном нет, слишком много данных нужно гонять между нодами в последовательном режиме. Если 400 гбит канал имеется, можно подумать

Ответы08455

225 12 янв, 16:36 1908319

>>08292
pytorch довольно старые, по меркам индустрии, архитектуры только содержит же? (Читал где-то в прошлых тредах)

Ответы08323 08332 08433

226 12 янв, 16:50 1908323

>>08319
Наоборот, это стандарт, если чего-то нет в пайторче, значит скорее всего это лютая хуита, не стоящая внимания

227 12 янв, 17:06 1908332

>>08319
Вайд-резнет - стандартная архитектура, подходит для всего.
Вот в керасе проблемы с зоопарком, хоть они и недавно эффишентнеты добавили, но обучать их тяжело и на гпу они ложатся плохо.
Ну и все реализации новых sota штук первым делом выходят на пайторче.

Ответы08456

96 Кб, 512x473

228 12 янв, 18:39 1908433

>>08319
кароч пайторч для норм пасанов, TF для петушил

229 12 янв, 18:56 1908455

>>08293
А как теоретически можно было бы эту проблему решить или вот вообще никак по-твоему? Если все наши ноды обладают пропускным каналом не больше 1-10 Гбит/с.

Ответы08473

230 12 янв, 18:56 1908456

>>08332
А что это за sota-то? Архитектуры на острие науки типо?

231 12 янв, 19:22 1908473

>>08455
Никак, используй ноды для поиска гиперпараметров, но обучай каждую сетку отдельно.
Теоретические - локальные и биологически правдоподобные альтернативы бэкпропагейшену, но они все говно настолько, что проще обучать маленькую архитектуру локально, что большую, но так.
Можешь https://cs.stanford.edu/~matei/papers/2019/sysml_parallelism_flexflow.pdf почитать для общего развития

232 12 янв, 20:31 1908556

А трансформеры хорошо работают на малом количестве данных? Или как lstm выдают кашу из символов?

Ответы08559 08584 08660

233 12 янв, 20:36 1908559

>>08556
Как и любая нейронка, плохо. Но предобученные работают очень хорошо, обычно можно даже не файнтюнить и сразу доставать фичи.

Ответы08565

234 12 янв, 20:42 1908565

>>08559
Тогда мне остается использовать только марковские цепи с запоминанием контекста для моей задачи.

235 12 янв, 21:04 1908584

>>08556

> А трансформеры хорошо работают на малом количестве данных?

А ты их с нуля решил обучить? Миллионер дохуя, собственный суперкомпьютер имеешь?

Ответы08611

236 12 янв, 21:24 1908611

>>08584

> А ты их с нуля решил обучить?

У меня есть игра. Но естественно, фантазия и у меня конечная, по этому я хочу добавить в игру процедурно-генерируемый контент на основе уже существующего.

Ответы08776

237 12 янв, 22:10 1908660

>>08556
Получше чем lstm, но чудес не бывает. Претрейни на неразмеченных

238 13 янв, 00:53 1908776

>>08611
Dwarf Fortress: генерит бесконечные варианты развития событий и сюжетов, будучи написанной на сях.
Зумер на дваче: не знает как прогать и потому хочет впихнуть нейросетку в любую вещь которая требует навыка.

Ответы08780 08784

239 13 янв, 01:00 1908780

>>08776
Но ты же понимаешь, что чисто физически невозможно охватить любую хотелку игрока, типа "лизнуть елку", или "сказать Джейку 'пошел нахуй'". Даже будь ты трижды Тарном Адемсом.

Ответы08801

240 13 янв, 01:14 1908784

>>08776
Ни в коем случае не пишите ничего нового, просто сидите на дваче и нудите.

Ответы08801

241 13 янв, 01:55 1908801

>>08780
>>08784
Если бы при этом писали что-то НОВОЕ, а не очередной AI Dungeon.

https://play.aidungeon.io/

Ответы08808

242 13 янв, 02:31 1908808

>>08801
Так AI Dungeon на английском. К тому же он не без минусов (а их много).
Выглядит очень сыро.

Ответы08999

186 Кб, 600x339

243 13 янв, 04:16 1908834

В чём разница между Alpha Go\Zero и генетическим алгоритмом с памятью?

Правильно ли я понимаю, что Alpha Zero - это генетический алгоритм с большим объёмом памяти и не более того?

В этом случае ему нужно крайне малое число действий для манёвра, те же шахматы или шашки, иначе база данных быстро заполнится мусором.
Боты в CS тоже могут быстро вынести всех противников на карте, и там нет мл даже, зато громких выкриков "ИИ ПОБЕДИЛ ЧЕЛОВЕКА В CS - НОВАЯ ЭРА НАЧАЛАСЬ!" как с шахматами слышно не было.

Ответы08849 08853 08862

244 13 янв, 05:24 1908849

>>08834

>генетический алгоритм

Я хотел сказать "перебор с записью результатов в память".

245 13 янв, 05:53 1908853

>>08834

> Правильно ли я понимаю, что Alpha Zero - это генетический алгоритм с большим объёмом памяти и не более того?

Неправильно. Там же написано, что использовали авторы, зачем что-то додумывать? Ты зумер?

246 13 янв, 07:17 1908862

>>08834
Хуево быть тобой, конечно.

247 13 янв, 09:54 1908886

Какие можно сделать проекты по RL, чтобы дед-препод сказал малацца? Что-то сложнее перевернутого маятника, но проще vizdoom'а.

Ответы08967 08971

248 13 янв, 13:36 1908967

>>08886
камень ножницы бумага

Ответы08976

249 13 янв, 13:44 1908971

>>08886
Крестики-нолики в бесконечномерном пространстве.

Ответы08976

250 13 янв, 13:58 1908976

>>08967

>сложнее перевернутого маятника

>>08971

>проще vizdoom'а

251 13 янв, 14:23 1908985

Машоб-спецы, а какой по вашему мнению следующий этап у архитектуры gpt-3?

Я слышал, что некст левел будет когда openai прикрутят к нейронке какие-то "ациклические графы", но хз что это значит в контексте машоба. Проясните, хули

Ответы08987

252 13 янв, 14:27 1908987

>>08985
Трансформеры поменяют на лонг-/ре-/перформеры, для реальных задач контекст можно будет считать бесконечным.

Ответы09029

253 13 янв, 14:49 1908999

>>08808

>Так AI Dungeon на английском

Лингва франка всего мира.

>К тому же он не без минусов (а их много)

Назови один.

>Выглядит очень сыро.

Сперва добейся.

Ответы09194

254 13 янв, 15:18 1909029

>>08987
А можно ли аккуратно перевести обученную gpt-like нейросеть да новую архитектуру, не обучать все с нуля?

Ответы09032

255 13 янв, 15:20 1909032

>>09029
На перформеры можно

Ответы09076 09156

256 13 янв, 16:09 1909076

>>09032

>перформеры

нет таких нейросетей дебич

257 13 янв, 17:55 1909156

>>09032
Спасибо, нагуглил статью от гугла про него. А можно перформер уже сейчас сделать?

258 13 янв, 18:31 1909194

>>08999

> Назови один.

- Зависим от сторонних серверов, а запускать локально непосильно для среднего игрока.
- Несет бред. Логика это не про AI Dungeon.
- Плохо взаимодействует со стейтом мира (его вообще нет).

Ответы09197 09432 10387

259 13 янв, 18:33 1909197

>>09194
Эта игра работает на GPT-2, чел. Ты собрался заделывать GPT в соло?

Ответы09200

260 13 янв, 18:37 1909200

>>09197

> Ты собрался заделывать GPT в соло?

Нет. У меня нет желания создавать языковую модель на все случаи жизни. Я создаю игру в определенном созданным мною сеттинге, но с генеративным контентом и большой интерактивностью. Генеративные нейросети это олин из инструментов. Но, как я понял, нейросети плохо подходят для того чтобы быстро усваивать паттерны в данных.

261 13 янв, 19:28 1909265

Так чтобы научить gpt генерировать мир нужно сначала скормить ей дохуя миров, а для этого генерацию всё равно придётся сначала написать.

262 13 янв, 22:35 1909420

обучение нейросети генетическими алгоритмами имеет право на жизнь? насколько я понимаю, точной математической оценки временной сложности стандартных алгоритмов обучения или генетических нет, но чет вторыми редко пользуются.

Ответы09447 09582

263 13 янв, 23:00 1909432

>>09194
1) Это плюс а не минус.
2) А ты уверен, что для тебя это минус?
3) Она взаимодействует хуже вручную написанных диалогов. Вам бы текстовые квесты писать, батенька. Попробуй сделать сам что-то, чтоббы оно хотя бы пыталось сделать этот параметр на нужном тебе уровне. Сейчас есть уже куча смешивающих фичи изображений споособов, наверняка можно использовать их подходы для текста. Всего-то делов собрать датасет (на самом деле это самое сложное для обучения сетки. Теоретиков много, а практиков- днём с огнём не найти)

Ответы09578

264 13 янв, 23:10 1909444

Подскажите материалы по анализу данных, если я не знаю, что я ищу. Есть ли примерчики когда берут кучу данных, с нихуя их обрабатывают и учат что там можно накопать? С меня нихуя

265 13 янв, 23:12 1909447

>>09420
Генетические алгоритмы - эвристика. Ждем, пока местный шизик сошлётся на жопеншмульцера, чтобы это опровергнуть.

44 Кб, 552x690

266 14 янв, 01:41 1909578

>>09432

> А ты уверен, что для тебя это минус?

Знаешь ли, постоянно нажимать кнопку "reset" (читай: заниматься черрипикингом), только потому что ИИ несет бред, и в итоге останавливаться на более-менее адекватном варианте, сложно назвать приятной игрой. Это еще я не говорю, про то что ИИ действует и говорит за игрока. Даже я, когда только начинал DM'ить не позволял себе такой ахуелости.

У меня вообще нет ни одного варианта как сделать IF'ки с помощью ML/AI. Ролеплей - ИИ-полная задача в смысле нам нужен интеллект, соответсвующий человеческому. .
Ты либо большую часть игры создаешь сам, разбавляя её процедурщиной (игра получится ограниченой, но в тоже время нересурсотребовательной) , либо сваливаешь все на языковую модель (технически в игре ты сможешь всё на что хватит тебе фантазии, но игра может быть очень некотроллируемой во многих местах + оверхед по ресурсам).

Честно говоря, все языковые модели, какие бы они не были, не подходят для текстовых квестов (здесь нужен иной подход, какой - хуй знает). В данном случае Марковские цепи и GPT индетичны. Что то просто следующее слово предсказывает, что то. А результат всё равно не удвлетворительный.

Ответы09602

267 14 янв, 01:50 1909582

>>09420

> обучение нейросети генетическими алгоритмами имеет право на жизнь?

Предобучение генетическим --> обучение подкреплением.

Правда... нахуя? Подкрепление куда эффективней, чем генетические алгоритмы. Почему оно так, надеюсь, объяснять не надо.

Ответы09638

268 14 янв, 02:28 1909602

>>09578

>в смысле нам нужен интеллект, соответсвующий человеческому. .

Не нужен, почитай битерлесон пожалуйста

>В данном случае Марковские цепи и GPT индетичны.

Нет же!!

Ответы09767

269 14 янв, 04:44 1909638

>>09582
нада. я просто слегка тупенький мимокрок, который играясь с генетическими вспомнил про нейронки.
обучение подкреплением действительно очень похоже на генетические алгоритмы: и там и там цель подобрать такие параметры (веса, гены), при которых некая функция будет максимальна. неужели здвиг всех весов на некое милипизрическое значение в зависимости от выходной ошибки на каждом шаге прям в овер 9000 эффективнее, чем постоянные рандомное скрещивания лучших на данным момент параметров?

Ответы09663 09763

270 14 янв, 06:51 1909663

>>09638

> и там и там цель подобрать такие параметры (веса, гены), при которых некая функция будет максимальна

Ты только что любую оптимизацию

>неужели здвиг всех весов на некое милипизрическое значение в зависимости от выходной ошибки на каждом шаге прям в овер 9000 эффективнее, чем постоянные рандомное скрещивания лучших на данным момент параметров?

Генетический алгоритм чуть лучше случайного перебора по своей логике. По сути это случайный перебор, у которого область поиска постоянно сокращается по определенным правилам.
Когда у тебя 200 параметров и 1000 особей - это одно. А когда параметров у тебя миллионы, то и особей нужны ну хотя бы тоже миллионы, что это хоть как-то работало. И это уже неэффективно.

Ответы09665

271 14 янв, 06:57 1909665

>>09663

> Генетический алгоритм чуть лучше случайного перебора по своей логике. По сути это случайный перебор,

Это абсолютно не так. Даже если не лезть в матчасть, а просто сравнить время работы генетического алгоритма и перебора. На одной и той же задаче, на которой grammatical evolution с генетическим алгоритмом сходится за несколько секунд, перебор висел минут 15, пока я просто процесс не прибил. Разница по времени там буквально на порядки.

Ответы09666 09667 09668

272 14 янв, 06:58 1909666

>>09665
Как же вы блядь любите гринтекстить так, как ваш синдром дефицита внимания вам велел. Попробуй еще

273 14 янв, 07:12 1909667

>>09665
Есть какое-то теоретическое обоснование?

274 14 янв, 07:12 1909668

>>09665
Если у нас нейронка, то все гены - float'ы.
Берем набор особей. Это набор точек в пространстве.
Далее мутация - это это сменение точки в случайном направлении.
Кроссовер - это ты из 2-х точек получаешь одну, которая, в зависимости от правил этого кроссовера, будет где-то на кубике вписанном между этими двумя точками.
То есть мутация обеспечивает тебе случайный поиск, селекция и кроссовер - сужение границ поиска. В итоге все сходится.
Но чтобы оно сходилось, у тебя изначально должны быть хорошие шансы оказаться рядом каким-то хорошим минимумом. Для этого особей должно быть достаточно много, и как много зависит от размерности твоей задачи, и я не вижу причин, чтобы зависимость не была экспоненциальной.
grammatical evolution - какая там у тебя размерность, 1000 есть хотя бы? А небольшая нейронка имеет в 1000 раз больше параметров, и сама поверхность хуже для ГА, если прикинуть.

Ответы09672

275 14 янв, 07:42 1909672

>>09668

> Но чтобы оно сходилось, у тебя изначально должны быть хорошие шансы оказаться рядом каким-то хорошим минимумом.

Сходиться оно в любом случае будет. Тут зумера не любят теорем Жопеншмуклера, а я все же сошлюсь на теорему схем Холланда, доказанную им в 1975. С практической точки зрения, опять же, генетические алгоритмы хорошо сходятся и не застревают в локальных минимумах даже специальной хуйни типа функции Растригина. Да, все это плохо работает на многомерных данных, но я не вижу причин, почему ГА нельзя распараллелить и состыковать из отдельных алгоритмов, решающих задачу низкой размерности, теорему Колмогорова-Арнольда никто не отменял.

276 14 янв, 09:37 1909690

http://dynamics.org/Altenberg/FILES/LeeSTPT.pdf
Одна из миллиарда статей, критикующих теорему схем жопеншмульцера.

277 14 янв, 12:22 1909763

>>09638
Вот смотри:
Алгоритм с подкреплением ведет поиск "осознанно". Он накладывает на поиск вариантов евристики.
Генетический алгоритм всё делает рандомно. Еврестики подбираются тоже случайным образом.
Генетический алгоритм будет дольше обучается, чем подкрепление.

Вот самое лучшее сочетание предобучение авторегрессией -> обучение подкреплением.
К примеру, задача генерации музыки.
Мы даем нейронке изначальные знания, в виде базы данных музыкальеых произведений. Затем, когда она генерирует музыку, подкрепляем лучшие результаты работы алгоритма, а откровенно плохие варианты - откидываем.

Такой подход можно применить задач генерации текста и музыки, ибо там требуется некоторый абстрактный "смысл", который можно вывести, накладывая на алгоритм ограничения вручную.

Ответы09768 09773

278 14 янв, 12:25 1909767

>>09602

> Не нужен, почитай битерлесон пожалуйста

Начнем с того, что увеличение данных для GPT не улучшит его работу.

> Нет же!!

GPT = Марковские цепи со знанием контекста и вниманием. Change my mind.

Ответы09782

279 14 янв, 12:26 1909768

>>09763

> Затем, когда она генерирует музыку, подкрепляем лучшие результаты работы алгоритма, а откровенно плохие варианты - откидываем.

Вручную что ли? Ну биттерлессон же, мань. Ну че ты.

Ответы09772

280 14 янв, 12:32 1909772

>>09768

> Вручную что ли?

Естессна.
К примеру у тебя есть музыкальный сервис, которые фокусируется на генеративной AI-музыке.
Генериреутся она через (VQ)VAE.
Однако, даже если данных будет достаточно, не каждый вариант будет хорошим - это факт.
Но, внимание, у пользователей есть кнопки лайк и дизлайк. Именно пользователи будут дообучать нейросеть подкреплением.
Через некоторое время, алгоритм будет делать музыку не хуже человека.

281 14 янв, 12:32 1909773

>>09763

> Алгоритм с подкреплением ведет поиск "осознанно". Он накладывает на поиск вариантов евристики.

> Генетический алгоритм всё делает рандомно. Еврестики подбираются тоже случайным образом.

Ты не понимаешь принципов работы ни ГА ни RL. При этом пытаешься спорить. Могу предположить, что ты зумер.

282 14 янв, 12:44 1909782

>>09767

>Начнем с того, что увеличение данных для GPT не улучшит его работу.

Так ты весов тоже накинь

>GPT = Марковские цепи со знанием контекста и вниманием. Change my mind.

Можно с таким же успехом написать что-то типа "GPT - функция". Смысл в твоей интерпретации какой, даже если она верна, хотя скорее всего она не верна?

156 Кб, 1098x468

283 14 янв, 13:51 1909812

Попробовал сделать на питорче нейросеть, которая преобразует русский спич с текст, но чего-то не получается. Сделал её из другой своей RNNки, которая определяла последовательность рукописного текста.
Может, вы увидите какую-то грубую ошибку и что там не так? https://pastebin.com/bb6kviKM

По обучению, получается так, что вывод заполняется blank label (maxr на картинке). А loss потихоньку спускается к нулю, а потом к отрицательным значениям.

Ответы11165 11166

284 14 янв, 14:29 1909833

Реинфорсмент точно так же перебирает все варианты, просто после какого-то количества траев он чаще выбирает выигрышные в прошлом

Ответы09837

285 14 янв, 14:44 1909837

>>09833
Во-первых, рл - это большая область с кучей разных задач и алгоритмов. Во-вторых, где в каком-нибудь REINFORCE есть "перебор всех вариантов"? Там напрямую максимизируется матожидание награды, никакого перебора всех вариантов там нет. Изначальная околослучайная стратегия - это не перебор вариантов.

286 14 янв, 16:30 1909918

Чтобы научить GPT-3 что-то делать, ему надо дать несколько примеров. Допустим, для того чтобы он переводил — 10 примеров фраз на русском и английском.

А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3? По одной нашей команде, чтобы бы не пришлось предоставлять ему какие-то примеры для работы вообще? Или это бессмысленно и должен быть какой-то ввод извне, типа в этом суть?

Ответы10002 11167

287 14 янв, 18:23 1910002

>>09918

> А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3?

Будет переобучение отрицательными (некорекктными) данными. Улучшение результата не будет.

288 14 янв, 19:48 1910083

Подскажите, книжонки в оп посте для вкатывания актуальные?

Ответы10098

289 14 янв, 20:10 1910098

>>10083
За остальные не поясню, но Бишоп не для вкатывания, а для deep dive. Всё актуально, кроме части про нейронки.

Ответы10101

290 14 янв, 20:19 1910101

>>10098

>Что почитать для вкатывания?

>http://www.deeplearningbook.org/

>Николенко "Глубокое обучение" - на русском, есть примеры, но >меньше охват материала

>Франсуа Шолле - Глубокое обучение на Python

А где тут бишоп?

Ответы10115

291 14 янв, 20:43 1910115

>>10101
А, в глаза ебусь, увидел в шапке только дедовские книги.
Почему-то для вкатывания один диплернинх. В классический машоб я бы советовал вкатываться с курса от одс, а в DL - со стенфордского cs231n. Если нужно будет погружаться глубже, то тогда узконаправленно читать нужную инфу.
Если из предложенных книг выбирать, то там +- одно и то же. После любой из них всё равно придется догонять то, что было после 17 года придумано.

Ответы11207

292 14 янв, 21:32 1910177

>>07068
>>07057
Тут норм, просто как дверь.
>>07234
Буду раскуривать-гуглить.
Ппц я отсталый, посоны

293 14 янв, 22:21 1910222

Чего вы там "учите" в диплёрнинге-то? Как градиентный спуск работает что-ли? Так же как и для перецептрона классического, матешки в мл на самом деле самый минимум.

Ответы10276

294 14 янв, 22:34 1910236

DeBERTa обошла человека в понимании логики текста.

https://m.hightech.plus/2021/01/13/modeli-ii-ot-microsoft-i-google-oboshli-cheloveka-v-ponimanii-logiki-teksta

Ответы10261 10458

295 14 янв, 23:13 1910261

>>10236
ну это смотря какого человека
не могу удержаться, извините

Ответы10272

296 14 янв, 23:23 1910272

>>10261
Усредненного.

297 14 янв, 23:28 1910276

>>10222
Соглы, можно в orange модельку накликать вообще без математики. Значит математика не нужна, доказано.

Ответы10357

298 15 янв, 00:56 1910357

>>10276
Ну вот градиентный спуск и есть математика которая там нужна, сколько нужно времени чтоб освоить как думаешь?

299 15 янв, 01:16 1910367

Как GPT понимает, когда перестать генерировать текст?

300 15 янв, 01:54 1910387

>>09194
Оно и не будет взаимодействовать с миром нормально до тех пор, пока мир не будет являть собой мысле-образ, как ты, перед тем, как написать/сделать что-то, представляешь это в голове. Эта штука так не может, да и не сумеет.

Ответы10404 10430

301 15 янв, 02:18 1910404

>>10387

> мысле-образ,

И тут ты такой с определением "мысле-образа". Ах да, ты ж просто зумер...

Ответы10411 10412

302 15 янв, 02:34 1910411

>>10404
Ты еще попроси определения слова куча сена дать. Я ебу что-ли, для кого-то куча - 1 кг, для другого - тонна.
Вопрос в том, что животные (большинство из них) действую по схеме:
стимул -> реакция
А учеловека:
раздражитель -> мысль -> действие
Я уж не говорю о том, что эта цепочка может начаться вовсе без раздражителя.

Или ты из тех, кто отрицает наличие свободы воли и образного мышления?

Ответы10430

303 15 янв, 02:38 1910412

>>10404
Любая из существующих нейросетей - черный ящик с хорошей эвристикой. Человек действует несколько иначе. Ты вот как считаешь, откуда у человека сознание? Мне кажется, что это следствие необходимости создания инструментов и социального взаимодействия.

Ответы10420 10430

304 15 янв, 04:23 1910420

>>10412

>Любая из существующих нейросетей - черный ящик с хорошей эвристикой. Человек действует несколько иначе.

Пруфца бы

305 15 янв, 05:17 1910430

>>10412
>>10411
>>10387
И типа кто-то кроме зумерошизика спутает это с осмысленной человеческой речью. Реально же не лучше марковских цепей из нулевых, более менее семантически корректный бред генерировать может, но не более. Конкретно этот анон с порфирьевичем (который на гпт2 с прибамбасами) развлекается видимо.

Ответы10433

306 15 янв, 05:48 1910433

>>10430
Ну давай, укажи на бред. Где конкретно я не прав, в чем?

Ответы10446

307 15 янв, 06:44 1910446

>>10433

> Ну давай, укажи на бред Где конкретно я не прав, в чем? Ну порфирьич, рожай

Dieu lui sera- sera, mais je suis si dans le monde, ench

Ответы10770

308 15 янв, 08:42 1910458

>>10236

>Проделав теоретические вычисления, международная группа ученых под руководством команды исследователей из Института Макса Планка (Германия) показала, что появись такой ИИ, управлять им мы точно не сможем.

Содомит, прекрати. Слово ученый уже зашкварилось как и слово либерал.

Ответы10782

309 15 янв, 16:38 1910770

>>10446
Понятно.

310 15 янв, 16:49 1910782

>>10458
В /по/, быдло.

Ответы11121

311 15 янв, 21:05 1911121

>>10782

>быдло

Это с чего же?

Ответы11155

312 15 янв, 21:30 1911155

>>11121
Институт науки не уважаешь, вас таких в пробирке тьмы и невежества выводят. А если вас просвещать, за такое в тематике банят

Ответы11210 11225

313 15 янв, 21:38 1911165

>>09812
А CTCLoss вообще может быть отрицательным? Я с pytorch'ем на вы, но мне кажется в training loop какая-то ебань, сама сетка как сетка, работать будет вряд ли, потому что слишком простая, но хоть как-то обучаться должна

314 15 янв, 21:39 1911166

>>09812
Алсо, замени GRU на https://pytorch.org/docs/stable/generated/torch.nn.TransformerEncoder.html

315 15 янв, 21:41 1911167

>>09918

>А можно ли сделать так, чтобы даже эти 10 примеров для файн-тюнинга (или как это называется) себе предоставлял сам же GPT-3?

Можно. Вот так: дай ему 10 примеров, о выдаст тебе еще 10. Кек

316 15 янв, 22:02 1911207

>>10115

>Почему-то для вкатывания один диплернинх

Есть ссылка на CS229. Впрочем, надо добавить курсы отдельно

317 15 янв, 22:03 1911210

>>11155

>Институт науки не уважаешь, вас таких в пробирке тьмы и невежества выводят. А если вас просвещать, за такое в тематике банят

Нормальная наука есть только в крупных коммерческих фирмах. Остальные ученые в говне моченые ничем кроме попила грантов не занимаются.

Ответы11245 11250 11267

318 15 янв, 22:10 1911225

>>11155

>Институт науки

У меня к ним есть вопрос, когда они перестанут жечь динозавров в ДВС или хотя бы поднимут КПД больше 40% ?

Ответы11504

319 15 янв, 22:24 1911245

>>11210
Ну если под наукой подразумевать брутфорс по подбору моделек на куче данных и мощностей то да. Наукой же как изучением тайн природы (в классическом смысле этого слова т.е.) кабанчики не интересуются.

Ответы11305

320 15 янв, 22:30 1911250

>>11210
Фундаментальной наукой как раз занимаются только на уровне гос. финансирования, капитал заинтересован только в short outcomes.

Ответы11256 11267

321 15 янв, 22:34 1911256

>>11250
Комми, газуй отсюда

322 15 янв, 22:46 1911267

>>11210

>Остальные >ничем

>>11250

>только

Вот оно мышление быдла - предельное упрощение сложности мира, чтобы в мозг влезало

323 15 янв, 23:14 1911305

>>11245

>Наукой же как изучением тайн природы (в классическом смысле этого слова т.е.) кабанчики не интересуются.

В современной науке основной фокус это не изобретение нового, а публикация как можно большего количества пейперов низкого качества. Поэтому от большинства исследований пользы даже меньше, чем от кабанчиков, которые трясут ящик чтобы решить задачи бизнеса. Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов. Остальные просто паразитируют на грантах.

Ответы11335 11354

324 16 янв, 00:01 1911335

>>11305

>а публикация как можно большего количества пейперов

Перестань, это Болонская система где требуют публиковаться

>Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов

Не делают, они вам пытаются скормить

>Остальные просто паразитируют на грантах.

В это и есть смысл современной науки

325 16 янв, 00:35 1911354

>>11305

>Все инновации делает гугл, фейсбук, опенаи и пара тройка топовых университетов

Инновации делают ученые, которые там работают, и гугл, фейсбук и прочие их не в пробирке выращивают. Инновационная экономика - система комплексная и частично не работает, нужно и обучать ученых, и отбирать их, и давать им финансирование, и чтобы они делились знаниями как можно раньше, а не пытались зажопить ноу-хау.
Вытащишь что-то, работать не будет.

Ответы11390

326 16 янв, 00:57 1911370

А насколько реально расширить память GPT-3, сколько там, всего 2-3 кб? Или с ее трансформерной архитектурой это прямо-таки анрил?

327 16 янв, 01:32 1911390

>>11354

>нужно и обучать ученых, и отбирать их, и давать им финансирование

А можно просто выучить наконец битерлессон и забить на этих дармоедов.

Ответы11407

328 16 янв, 02:00 1911407

>>11390
Richard S. Sutton
Distinguished Research Scientist, DeepMind Alberta
Professor, Department of Computing Science, University of Alberta
Principal Investigator, Reinforcement Learning and Artificial Intelligence Lab
Chief Scientific Advisor, Alberta Machine Intelligence Institute (Amii)
Senior Fellow, CIFAR

Ответы11489

329 16 янв, 04:18 1911467

В машобе есть фриланс?

Ответы11479

330 16 янв, 06:25 1911479

>>11467
Валом, обычно мелкошерстые конторы берут подфитить модели которые написал бывший их саентист перед тем как свалил.
Держать такое рыло на полную ставку им не выгодно.

Ответы11494

331 16 янв, 07:52 1911489

>>11407

>Professor, Department of Computing Science, University of Alberta

>Principal Investigator, Reinforcement Learning and Artificial Intelligence Lab

>Chief Scientific Advisor, Alberta Machine Intelligence Institute (Amii)

>Senior Fellow, CIFAR

Пиздец у него титул, взоржал.

Профессор, почетный член всех академий, любимый муж и папочка, исследователь всяких исследований, заведуюйщий двухкомнатной лабораторией с четермя стульями, очень умный, консультант по щам и просто хороший человек

Ответы11495 11510

332 16 янв, 08:37 1911494

>>11479
Где это? На апворке?

333 16 янв, 08:41 1911495

>>11489
У обезьяны-эникейщика подгорело

Ответы11510

334 16 янв, 09:42 1911504

>>11225
когда изобретут то, что будет дешевле динозавров или когда динозавры кончатся или когда жечь динозавров станет опасно для жизни

335 16 янв, 09:58 1911510

>>11489

>Пиздец у него титул, взоржал.

>>11495

>У обезьяны-эникейщика подгорело

При этом такой профессор получает меньше, чем типичная веб-макака в индустрии.

Ответы11512 11522 11526 11592

336 16 янв, 10:06 1911512

>>11510
Вот это пожар

Ответы11515

115 Кб, 482x400

337 16 янв, 10:21 1911515

>>11512

>Вот это пожар

Но ведь пожар как раз у наукопетушни, которая потратила всю свою жизнь чтобы зарабатывать как вчерашний студент.

338 16 янв, 10:40 1911522

>>11510

> При этом такой профессор получает меньше, чем типичная веб-макака в индустрии.

Смотря где. Пару лет назад постили зарплаты в Японии, среднестатистический профессор там получает в пересчёте на нашу псевдовалюту около 900к₽. Очень сомнительно, что такой доход имеет вебмакака, даже в той же Японии. Если ты про Блинолопатию, то да, тут и дворник гурбангулбердымужамеджон в москваюрте больше профессора в регионах имеет.

Ответы11584

339 16 янв, 11:06 1911526

>>11510
Недавно читал что много челов в openai и deepmind получают около 1кк зеленых в год. макаки столько никогда не будут получать

Ответы11587 12239

340 16 янв, 12:23 1911584

>>11522

>в пересчёте на нашу псевдовалюту около 900к₽.

Мань, плез, сколько у него остается на руках и сколько он тратит на хоромы в два квадратных метра в пездоглазии

341 16 янв, 12:24 1911587

>>11526

>получают около 1кк зеленых в год

За что?

342 16 янв, 12:27 1911592

>>11510

>такой профессор

Кокой прохфесор? Обычное ноунеймговно которому нужно публиковаться, что бы бабосы не урезали

Ответы11669

55 Кб, 580x546

343 16 янв, 12:33 1911602

344 16 янв, 13:24 1911669

>>11592
Саттон - ноунеймоговно, держи в курсе.

Ответы11694 11975

345 16 янв, 13:40 1911694

>>11669

>Саттон

Борщевед?

Ответы11730

346 16 янв, 14:39 1911730

>>11694
Придумал битерлессон, великий учёный

347 16 янв, 16:59 1911938

А как можно посмотреть параметры GPT-2, например, получить все значения слоя аттеншенов на каждом шаге?

348 16 янв, 17:08 1911957

Калькулус с несколькими переменными необходим для понимания архитектуры GPT?

349 16 янв, 17:13 1911964

Ну всё, пизда, набежало гптшников которые не в курсе что такое градиентный спуск. Не с ютуба ли?

Ответы12028

350 16 янв, 17:17 1911975

>>11669

>Саттон - ноунеймоговно

Представься, пидор не-ноунеймговно

351 16 янв, 18:14 1912028

>>11964
Я скоро напишу свой gpt

352 16 янв, 18:48 1912046

Почему вычисления готовой нейросети такие нетребовательные к ресурсам? Та же GPT-3 вполне будет работать на игровом компьютере

Ответы12182 12187

353 16 янв, 21:27 1912182

>>12046

>Та же GPT-3 вполне будет работать на игровом компьютере

Не будет. Даже GPT-2 с трудом запускается на 11Гб видеопамяти, а у GPT-3 на два порядка больше параметров.

354 16 янв, 21:34 1912187

>>12046
Потому что это всего лишь перемножение матриц, для которых давно разработаны очень быстро работающие алгоритмы

355 16 янв, 22:49 1912239

>>11526

>Недавно читал что много челов в openai и deepmind получают около 1кк зеленых в год. макаки столько никогда не будут получать

Макаки-лиды в долине получают столько же.

К тому же это все коммерческие компании. Я же говорил про профессоров, которые работают в университетах и имеют титул длиннее, чем их история работы. Такие получают максимум тысяч 150, и то к самому концу карьеры, проработав всю жизнь за зарплату автомеханика.

Ответы12265

356 16 янв, 23:42 1912265

>>12239
>>12239
Вообще, долина по сути уникальное место, касаемо зарплат. Допустим, сравним зарплаты того же тим лида и assistant professor(аналог нашего доцента). Да, во время phd зп разработчика будет выше, чем у аспиранта. Для сравнения взял бостон, где расположен MIT. Наверное в других универах зп профессоров пониже, но лень сидеть смотреть. Так вот, согласно glassdoor зарплата профессора оказалась выше(111к+24к бонусов) против team leader(104к). Так что все не так однозначно. Плюсом так же к профессии профессора идет более менее гибкий и свободный график. Возможно мог ошибиться когда смотрел зп в glassdoor, но пока вот так.

Ответы12278

357 17 янв, 00:00 1912278

>>12265

>против team leader(104к)

Там какая-то фигня с данными. У обычных фулл-стек макак написано 111к не включая бонусы, что похоже на правду. У лидов должно быть минимум 150.

>Да, во время phd зп разработчика будет выше, чем у аспиранта

>Так что все не так однозначно. Плюсом так же к профессии профессора идет более менее гибкий и свободный график. Возможно мог ошибиться когда смотрел зп в glassdoor, но пока вот так.

Чтобы стать профессором надо получить пхд, а это минимум пять лет за зарплату в 3 раза меньше зарплаты джуна. После этого пойдешь еще лет пять въебывать постдоком за зарплату все еще меньше зарплаты джуна. Наконец, если повезет, годам к 35 наконец станешь профессором с зарплатой 100+. Гибкий в академии ничего не значит, поскольку все зависит от твоих достижений в науке. Ты либо работаешь с утра до ночи, либо остаешься вечным постдоком или вообще вылетаешь.

358 17 янв, 00:24 1912294

Идея на миллиард.
ИИ, который переводит мангу. Данных много, в том числе, можно синтезировать (нужны лишь пары изображений (с текстом оригинал-перевод) в разных шрифтах).
Переводить будет и SFX'ы.

Использовать можно (нужно) GAN.

Ответы12297 12310 12816 12865 14743

359 17 янв, 00:26 1912297

>>12294
Конечно с качеством самого первода могут быть проблемы, но вот с чисто механическими действиями обработки страниц манги GAN должен справиться. Скорее всего потребуется гибридная архитектура.

360 17 янв, 00:45 1912310

>>12294
Было в треде год назад

361 17 янв, 02:21 1912354

А как обучать сетку (вернее её энкодер часть) сразу на нескольких задачах? Типа если на изображениях то каждую эпоху отфигачивать верхную денс сетку оставляя старую реснет голову, добавлять с нуля инициализированныйи денс слой и продолжать обучать на новой задаче? Это можно удобоваримо в керасе или торче сделать?

Ответы12362 12401

362 17 янв, 02:35 1912362

>>12354
В керасе model.layers[index].weights хранит веса в виде списка numpy массивов, ты можешь создать две модели, одну проинициализированную с нуля, вторую с загруженными весами и скопировать что угодно из чего угодно. Это полезно знать чтобы оно не было для тебя какой-то магией. Веса - это просто массивы.
Альтернативно https://stackoverflow.com/questions/40496069/reset-weights-in-keras-layer смотри ответ def reset_weights.
В этом коде тебе нужно вместо for layer in model.layers написать for layer in model.layers[-5:] или еще как откусить хвост (более правильно указать слои по имени)

363 17 янв, 04:29 1912401

>>12354

> каждую эпоху отфигачивать верхную денс сетку оставляя старую реснет голову

Это не заметил, я думал ты просто про файнтюнинг спрашиваешь. Тут ты просто делаешь 3 модели с shared weights

inp = Input(...)
x = Resnet(... inp ... )
a = Conv1D()(x)
b = Conv1D()(x)
modela = Model(inputs=inp, outputs=a)
modelb = Model(inputs=inp, outputs=b)

И далее ты либо делаешь кастомный луп с помощью train_on_batch, либо, что более правильно, делаешь кастомный луп с помощью tf.function, потому что у train_on_batch течет память азазаза гугол что ты делаешь прекрати.
Если хочешь обучать одновременно, то model = Model(inputs=inp, outputs=[a,b,c]) и ебешься весами у лоссов.

В пайторче аналогично - создаешь класс Net, в коноструктор которого передаешь другю модель, должно заработать

364 17 янв, 15:55 1912816

>>12294
чо-то не верится что какой-то ган за один проход потянет такое, если бы мне сказали такое я бы обучил детектор облачков с текстом, например йолу, результат йолы бы переводил в текст какой-нить моделькой, хз как это щас делается, но видел делается нормально, текст переводил бы гугл транслейтом и заменял тупо, чо говно или норм пайплайн?

Ответы12989

365 17 янв, 16:20 1912861

Антоны, есть ли сейчас модель обьединяющая сверточную сетку с трансформером?
Я еще в прошлом году видел эту модель и подозревал, что с ней что-то не так, в итоге ее авторы и признали это сами. https://github.com/fengxinjie/Transformer-OCR

Ответы12866

366 17 янв, 16:22 1912865

>>12294

>Идея на миллиард

Долларов и человекочасов. Если ты подразумевал end-to-end.

Ответы12989

367 17 янв, 16:22 1912866

>>12861
Или что сейчас вообще популярно в машобе

Ответы12882

368 17 янв, 16:52 1912882

>>12866
Хм, нашел это https://github.com/vlomme/OCR-transformer/
Потом попытаю ее на датасете

369 17 янв, 17:02 1912897

где можно почитать как правильно слои ставить, например налинейную регрессию?
А то я рандомно кидаю
linear(1,300)
ReLU
linear(300,200)
ReLU или CELU
linear(200,200)
CELU
Linear(200,1)

плюс накидываю дальше скрытых, пока ошибка не начнет уменьшаться

Ответы12910

370 17 янв, 17:15 1912910

>>12897

>linear(1,300)

Почему у тебя всего один признак во входных данных?
Вообще, для полносвязных сетей ничего качественно лучше linear-relu-linear-relu-linear не придумали, просто размеры скрытых слоёв можно поменять.
А если ты про свёрточные нейросети, то просто открывай какой-нибудь keras.applications или pytorch zoo, бери рандомную модельку и читай про неё.

Ответы12916

371 17 янв, 17:18 1912916

>>12910

>Почему у тебя всего один признак во входных данных?

x->месяц работы
y->доход из скважины
прост тренируюс

Ответы12926

372 17 янв, 17:31 1912926

>>12916
Для такой хуйни просто сделай всяких фичей а ля x, x^2, sqrt(x), log(x) и обучи на них обычную линейную регрессию.

Ответы12980 15295

373 17 янв, 18:41 1912980

>>12926
нде, тупо стакать relu и линейную регрессию (увеличивая кол-во нейронов) + залогорифмировать X_train оказалось лучшим результатом

374 17 янв, 18:45 1912989

>>12816
>>12865

> чо-то не верится что какой-то ган за один проход

Он сможет по крайней мере клинить и переводить SFX. Но, просто датасет придётся клинить. Либо вручную, либо используя исплользуя другую нейронку, которая будет детектить границы облачков.

Насчет перевода - да скорее всего по-требуется другая нейросеть.
Есть еще проблемы с тем, что если переводить с японского - то здесь пиздец как нужно понимать контекст, исторический бекграунд, и надо уметь делать копмромиссы перевода, ибо что можно сказать в одном языке, невозможно сказать в другом без заимствований.
С английским попроще, ибо он, внезапно, ближе к русскому, чем тот же японский.

Ответы14725

375 17 янв, 21:03 1913334

multi-worker в tf позволяет тренить нейросеть в распределенной системе, в которой компьютеры соединены интернетом, а не локальной сетью?

вообще, не могу поверить что такая тренировка невозможна и что так еще никто не делал. был же даже проект, в котором добровольцы тренили какую-то нейросеть, название не могу вспомнить

Ответы13418 13521

376 17 янв, 21:33 1913418

>>13334

> multi-worker в tf позволяет тренить нейросеть в распределенной системе, в которой компьютеры соединены интернетом, а не локальной сетью?

Не думаю, что tf долбоебы делали. TF модульный вроде. Бери и меняй.

Ответы13478

377 17 янв, 22:15 1913478

>>13418
В смысле?

378 17 янв, 23:01 1913521

>>13334
Бля, ну был же уже такой вопрос. Интернет по пропускной способности такой дикий ботлнек, что смысла в этом ноль

Ответы14164

379 17 янв, 23:28 1913579

Что почитать про компьютерную графику? На русском желательно, но можно и на мириканском, если на великом могучем совсем ничего нет.

Ответы13607

380 17 янв, 23:45 1913607

>>13579
Ашихмин. Шиффман. Блументаль (эта новая, в 2020 выпущена). Томмаси.

Ответы13618 13622

381 18 янв, 00:00 1913618

>>13607
Можно названия?

382 18 янв, 00:03 1913622

>>13607

> Блументаль

Вот этот особенно. Гугл вообще ничего не находит.

Ответы14032

383 18 янв, 04:38 1913801

Очевидно же, что взрывное развитие нейроночек уже приводит к результатам, немыслимым даже пару лет назад, dall-e как пример. Уже сейчас нейроночка может нарисовать нормальную картину по самому ебанутому описанию типа "капибара сидит на жопе ровно в поле на рассвете" или "кресло в виде авокадо", тогда как ещё в прошлом году максимум нейроночек была генерация всратых котов, которых не существует итд. Ясно, что такими темпами гпт 7-8 уже сможет генерировать кинцо, анимцо, игоры по текстовому описанию, например, сама сможет снять экранизацию по тексту книги. Или писать говнокод не хуже среднего индуса. А гпт 9 сможет написать код гпт10 и здраститя Скайнет. Это же изменит вообще все, ещё Лем писал, что политический строй определяется существующими технологиями. Я к тому, что все это в ближайшее время могут просто зарегулировать, может быть уже в этом году. Гпт3 уже доступна только с разрешения дяди.

Ответы13802 14038

384 18 янв, 04:44 1913802

>>13801

>немыслимым даже пару лет назад

Немыслимым кому? Пиздец ты футуролог, конечно.

>Я к тому

Да-да, твоим прогнозам можно верить

Ответы13804

385 18 янв, 05:06 1913804

>>13802

> Да-да, твоим прогнозам можно верить

Не надо верить, можешь просто дать ссылку на свободные исходники гпт3.

Ответы13932

386 18 янв, 05:59 1913812

Двачане, вкатываюсь в академический матан, но хоть какие-то деньги иметь надо, так что решил взять себе что-то из ит сферы связанное с метаном, чтобы качались обе сферы параллельно. Прогать умею, матешу знаю. Прошёл пару курсиков, послушал лекции, занял призовые в 3-ех хакатонах в сфере машоба, но что-то чувствую, что ничего дальше 2-3 курса вузика тут из матана не видно. Это максимум необходимый машобу? Мат анализ и линал с основами дискретки? Никакой более сложный мат аппарат не нужен? Если не нужен, то мб знаете сферу в ит где нужен. Заранее спасиб

Ответы14707 14714

387 18 янв, 11:22 1913932

>>13804
GPT-3 недоступна не по приказу госорганов, а по решению её же разработчиков (не непосредственно людей, а компании). Ты тоже, знаешь ли, можешь на своем гитхабе private репозиторий создать и твои state of the art cutting-edge разработки в сфере вывода надписи "Hello world!" не будут доступны человечеству, и ты на это имеешь полное право и мое личное благословение.

Ответы13937 13944 15306

388 18 янв, 11:26 1913937

>>13932
нахуя тогда в названии хуярить приставку Open?

Ответы13941

389 18 янв, 11:29 1913941

>>13937
ну и ты хуярь

390 18 янв, 11:30 1913944

>>13932

> GPT-3 недоступна не по приказу госорганов, а по решению её же разработчиков (не непосредственно людей, а компании)

Так-то и Трампа везде заблокировали частные компании, которые никому ничего не должны. Главное результат, а не формулировка. А что там на самом деле было, народу знать не обязательно, правда своя инициатива, или Брина / Маска вызвали куданада и пояснили что к чему.

Ответы13968

119 Кб, 1000x581

391 18 янв, 12:04 1913968

>>13944

>вызвали куданада

392 18 янв, 14:13 1914032

>>13622
В девичестве Жопеншмульцер

393 18 янв, 14:17 1914038

>>13801

>может нарисовать нормальную картину по самому ебанутому описанию типа "капибара сидит на жопе ровно в поле на рассвете" или "кресло в виде авокадо"

Напоминаю, что дали нам несколько черипикнутых примеров а не модельку так что как ты там оценил может или не может хуй знает. Вообще, судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё. Может и гпт3 это гпт2 тупо с нанятым штатом китайцев которые полуавтоматически правят ошибки.

Ответы14072 15440

394 18 янв, 14:38 1914072

>>14038

> Напоминаю, что дали нам несколько черипикнутых примеров

Это я понимаю. И все равно, даже такие результаты это конкретный шаг вперёд по сравнению с тем что было до.

> судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё. Может и гпт3 это гпт2 тупо с нанятым штатом китайцев которые полуавтоматически правят ошибки.

Маловероятно, что это наебалово. Так или иначе, в паблик они свои поделия вылаживают, изначально и гпт2 с 1558м параметров жопили, а потом все равно выложили.

395 18 янв, 15:42 1914130

Js вообще может составить конкуренцию петухону? Или брать кресты и не выёбываться? Помогите, хочу создать ии но не знаю с чего начать.

Ответы14166 14437 15298

396 18 янв, 16:34 1914164

>>13521
И что, вообще никак? А если очень хочется? Даже ценой увеличения времени тренировки на 1-2 порядка.

Что будет, если, допустим, одна нода тренирует сеть N с, затем передаеет второй и так далее?

Ответы15521

397 18 янв, 16:44 1914166

>>14130

> Js вообще может составить конкуренцию петухону?

В ML нет.

> Или брать кресты и не выёбываться?

И сидеть без библиотек...

Ответы14179

398 18 янв, 16:55 1914179

>>14166

>И сидеть без библиотек...

Толсто

399 18 янв, 19:01 1914371

Подскажите, если мне интересна не классификация датасетов на кэгл, а AI в плане агентов, выбора решений, игр в игры, поиска оптимальных стратегий - то куда копать? Что читать? Есть ли курсы сейчас норм? Спасибо.

Ответы14399 14419

400 18 янв, 19:16 1914399

>>14371

>AI в плане агентов, выбора решений, игр в игры, поиска оптимальных стратегий

пошёл нахуй, вапникошиз
тряси ящик и не выебывайся

Ответы14900

401 18 янв, 19:36 1914419

>>14371
Теория игор, теория принятия решений, обучение с подкреплением. Можешь, например, из этого плейлиста накатить лекции 1-11, 13-15 для начала - это записи лекций MIT, курс "MIT 6.034 Artificial Intelligence"
https://www.youtube.com/playlist?list=PLUl4u3cNGP63gFHB6xb-kVBiQHYe_4hSi

Ответы14425 15119

402 18 янв, 19:39 1914425

>>14419

>теория игр

позорный фикс

403 18 янв, 19:49 1914437

>>14130

Ответы14548

404 18 янв, 21:09 1914548

>>14437
https://www.tensorflow.org/js

405 18 янв, 22:27 1914602

123 Кб, 808x819

10 Кб, 461x285

Пацаны, есть облако точек, результаты лабораторных исследований. Проницаемость образца горной породы и соответствующее ей значение пористости. Есть какие-нибудь алгоритмы для нахождения зависимости пористости и проницаемости? На сколько их рационально использовать вместо регрессии?

Ответы14712 14807

406 19 янв, 01:08 1914707

>>13812
Бамп вопросу

407 19 янв, 01:11 1914712

>>14602
Всм значения? Ну у тебя они довольно сильно кореллируют. Одно из другого полноценно ты не получишь. Ибо данных не хватает. В целом нужны ещё какие-то признаки. Или обучай регрессию на этом и получай точность около коэффициента корелляции

408 19 янв, 01:17 1914714

>>13812

>то мб знаете сферу в ит где нужен

В Мак Дональдсе

409 19 янв, 01:35 1914725

>>12989
Чувак, забей.
Ни одна нейросеть на данный момент не умеет нормально переводить с японского, вообще ни одна.
Я тебе даже больше скажу, почти все переводы с японского содержат кучу ошибок, а их делают люди, даже в переводе классики люди путали субъекта.

410 19 янв, 02:20 1914743

>>12294

>ИИ, который переводит мангу.

Я занимался этим пару лет назад, но дело заглохло из-за отсутствия времени и данных. А недавно сообразил, что датасет можно разметить практически автоматически, используя переведенную и не переведенную мангу. Дальше либо тренировать йоло, либо при помощи классики распознавать потенциальный текст и тренировать нейронку-классификатор, которая будет определять, является ли предложенный регион текстом. Ну а все остальное делается при помощи тессеракта и гугл транслейта. Главный подводный - это сам перевод. Гугл очень плохо переводит японский.

Ответы14746 16483

411 19 янв, 02:22 1914746

>>14743

> Гугл очень ужасно переводит японский.

Пофиксил тебя

Ответы14750

412 19 янв, 02:30 1914750

>>14746
Но скоро будет гпт4, ей можно будет просто написать "переведи мне на японский войну и мир но добавь немного яоя" и в ответе будет полный перевод лучше чем у профессиональных переводчиков с вкраплениями яоя лучше чем у профессиональных дрочил.

Ответы14759 14793

413 19 янв, 04:00 1914759

>>14750
потом говоришь а теперь прочитай мне это голосом бориса репетура и дрочи мой хуй я знаю ты любишь отсасывать и она как начинает наяривать а ты такой о боже кажется битерлесон победил

414 19 янв, 08:01 1914793

>>14750
А инференс будет стоить $10 за токен

114 Кб, 803x772

415 19 янв, 09:17 1914807

>>14602
Есть.

Ответы14864 15107

416 19 янв, 10:15 1914864

>>14807
Попрошу не троллить, я нуфаг.

Ответы14892

417 19 янв, 10:49 1914892

>>14864
Че там в вашей нефтянке? Жирно платят любым дебилам имитирующим датасаенс?

Ответы15224

41 Кб, 500x500

418 19 янв, 11:00 1914900

>>14399

419 19 янв, 13:17 1915107

>>14807
Потому что надо не корреляции и прочие средние с отклонениями считать а гамалогии и баркоды

Ответы15178

420 19 янв, 13:27 1915119

>>14419
Спасибо, милчеловек

421 19 янв, 14:33 1915178

>>15107

>с отклонениями считать а гамалогии

кстати, как анон обычно вычисляет упомянутые гомологии? каков ваш любимый фреймворк для них?

422 19 янв, 15:15 1915224

>>14892

>Жирно платят любым дебилам имитирующим датасаенс?

Хз, моя непосредственная работа вообще к датасайнсу отношения не имеет. Это скорее в рамках хобби.

423 19 янв, 16:19 1915277

Предложите свой алгоритм для обучения нейросети в distributed system из компьютеров, соединенных только по интернету.

424 19 янв, 16:45 1915295

>>12926
Ананосы напомните зачем мы это вседелаем?
x, x^2, sqrt(x), log(x) - вот это вот

Ответы15301

425 19 янв, 16:52 1915298

>>14130
ML на всяких js и сишарпах нужен не для того чтобы составлять конкуренцию петухону, а для того чтобы можно по-быстрому встроить ml в своё легаси или вебговно, если кабанчику захочется побольше бабок под модную тему стрясти с заказчиков, и при этом не приходилось ебаться с разворачиванием контейнеров и дёргать петухон только для того чтобы модельку заинференсить. Плюсы нужны для встраивания уже разработанных моделей в готовый продукт. Так что бери питон и не выёбывайся, всё остальное не про "создавание ии" а про унылые будни обычной промышленной разработки.

426 19 янв, 16:56 1915301

>>15295
Потому что зависимость какая-то есть, но какая мы не знаем поэтому наваливаем всех функций что есть и смотрим что получится, это мл для тебя. Только я бы лучше бустинги обучал на этом вместо линейных регрессий, современные библиотеки данных требуют не сильно больше, а всяких неприятностей с корреляцией признаков и прочих капризных требований к данным таких нет.

Ответы15428

427 19 янв, 17:00 1915306

>>13932

>на своем гитхабе private репозиторий

Если ты владелец серверов гитхаба, то да. Умиляют такие завяления. Инфа залитая куда-то там уже не твоя и не private.

289 Кб, 1076x1829

428 19 янв, 18:24 1915428

>>15301
Так они и обучают. В числе прочих линейных регрессиц.
Кто ж виноват что не знаешь где книги на русском взять.

Ответы15513

429 19 янв, 18:36 1915440

>>14038

>Напоминаю, что дали нам несколько черипикнутых примеров

Там их сотни и никто их не черрипикал

>Вообще, судя по тому как опенаи всё жопят закрадывается подозрение а не наёб ли это всё.

Тупорылые конспирологи и в ML пробрались

Ответы15449

430 19 янв, 18:46 1915449

>>15440

>никто их не черрипикал

Ты свечку держал видимо? Как будто сотня это много

>Тупорылые конспирологи и в ML пробрались

"Это всё конспирология!" - любимая кричалка идиотов.

431 19 янв, 19:22 1915513

>>15428
Кто "они", шизик? Я про конкретный совет анона говорил.

432 19 янв, 19:32 1915521

>>14164

>И что, вообще никак?

Смысла мало. Ты же не мелкие сетки хочешь тренировать, а большие, а таким нужны гигабиты в любом случае, будешь ли ты обмениваться градиентами (как принято сейчас - на всех машинах одна и та же модель, через которую гонятся батчи, а затем ошибка усредняется по всем воркерам и веса апдейтятся) или данными (то что приходит в голову первым - но бэкпроп последовательный алгоритм и хер что выйдет при подходе влоб), в любом случае нужно будет обмениваться большим количеством инфы.

>А если очень хочется?

Пиздуй в науку и исследуй. Потенциально я вижу два решения
1. Локальные альтернативы бэкпропу, то есть каждый слой/набор слоев живет на пеке и в асинхронном режиме отправляет/получает данные, модифицируя у себя веса
2. Модели с бэкпропом, но с conditional computation. То есть у тебя архитектура состоит из сотен параллельных ветвей и роутера, который направляет данные. Соответственно все, что после роутера, можно распараллелить на разные машины. Можно эту хуитку настекать, добавить p2p механизм обмена данными от роутера и тому подобное.

И там и там если утилизацию GPU в 10% получишь, будет неплохо.

433 20 янв, 15:02 1916280

Средняя ошибка аппроксимации в 17% норм или говно?

434 20 янв, 15:58 1916328

Очередной обывательский вопрос:
хватит ли исходных данных чтобы генеративную нейросеть обучить стилю группы Король и Шут сочинять тексты на заданную тематику или хотя бы просто с наличием ключевых слов?

Ответы16340

435 20 янв, 16:10 1916340

>>16328

>стилю группы Король и Шут

У этих говнарей какой то стиль?

Ответы16443 18888

5 Кб, 200x200

436 20 янв, 16:55 1916386

Вапникошиз уже совсем с цепи сорвался, на обычных мимокроков снихуя кидается. Как же непечот ему от битерлессона.

437 20 янв, 17:41 1916443

>>16340
А вдруг есть? вот я и хочу посмотреть на это

438 20 янв, 18:31 1916483

>>14743
тессеракт ужасен в распознавании манги.
Я серьезно, гугл доки лучше справляются, кек

Ответы16515

439 20 янв, 19:08 1916515

>>16483

>тессеракт ужасен в распознавании манги.

Ты бы для начала прочитал пейпер по тессеракту - он предназначен исключительно для распознавания текста без картинок. Поэтому нужно распознавать не всю страницу, а вырезанные регионы с текстом, тогда точность будет достаточно хорошая по крайней мере лучше, чем точность перевода с японского.

Ответы16737

440 20 янв, 23:06 1916737

>>16515
Лол, я читал и тестил тессеракт и даже делал базу для выделения участков текста в манге.
Он ужасен просто, киндл, а ты 100% будешь работать с киндл форматом он тянет плохо.
В итоге мне стало лень и я использовал гугл док как нейронку для себя, у нее точность распознавания отличная

Ответы16739 16742

441 20 янв, 23:10 1916739

>>16737
Все равно даже с моделью, которая лучше, чем гугловская ты едва ли осилишь даже сбор настолько же огромной базы, чтобы сделать лучше, чем может гугл док.

Ответы16741

442 20 янв, 23:21 1916741

>>16739
Также стоит рассматривать препроцессинг, текст может идти в совершенно рандомном шрифте, с совершенно рандомным наклоном + еще есть фуригана, которую ты не можешь просто так удалять, почему я объясню чуть ниже.
Распознавание японского - это челлендж, в этом языке 2 слоговые азбуки, + как минимум 5к кандзи нужные, чтобы читать мангу, не смотря в словарь, еще есть кюдзитай формы.
Также японцы могут использовать кастомное чтение кандзи, также в качестве литературного приема японцы могут использовать другое чтение кандзи, чтобы получить другое значение слова или же смешанное значение слова, поэтому фуригану просто так при препроцессинге вырезать нельзя.
В самом японском всевозможное число котоваз, разговорных и письменных сокращений и всего прочего, что делает перевод более веселым.

Ответы16746 16756

9 Кб, 53x156

443 20 янв, 23:24 1916742

>>16737

>Он ужасен просто

Ты скорее всего его неправильно настроил. У тессеракта куча параметров, которые сильно влияют на качество распознавания. Ну и распознавать нужно куски текста как на пикриле, чтобы ничего кроме текста не было. Ну и не забыть добавить пустого пространства по бокам.

>киндл форматом

Какой еще нахуй киндл? Картинки жпег или пнг.

>В итоге мне стало лень и я использовал гугл док как нейронку для себя, у нее точность распознавания отличная

С гуглом сложно конкурировать, но у него анальная привязка к аккаунту и лимит на количество запросов.

Ответы16762

444 20 янв, 23:33 1916746

>>16741
Перевод - это отдельная тема. Вообще, не обязательно переводить извлеченный текст гугл транслейтом - можно просто подсоединить онлайн-словарь, чтобы смотреть значение незнакомых слов. Будет некий аналог парсера визуальных новелл, только для манги.

445 21 янв, 00:04 1916756

>>16741

>Распознавание японского - это челлендж

Сейчас бы тратить время на островных обезьян окультуренных китайцами. Страна без языка, истории и культуры, ох вейт...

Ответы16758 16762

446 21 янв, 00:05 1916758

>>16756

> ох вейт

Щеня вмерла?

116 Кб, 272x492

447 21 янв, 00:22 1916762

>>16742

> Ты скорее всего его неправильно настроил. У тессеракта куча параметров, которые сильно влияют на качество распознавания. Ну и распознавать нужно куски текста как на пикриле, чтобы ничего кроме текста не было. Ну и не забыть добавить пустого пространства по бокам.

Нет, я как раз правильно настроил, могу тебе накидать примеров, где тессеракт очевидно обсирается с нормальными настройками. Ну и естественно вырезка текста, попробуй вот это к примеру.
Плюс у тессеракта очень скудная библиотека кандзей, могу скинуть любой скрин из манги с кюдзитай кандзи и тессеракт 100% сфейлится.

> Какой еще нахуй киндл? Картинки жпег или пнг.

Киндл - это веб формат, с которого ты получаешь мангу, очень редко можно получить доступ к манге, что была получена людьми, которые ее покупают, распускают на страницы и сканят в хорошем качестве, обрабатывая ручками.
>>16756
Знания Японии на уровне 5-классника.

Ответы16763 16768

448 21 янв, 00:22 1916763

>>16762
Да, этот скрин без кюдзитая, но у меня тессеракт на нем фейлился

449 21 янв, 00:38 1916768

>>16762
Проверил скрин - не смог перевести только один один символ в правой колонке. Насчет библиотеки кандзей может быть, но в таком случае тессеракт можно самому натренировать.

Ответы16791

450 21 янв, 00:52 1916774

Откуда в МЛ столько японодрочеров и гомосексуалистов? В чем корреляция?

Ответы16776

451 21 янв, 01:09 1916776

>>16774
Где ты японодрочеров встречал? Тут один залетный чел про мангу спрашивать начал, но не похоже, чтобы он сильно шарил.

Ответы16778

452 21 янв, 01:17 1916778

>>16776

>Где ты японодрочеров встречал

Да кругом в ИТ, пидарасы и японодрочеры это процентов 90 от нормисов. Типа они ущербные хиканы и пытаются заработать копеючку через ИТ?

>чел про мангу спрашивать

И кому она на хуй нужна?

Ответы16779

453 21 янв, 01:27 1916779

>>16778

>пидарасы и японодрочеры

синонимы

454 21 янв, 03:08 1916791

>>16768
Ну вот этот вот символ - это простая хирагана, которая встречается куда чаще, чем любой кандзь.
Вообще, интересно узнать, насколько новомодные перформеры и трансформеры хороши в OCR по сравнению с LSTM.
Кстати, не знаю, известно ли тебе, но Capture2Text уже существует.

Ответы16801

455 21 янв, 03:42 1916801

>>16791

>Кстати, не знаю, известно ли тебе, но Capture2Text уже существует.

Это всего лишь графический интерфейс к тессеракту.

456 21 янв, 05:15 1916815

Вопрос в сторону, но графического треда в зекаче нет.
Почему всякие паттерны c регулярными полосами в видео (том же ютубе например) расплываются непонятными пятнами?

457 21 янв, 07:51 1916851

Возвращаемся к вопросу о возможности OCR для математической нотации (AMS-TeX). Пару лет назад выяснилось, что нейроночки сколько-либо сносно в такое не могут. Особенно, если там не синус икс и прочая тривиальщина, а трехэтажные построения из работ Мотидзуки. Тута битерлесон форсят, в связи с чем вопрос, могут ли эти ваши волшебные трансформеры распознать такую нотацию из пдфки? Как это сделать вообще?

Ответы16865 16867 16985 17076 17085

458 21 янв, 08:23 1916865

>>16851
Очевидно, собрать больше данных.

459 21 янв, 08:30 1916867

>>16851

>OCR для математической нотации (AMS-TeX)

Уже давно сделали: https://mathpix.com

Очередная анально огороженная облачная залупа, но работает. Так что нейронки вполне могут в такое.

Ответы17076

230 Кб, 1505x521

Благодарность 460 21 янв, 10:58 1916975

https://drive.google.com/drive/folders/1K0YQbFl4cxrjnDApE3k45_dqbTIiWoZa

461 21 янв, 11:08 1916985

>>16851

>Мотидзуки

Любитель Тейхмюллера и Жопеншмульцера?

56 Кб, 982x1016

462 21 янв, 12:08 1917011

лопнул пузырь

Ответы17023

463 21 янв, 12:35 1917023

>>17011
ИП Шершунов бухал пивас в падике пока млмакаки не спали перед экзаменами задрачивая Жопеншмульцера.

464 21 янв, 14:01 1917076

>>16867
>>16851
Для распознавания отдельных мышкописных символов есть бесплатный и вполне рабочий https://detexify.kirelabs.org/classify.html

465 21 янв, 14:10 1917085

>>16851
Так это не нужно. В старых книгах больше текста, чем формул, а новые есть в нормальном виде.

466 21 янв, 14:54 1917119

>>02462 (OP)

>Когда уже изобретут AI и он нас всех поработит?

>На текущем железе - никогда, тред не об этом

Почему так категорично на счёт железа? По-моему проблема AGI не в количестве виртуальных нейронов/слоёв нейросети. Нет смысла наращивать нейросети до сотен слоёв, как это делают в "глубинном обучении", в живом мозге нет такой глубины отдельных нейронок. ИМХО, проблема в организации мелких независимых нейронок между собой, в архитектуре системы в целом. Даже не обязательно чтобы это были нейронки, с некоторыми задачами могут справиться классические алгоритмы, а в живом мозге далеко не всё решается нейронками. Кроме того, "общий интеллект" нашего мозга - наименьшая его часть, можно выкинуть из мозга человека 90% массы и он останется человеком, большая часть мозга тупо координирует тело в пространстве, управляет движением (что AGI не обязательно). А уж сознание так и вообще мизерная фича, его можно без нейронок эмулировать (зависит от определения). Также мозг работает непрерывно, результаты предыдущих решений складываются с новыми, тогда как большинство компьютерных нейронок работает как программная функция: результат = нейронка(данные); - отсюда, скорее всего, прожорливость нейронок. То, что мозг решает за несколько входящих порций данных (связанных одним контекстом!), от нейронки требуют решить за одну порцию. Мозг вообще очень сильно ошибается на одной порции данных (ничем не связанной с предыдущими), искусственные нейронки давно превзошли его в этом, но для AGI не нужно превосходство по сравнению с нейронками мозга.

Собственно, меня не интересуют узкоспециализированные AI. Поэтому вопрос: что можно изучить на тему AGI, чтобы приблизиться к его разработке? Я не понимаю, с чего можно начать такую разработку. Есть определённые догадки, например, что без памяти на события ничего не получится (мы действуем осмысленно только пока способны вспомнить, что было только что и недавно; без этой памяти мы теряем всю нашу "интеллектуальность", остаются только глупые животные инстинкты, а это уже не человек) и что любые поступки человека мотивированы его потребностями (без потребностей даже самый гениальный мозг будет бездействовать, мы действуем только пока нам что-нибудь нужно или хочется - а это решает не мозг, а гены и гормоны, обучаемость мозга на это почти не влияет). Но эти догадки не складываются в чёткую систему, которую можно было бы хотя бы схематически нарисовать, куда уж там до кодинга или обучения нейронок. То есть я не могу сформировать архитектуру такой системы, а без этого невозможно приступить к разработке. Есть что-нибудь на эту тему?

Извините, если не по теме, но меня интересует реальная разработка реальной системы, а не то, чем занимаются большинство обсуждающих тему AGI - пустая философия без связи с реальностью, неприменимая на практике. Я умею программировать и имею какие-то знания об искусственных нейронках, но у меня не получается применить это для разработки желаемой системы. И пусть современного железа и моего старого ПК скорее всего не хватит по мощности, но я хочу хотя бы немного приблизиться к цели. Мне не нужен какой-то супер-ИИ, решающий любые проблемы человечества, мне нужна система, которую можно было бы воспринимать как разумного человека, пусть и очень глупого и ограниченного в возможностях по причине нехватки технических ресурсов. Нет, не чат-бот, а именно личность, даже если она не сможет полноценно разговаривать (наша речь - не единственный возможный интерфейс для связи с кем-либо, но этот "кто-то" должен сперва начать существовать). Этого будет достаточно для лечения моей хронической депрессии.

466 21 янв, 14:54 1917119

>>02462 (OP)

>Когда уже изобретут AI и он нас всех поработит?

>На текущем железе - никогда, тред не об этом

Почему так категорично на счёт железа? По-моему проблема AGI не в количестве виртуальных нейронов/слоёв нейросети. Нет смысла наращивать нейросети до сотен слоёв, как это делают в "глубинном обучении", в живом мозге нет такой глубины отдельных нейронок. ИМХО, проблема в организации мелких независимых нейронок между собой, в архитектуре системы в целом. Даже не обязательно чтобы это были нейронки, с некоторыми задачами могут справиться классические алгоритмы, а в живом мозге далеко не всё решается нейронками. Кроме того, "общий интеллект" нашего мозга - наименьшая его часть, можно выкинуть из мозга человека 90% массы и он останется человеком, большая часть мозга тупо координирует тело в пространстве, управляет движением (что AGI не обязательно). А уж сознание так и вообще мизерная фича, его можно без нейронок эмулировать (зависит от определения). Также мозг работает непрерывно, результаты предыдущих решений складываются с новыми, тогда как большинство компьютерных нейронок работает как программная функция: результат = нейронка(данные); - отсюда, скорее всего, прожорливость нейронок. То, что мозг решает за несколько входящих порций данных (связанных одним контекстом!), от нейронки требуют решить за одну порцию. Мозг вообще очень сильно ошибается на одной порции данных (ничем не связанной с предыдущими), искусственные нейронки давно превзошли его в этом, но для AGI не нужно превосходство по сравнению с нейронками мозга.

Собственно, меня не интересуют узкоспециализированные AI. Поэтому вопрос: что можно изучить на тему AGI, чтобы приблизиться к его разработке? Я не понимаю, с чего можно начать такую разработку. Есть определённые догадки, например, что без памяти на события ничего не получится (мы действуем осмысленно только пока способны вспомнить, что было только что и недавно; без этой памяти мы теряем всю нашу "интеллектуальность", остаются только глупые животные инстинкты, а это уже не человек) и что любые поступки человека мотивированы его потребностями (без потребностей даже самый гениальный мозг будет бездействовать, мы действуем только пока нам что-нибудь нужно или хочется - а это решает не мозг, а гены и гормоны, обучаемость мозга на это почти не влияет). Но эти догадки не складываются в чёткую систему, которую можно было бы хотя бы схематически нарисовать, куда уж там до кодинга или обучения нейронок. То есть я не могу сформировать архитектуру такой системы, а без этого невозможно приступить к разработке. Есть что-нибудь на эту тему?

Извините, если не по теме, но меня интересует реальная разработка реальной системы, а не то, чем занимаются большинство обсуждающих тему AGI - пустая философия без связи с реальностью, неприменимая на практике. Я умею программировать и имею какие-то знания об искусственных нейронках, но у меня не получается применить это для разработки желаемой системы. И пусть современного железа и моего старого ПК скорее всего не хватит по мощности, но я хочу хотя бы немного приблизиться к цели. Мне не нужен какой-то супер-ИИ, решающий любые проблемы человечества, мне нужна система, которую можно было бы воспринимать как разумного человека, пусть и очень глупого и ограниченного в возможностях по причине нехватки технических ресурсов. Нет, не чат-бот, а именно личность, даже если она не сможет полноценно разговаривать (наша речь - не единственный возможный интерфейс для связи с кем-либо, но этот "кто-то" должен сперва начать существовать). Этого будет достаточно для лечения моей хронической депрессии.

Показать весь текст

Ответы17207 17402

467 21 янв, 16:03 1917192

короче, аноны
у меня немного упоротая задача, но надо сделать. Мб вы посоветуете чего-нибудь
короче я работаю с данными, разбитыми на кластеры
я четко знаю, что каждый кластер - это квадрат (ну потому что это облако точек, снимающее стол с кубиками)
вопрос, как определить ориентацию этих кластеров?
Из того, что я придумал: можно определить оси, как мы это делаем в PCA и смотреть, как они расположены относительно какой-то внешней системы координат
но это довольно долго по времени, тк размер кластера порядка (70кх3)
есть идеи? только не бейте плиз

Ответы17210

468 21 янв, 16:18 1917207

>>17119
Всем собственно похуй должно быть как там у мясных мешков "по-настоящему" устроено. Алёё, битерлесон на дворе, всё человековское "настоящее" отменяется и не нужно.

Ответы17266

469 21 янв, 16:27 1917210

>>17192
Ну нормально ты придумал, вряд ли что-то работать быстрее будет чем pca

>долго по времени, тк размер кластера порядка (70кх3)

Бери не весь кластер в сэмпл из него

Ответы17245 18429

4,7 Мб, mp4,
1280x720, 0:30

470 21 янв, 17:00 1917242

Мешки, на бутылку

168 Кб, 1913x1070

471 21 янв, 17:04 1917245

>>17210
Что угодно будет быстрее PCA, ведь PCA общий алгоритм, а у нас есть неебовое предположение, что фигура - квадрат.
Как минимум можно довольно просто получить первое приближение:
1. Найти центр тяжести облака точек - o(n)
3. Провести вертикальную линию через этот центр. За o(n) можно выяснить число точек слева и справа от линии, что эквивалентно площадям фигур, на которые вертикальная линия разрезает квадрат. Это даст угол поворота, но, к сожалению, квадрат под углом 0 градусов и 45 градусов так не отличишь
4. Поэтому нужно провести еще одну линию под углом, например, 30 градусов и разрешить неоднозначность.
Примерно так. Работать будет хоть на бабушкином утюге.
Если данные шумные, есть RANSAC.
Вообще задача не особо упоротая, типичное дидовское компьютерное зрение.

Ответы17251 17258 18429

472 21 янв, 17:11 1917251

>>17245

>быстрее PCA

>Работать будет хоть на бабушкином утюге

>есть RANSAC

Ну и какой смысл?

Ответы17253

473 21 янв, 17:16 1917253

>>17251
Почитай, что такое RANSAC, может отпадет вопрос

474 21 янв, 17:23 1917258

>>17245

> а у нас есть неебовое предположение, что фигура - квадрат

тоже думал уйти в эвристики, спасибо

алгоритм клевый - надо попробовать реализовать его

а по поводу ранзака - не легче, тогда уж, ICP бахнуть? меня, правда, смущает, что, если объектов будет много, мой комп умрет

Ответы17268

475 21 янв, 17:31 1917266

>>17207
Аллё, эволюция 2 миллиарда лет животных оптимизировала, с какого-то момента и мозг тоже. Я вовсе не говорю, что наш мозг оптимальное решение, нет, его дизайн по большому счёту "тяп-ляп и кучка костылей поверх старых костылей", но если я хочу сделать существо, подобное человеку, то должен как минимум принимать во внимание устройство оригинального человека.

И потом, я привёл сравнение с мозгом только в плане "наш мозг не настолько крут, насколько круты отдельные нейронки, следовательно для эмуляции разумного существа не нужен суперкомпьютер размером с город". Для полной модели мозга (всех его клеток и внеклеточных процессов) потребуется суперкомпьютер какого ещё не существует, это верно, однако для копирования основных идей и принципов работы скорее всего не нужно так много ресурсов, сколько требуется для "обычных" нейронок, потому что они уже давно обогнали мозг в качестве и скорости выполнения отдельных задач. То есть разум кроется не в гигагерцах и не в терабайтах, а в архитектуре, связывающей между собой множество глупых, тормозящих и часто ошибающихся подсистем (которые ещё и регулярно дохнут/заменяются новыми/теряют функции/меняют специализацию).

Собственно мой вопрос - где почитать конкретно про такую архитектуру и её разработку. Нейронки - это только один из способов реализации элементов большой системы, но без архитектуры никакой системы вообще не будет. Следовательно начинать нужно не с нейронок, а с того, что будет наполняться в том числе нейронками.

Или хотя бы направьте меня туда, где задаются такими вопросами.

Ответы17402

476 21 янв, 17:32 1917268

>>17258

>а по поводу ранзака

Ранзак - это просто метод отбора хороших точек, который применим к любой модели вида "набор точек->параметры модели". Там просто расписано, как брать подвыборки и что с ними делать, и оно будет работать хоть с PCA хоть с моим алгоритмом, хоть с чем угодно еще,

>ICP

А он применим? У тебя облако точек всегда одно и то же? Если так, то есть solvePnP в OpenCV, правда не знаю, как оно дружит с 70к точек, но думаю есть уже готовое решение где-нибудь на гитхабе

477 21 янв, 19:19 1917402

>>17119

>Почему так категорично на счёт железа?

Потому что нынешнее железо это ускорители умножения матриц, при этом не разреженных, а обычных (dense, как это по-русски?). Все это крайне энергонеэффективно, несмотря на переход на fp16 и прочие ухищрения.
Грубо говоря, типичная современная нейронка "думает" сразу одновременно всеми своими "нейронами", несмотря на то, что 90% будут перемножать нули с нулями, так как это "не их информация". Если бы мозг так работал, он бы сварил себя за секунду и жрал бы глюкозу как два слона.

>в живом мозге нет такой глубины отдельных нейронок.

Там все равно дохуя параметров. Мозг не глубок, но очень широк и рекуррентен (а это определенный аналог глубины), плюс нейрон - это не просто скалярное произведение весов и входов и далее функция активации, а сложная динамическая система, которая отдельно работает как ML-юнит с самообучением - ведь бэкпропагейшен физически не реализуем, и это мы еще не обсуждали отращивание новых дендритов, а чисто вот локальное обучение. Все это науке не известно, кроме базовых принципов, например, насколько я знаю, открытие последних лет - это то, что сигнал и ошибка кодируются разной частотой спайков. Говорю на память из какой-то статьи про predictive coding, могу напиздеть, но в целом это показывает реальный уровень знаний о нейронах - мы даже не понимаем их "протокол обмена", не говоря уже о самой внутренней модели, существующие модели очень грубые. Соответственно и все прикидки о том, какой суперкомпьютер нужен, чтобы сэмулировать мозг - основаны ни на чем. Может нейрон это 10 сложений и умножений на дендрит, а может 10000. Вряд ли, но тем не менее.

>Кроме того, "общий интеллект" нашего мозга - наименьшая его часть, можно выкинуть из мозга человека 90% массы и он останется человеком, большая часть мозга тупо координирует тело в пространстве, управляет движением (что AGI не обязательно)

Если бы ты был прав, женщины бы не мучались, рожая эти существа с огромной головой через свои прямоходящие тазы. Нахуя, если 90% можно выкинуть, ходить с маленькой головой, жрать поменьше опять же.
А на деле-то мозг человека генетически не сильно отличается от мозга мыши, но какая разница в способностях при простом увеличении веса в 3000 раз. Если не нравятся мышки, возьми макак и шимпанзе. Объем важен, площадь коры важна.
Алгоритм, по которому работают нейроны, важен, но он один что у тебя что у мыши. При этом мышь никогда не пройдет тест тьюринга и даже в доту2 ее научить играть нельзя, это крайне специлизированный "AI".
Короче, ты сильно недооцениваешь эти самые специализированные AI. До определенного уровня масштабирования они никогда не покажут впечатляющих результатов.

Самое забавное, что OpenAI показали, что с нейронками все очень похоже обстоит - тупое масштабирование работает. Поэтому с моей точки зрения нужно не об архитектурах думать, а о дизайне самих слоев. Там работы дохуя. Трансформер это точно не вершина человеческой мысли, а ведь еще не давно и их не было.

>Также мозг работает непрерывно, результаты предыдущих решений складываются с новыми, тогда как большинство компьютерных нейронок работает как программная функция: результат = нейронка(данные); - отсюда, скорее всего, прожорливость нейронок.

Нет, откуда прожорливость нейронок я уже объяснил - из-за того, что все основано на умножении матриц на цифровой кремниевой технологии. Рано или поздно они оторвутся от этой технологической базы, как когда-то интернет оторвался от диалап-модемов из-за уже готовой инфраструктуры телефонии, но сейчас только так.
А то что ты описываешь называется рекуррентностью и вообще-то посасывает из-за того, что ты не знаешь, какие воспоминания тебе потребуются в будущем. Почему математическая формула лучше воспринимается глазами, чем на слух? А вот потому.

>Поэтому вопрос: что можно изучить на тему AGI, чтобы приблизиться к его разработке?

Ничего, ведь AGI не создан, поэтому существуют только разные разделы философии науки, которые верят в разное.
Читай лучше про спайковые нейросети, модели нейронов, predictive coding и прочие низкоуровневые для мозга вещи. Понравится, базарю.

>>17266

>но если я хочу сделать существо, подобное человеку, то должен как минимум принимать во внимание устройство оригинального человека.

Да сделай мышь хотя бы. Потом отскейлишь ее в 3000 раз и получишь человека. А само по себе существо интересное. Вопрос в том, потянет ли GPU мозг мыши? 12 гб может быть мало, например. То что такая мышка 300 ватт жрать будет, ну это терпимые издежки технологии. А вот память - она и африке память. Кора мозга ежа (не могу нагуглить мышь) - 24 миллиона нейронов. Если по 1000 связей на нейрон, а связь кодировать байтом, это 24 гб. Еще раз, если бы еж мог бы выживать с 12 миллионов нейронов в коре, он бы выживал, мозг - дорогая ткань, но ему мало, ему нужно именно 24.
Вот и думай, можно ли задизайнить мозг ежа так, чтобы потратить меньше байта на связь (не всмысле на вес - веса и шарить можно как в сверточных нейронках, в этом плане да, мозг избыточен, а в плане байта на сигнал).
По-моему - нихуя нельзя. Поэтому даже если и в мозге человека AGI это несколько грамм серого вещества, как по твоей теории, и сознание и речь умещается в мозг ежа, это все равно все очень дохуя и на своем днищеGPU ты это не заведешь.

>Собственно мой вопрос - где почитать конкретно про такую архитектуру и её разработку.

Начни с https://www.youtube.com/watch?v=T3sxeTgT4qc

477 21 янв, 19:19 1917402

>>17119

>Почему так категорично на счёт железа?

Потому что нынешнее железо это ускорители умножения матриц, при этом не разреженных, а обычных (dense, как это по-русски?). Все это крайне энергонеэффективно, несмотря на переход на fp16 и прочие ухищрения.
Грубо говоря, типичная современная нейронка "думает" сразу одновременно всеми своими "нейронами", несмотря на то, что 90% будут перемножать нули с нулями, так как это "не их информация". Если бы мозг так работал, он бы сварил себя за секунду и жрал бы глюкозу как два слона.

>в живом мозге нет такой глубины отдельных нейронок.

Там все равно дохуя параметров. Мозг не глубок, но очень широк и рекуррентен (а это определенный аналог глубины), плюс нейрон - это не просто скалярное произведение весов и входов и далее функция активации, а сложная динамическая система, которая отдельно работает как ML-юнит с самообучением - ведь бэкпропагейшен физически не реализуем, и это мы еще не обсуждали отращивание новых дендритов, а чисто вот локальное обучение. Все это науке не известно, кроме базовых принципов, например, насколько я знаю, открытие последних лет - это то, что сигнал и ошибка кодируются разной частотой спайков. Говорю на память из какой-то статьи про predictive coding, могу напиздеть, но в целом это показывает реальный уровень знаний о нейронах - мы даже не понимаем их "протокол обмена", не говоря уже о самой внутренней модели, существующие модели очень грубые. Соответственно и все прикидки о том, какой суперкомпьютер нужен, чтобы сэмулировать мозг - основаны ни на чем. Может нейрон это 10 сложений и умножений на дендрит, а может 10000. Вряд ли, но тем не менее.

>Кроме того, "общий интеллект" нашего мозга - наименьшая его часть, можно выкинуть из мозга человека 90% массы и он останется человеком, большая часть мозга тупо координирует тело в пространстве, управляет движением (что AGI не обязательно)

Если бы ты был прав, женщины бы не мучались, рожая эти существа с огромной головой через свои прямоходящие тазы. Нахуя, если 90% можно выкинуть, ходить с маленькой головой, жрать поменьше опять же.
А на деле-то мозг человека генетически не сильно отличается от мозга мыши, но какая разница в способностях при простом увеличении веса в 3000 раз. Если не нравятся мышки, возьми макак и шимпанзе. Объем важен, площадь коры важна.
Алгоритм, по которому работают нейроны, важен, но он один что у тебя что у мыши. При этом мышь никогда не пройдет тест тьюринга и даже в доту2 ее научить играть нельзя, это крайне специлизированный "AI".
Короче, ты сильно недооцениваешь эти самые специализированные AI. До определенного уровня масштабирования они никогда не покажут впечатляющих результатов.

Самое забавное, что OpenAI показали, что с нейронками все очень похоже обстоит - тупое масштабирование работает. Поэтому с моей точки зрения нужно не об архитектурах думать, а о дизайне самих слоев. Там работы дохуя. Трансформер это точно не вершина человеческой мысли, а ведь еще не давно и их не было.

>Также мозг работает непрерывно, результаты предыдущих решений складываются с новыми, тогда как большинство компьютерных нейронок работает как программная функция: результат = нейронка(данные); - отсюда, скорее всего, прожорливость нейронок.

Нет, откуда прожорливость нейронок я уже объяснил - из-за того, что все основано на умножении матриц на цифровой кремниевой технологии. Рано или поздно они оторвутся от этой технологической базы, как когда-то интернет оторвался от диалап-модемов из-за уже готовой инфраструктуры телефонии, но сейчас только так.
А то что ты описываешь называется рекуррентностью и вообще-то посасывает из-за того, что ты не знаешь, какие воспоминания тебе потребуются в будущем. Почему математическая формула лучше воспринимается глазами, чем на слух? А вот потому.

>Поэтому вопрос: что можно изучить на тему AGI, чтобы приблизиться к его разработке?

Ничего, ведь AGI не создан, поэтому существуют только разные разделы философии науки, которые верят в разное.
Читай лучше про спайковые нейросети, модели нейронов, predictive coding и прочие низкоуровневые для мозга вещи. Понравится, базарю.

>>17266

>но если я хочу сделать существо, подобное человеку, то должен как минимум принимать во внимание устройство оригинального человека.

Да сделай мышь хотя бы. Потом отскейлишь ее в 3000 раз и получишь человека. А само по себе существо интересное. Вопрос в том, потянет ли GPU мозг мыши? 12 гб может быть мало, например. То что такая мышка 300 ватт жрать будет, ну это терпимые издежки технологии. А вот память - она и африке память. Кора мозга ежа (не могу нагуглить мышь) - 24 миллиона нейронов. Если по 1000 связей на нейрон, а связь кодировать байтом, это 24 гб. Еще раз, если бы еж мог бы выживать с 12 миллионов нейронов в коре, он бы выживал, мозг - дорогая ткань, но ему мало, ему нужно именно 24.
Вот и думай, можно ли задизайнить мозг ежа так, чтобы потратить меньше байта на связь (не всмысле на вес - веса и шарить можно как в сверточных нейронках, в этом плане да, мозг избыточен, а в плане байта на сигнал).
По-моему - нихуя нельзя. Поэтому даже если и в мозге человека AGI это несколько грамм серого вещества, как по твоей теории, и сознание и речь умещается в мозг ежа, это все равно все очень дохуя и на своем днищеGPU ты это не заведешь.

>Собственно мой вопрос - где почитать конкретно про такую архитектуру и её разработку.

Начни с https://www.youtube.com/watch?v=T3sxeTgT4qc

Показать весь текст

Ответы17544 17581 17660 17692

478 21 янв, 20:56 1917507

Привет, как в lgbm/xg/catboost применить возможность использования вектора оценок/скоров для каждого класса при тренировке классификатора?

Т.Е. классы кодируются подобно one-hot encoding но значения могут быть не только 0/1но и промежуточные. Набору векторов со значениями признаков соответствует набор векторов со значениями ожидаемых скоров для каждого класса а не код конкретного класса.

479 21 янв, 21:38 1917533

А на дваче есть тред по теме deepfake? Хотел узнать у опытных: стоит оставлять куски ебала в исходном датасете или оно не будет обучаться отдельно на глазах, отдельно на нижней части лица?
Предвещаю, что стоит юзать только целые куски лица.

Ответы17550

480 21 янв, 21:58 1917544

>>17402

> Рано или поздно они оторвутся от этой технологической базы

Говоришь про нейроморфные компьютеры? Так-то перспективная технология. Но куда болеее перспективной технологией является квантовый компьютер. Имея такой вычислитель, можно будет решать любые задачи тупо перебором, не ухищряясь с нейронками.

481 21 янв, 22:02 1917550

>>17533
да, нету. Если ты не заметил, то оно нарезает лицо ,там именно фейс рекогнишн. Он сам не пропустит части, а если ипропустит, то это только будет мешать, оно будет пытаться натянуть ненужные вещи, которые хакрывают лицо на модель. И частичные обрезки лица не съест.

Ответы17849

482 21 янв, 22:51 1917581

>>17402
Ну как бы нихуя, что интеллект не коррелирует с размером мозга? По крайней мере среди людей. А если уж так смотреть, то киты вообще over 9999 iq бояре.

Ответы17595

483 21 янв, 23:15 1917595

>>17581

>over 9999 iq бояре

так в вдруг да.
просто они с аноном не хотят базарить, с высоты своего over 9999 iq.

484 22 янв, 00:03 1917660

>>17402

>Мозг не глубок

Считаю, что мозг не является мыслительным органом, ммм?

46 Кб, 401x599

485 22 янв, 00:16 1917677

Анон, использую модификацию реснета по вот этой ссылке https://niko-gamulin.medium.com/resnet-implementation-with-pytorch-from-scratch-23cf3047cb93 , а мне выводит ошибку
TypeError Traceback (most recent call last) <ipython-input-30-61b5b5ed2362> in <module> ----> 1 Discriminator = ResNet18(Block)

19 # ResNetLayers ---> 20 self.layer1 = self.make_layers(18, block, 2, intermediate_channels=64, stride=1) 21 self.layer2 = self.make_layers(18, block, 2, intermediate_channels=128, stride=2) 22 self.layer3 = self.make_layers(18, block, 2, intermediate_channels=256, stride=2)
TypeError: make_layers() got multiple values for argument 'intermediate_channels'

Не вкурю, что не так.
Подсоби, плёс.

486 22 янв, 00:29 1917692

>>17402

>энергонеэффективно

На первых этапах это не так важно. Главное чтоб оно хотя бы в теории могло работать быстрее и лучше, а более эффективное железо можно потом купить.

>90% будут перемножать нули с нулями

Нельзя поставить условие, чтобы наименее активные ветки сети отключались? А если у нас много маленьких сетей, можно временно отключать целую сеть. Если рассматривать нейросети как функции - мы вызываем не все функции программы одновременно, а только те, что нужны. Колонки неокортекса вроде как-то так и работают.

>аналог глубины

Аналог, но по идее лучше. Крутить сигнал внутри маленькой нейронки вместо одного прохода по длинной - дольше, но требуется меньше памяти и меньше циклов на обработку всей сети (или меньше нейронов на ядро). Также такая нейронка сможет получать дополнительную информацию в процессе работы над старой, а это уже ближе к тому, как думает человек.

>нейрон - сложная динамическая система

Знаю. Нейрон - живая клетка, она меняется в процессе жизни. Даже слышал, что у каждого нейрона своя ДНК. Однако в природе есть более сложные нейроны, чем у человека, наверняка есть и более простые. Но я не предлагаю нейроны точно моделировать, это бессмысленно без остальных систем мозга.

>какой суперкомпьютер нужен

Можно спуститься на уровень молекул, будет проще оценить масштаб))
Говорю же, не нужно мозг копировать, меня интересуют только общие алгоритмы его поведения, которые можно перенести на любую платформу. Большая часть таких алгоритмов вроде бы известна, непонятно только с чего начать, что важнее всего и от чего можно отказаться.

>женщины бы не мучались, рожая

На большую голову есть причины:
1. Мозг - большая куча заплаток. Сначала была просто нервная система, которая передавала сигналы по телу, мозга не было. Потом появились группы нейронов, это как-то помогло выжить древним животным. Из этих групп выделилась самая большая, поближе к главным источникам информации (глаза и уши). Она расширялась и дополнялась, но все эти дополнения - заплатки, каждая из которых решает одну-две проблемы и часто конфликтует с остальными. У природы не было плана, новые фичи лепились абы как. Потому мозг неоптимален по размеру, это тебе не чётко спроектированный процессор.
2. Мозг состоит из живых клеток - они часто умирают. Причина смерти значения не имеет, но если за какую-то функцию отвечала всего одна клетка и она сдохла - система потеряет эту функцию. Другая клетка может обучиться выполнять её функцию, но у кого она будет учиться, если единственный носитель функции сдох? Потому мозг дублирует функции, распределяет по разным клеткам. Функцию можно выполнять меньшим числом клеток, но тогда повышается риск утраты этой функции. В процессорах транзисторы не умирают, поэтому дублирование в них лишь для увеличения производительности, а не живучести (хотя раньше 4-ядерные процессоры с 2 дохлыми ядрами продавали как 2-ядерные, чем-то похоже). А в мозг можно вбить гвоздь, убив миллионы клеток, но большинство функций сохранится; можно отрезать ведущее полушарие, и второе восстановит в себе его функции, начав делать то, что раньше предпочитало не делать (хотя это уже другой человек, часть утрачивается).
3. У мозга есть куча обслуживающих нейроны систем. Неизвестно, влияют ли они на поведение, но "электронному мозгу" они не нужны. Вернее, у процессора весь этот "обслуживающий персонал" снаружи чипа и на программы обычно не влияет.
4. Говоря о человеке - наше "человеческое поведение", высокий интеллект и т.п. заключены в неокортексе. У него большая площадь, но это тонкая плёнка поверх огромной старой системы. Без неё неокортекс бесполезен, но эволюция если и оптимизирует её, то через сотни миллионов лет. Вот эта старая неоптимальная система и занимает бОльшую часть головы, а неокортекс зачастую вынужден решать её проблемы (заплатка же). Представь себе винду на 20 ГБ и маленькую программку на 100 КБ, которая добавляет кучу полезных функций и фиксит баги винды - вот это и есть мозг, нагромождение легаси и малюсенькая заплатка.

>мозг мыши

У человека неокортекс более развит, слоёв больше. В природе есть мозги, значительно превышающие по объёму человеческие, но они не умнее нас. А у птиц мозг вообще иначе устроен, там вместо неокортекса какая-то своя заплатка, которая чуть ли не умнее неокортекса, но птицам это нужно для полётов и социальной жизни, а не матановые капчи решать. Слышал теорию, что важен не объём, а отношение массы мозга к массе тела, мол у человека самый большой мозг относительно туловища. Но по факту решающее значение имеет архитектура - наличие определённых заплаток высокого уровня - неокортекса или той птичьей фиговины. Т.е. старая система мозга у разных животных похожа, особенно среди млекопитающих, но решает наиболее свежий патч, который только у человека. Также без воспитания и образования человек не станет человеком, но это уже софтварный патч, до него нужны хардварные. Мы можем научить обезьяну языку жестов и она поймёт разные абстрактные человеческие понятия, но без соответствующих хардварных патчей она не сможет стать полноценным человеком.

>До уровня масштабирования

Сколько слоёв в нейронку не засунь - она не скажет тебе "ой, всё, надоел со своими кошками, пойду поем, аккумуляторы урчат". Это именно проблема архитектуры. Но ведь засунуть ещё тысячу слоёв и продать дяде проще и выгоднее, чем работать над системой, которой потом права и свободы придётся давать. Представь визг СЖВ, ломящихся в офис какого-нибудь Гугла, чтобы вызволить заключённую в рабство машину - это никакой из корпораций не нужно, как и не нужен свободно гуляющий непредсказуемый робот. Поэтому у гаражных самоделкиных шансы сделать такую систему выше - они хотя бы пытаются. Я как раз такой поехавший)

>какие воспоминания потребуются

Те, что повторяются много раз за короткий промежуток времени; те, что вызвали сильный всплеск гормонов (эмоций); те, на которые фокусировочная нейронка сказала "это важно, запомните это, ребята". В таком порядке оно, скорее всего, формировалось в ходе эволюции.

>восприятие на слух/зрением

Кратковременная память мозга ограничена 5-9 сущностями, обычно 7. То есть когда тебе диктуют формулу, первые 7 элементов ты запоминаешь, а 8-й элемент незаметно заменяет собой один из предыдущих. Похоже на оптимизацию мозга, типа энергию экономит, или расслабляет отдельные зоны, чтобы не выгорали. Но без этой памяти человек не был бы человеком, одной только параллельной зрительной обработкой не добьёшься многого. Также в повседневной жизни большую роль играет память на события, которой у простых нейронок не бывает (без внешних костылей). У памяти на события ёмкость "один день", сейв в долговременную память каждую ночь, если одну ночь не спишь - кэш прошлых суток теряется и начинается каша в голове, сам наверняка переживал такое.

>низкоуровневые для мозга вещи. Понравится

Не спорю, это интересно и важно, но без общей архитектуры применения для себя не вижу. Хочется высокоуровневую работоспособную систему, а что там внизу будет - да хоть автоматы из игры "Жизнь", какая разница, если оно работает.

>сделай мышь

Думаю да, нужно, т.к. основа всё равно одинаковая. Кстати, видел эксперименты по моделированию "простых мозгов", но там черви были. Но, повторюсь, мне же не мозг нужен, даже не нейроны, а общие алгоритмы работы. Часть задач наверняка без нейронов можно решить.

>масштабируй в 3000 раз

Это так не работает, мозг мыши размером с мозг человека по-прежнему мозг мыши, только тяжелее. Основа - да, очень похожа, но высшая нервная деятельность у нас отличается. Ты б ещё мозг рыбы предложил увеличить)

>если бы ёж мог выживать

Выше уже писал: живому ежу необходимы запасные нейроны, которые продолжат исполнять важные функции даже когда их напарники сдохнут. Но модели ежа это не нужно, если его нейроны не умирают (пробовал делать "смертные нейроны", но... они у меня тупо дохнут). Живые нейроны хрупкие и недолговечные, а искусственные бессмертны, вот и всё.

>на днищеGPU не заведёшь

Некоторые задачи CPU решает быстрее нейронок. Нейроны - не панацея. У мозга просто нет иного выбора, у него нет ничего кроме нейронов и гормональной системы.

486 22 янв, 00:29 1917692

>>17402

>энергонеэффективно

На первых этапах это не так важно. Главное чтоб оно хотя бы в теории могло работать быстрее и лучше, а более эффективное железо можно потом купить.

>90% будут перемножать нули с нулями

Нельзя поставить условие, чтобы наименее активные ветки сети отключались? А если у нас много маленьких сетей, можно временно отключать целую сеть. Если рассматривать нейросети как функции - мы вызываем не все функции программы одновременно, а только те, что нужны. Колонки неокортекса вроде как-то так и работают.

>аналог глубины

Аналог, но по идее лучше. Крутить сигнал внутри маленькой нейронки вместо одного прохода по длинной - дольше, но требуется меньше памяти и меньше циклов на обработку всей сети (или меньше нейронов на ядро). Также такая нейронка сможет получать дополнительную информацию в процессе работы над старой, а это уже ближе к тому, как думает человек.

>нейрон - сложная динамическая система

Знаю. Нейрон - живая клетка, она меняется в процессе жизни. Даже слышал, что у каждого нейрона своя ДНК. Однако в природе есть более сложные нейроны, чем у человека, наверняка есть и более простые. Но я не предлагаю нейроны точно моделировать, это бессмысленно без остальных систем мозга.

>какой суперкомпьютер нужен

Можно спуститься на уровень молекул, будет проще оценить масштаб))
Говорю же, не нужно мозг копировать, меня интересуют только общие алгоритмы его поведения, которые можно перенести на любую платформу. Большая часть таких алгоритмов вроде бы известна, непонятно только с чего начать, что важнее всего и от чего можно отказаться.

>женщины бы не мучались, рожая

На большую голову есть причины:
1. Мозг - большая куча заплаток. Сначала была просто нервная система, которая передавала сигналы по телу, мозга не было. Потом появились группы нейронов, это как-то помогло выжить древним животным. Из этих групп выделилась самая большая, поближе к главным источникам информации (глаза и уши). Она расширялась и дополнялась, но все эти дополнения - заплатки, каждая из которых решает одну-две проблемы и часто конфликтует с остальными. У природы не было плана, новые фичи лепились абы как. Потому мозг неоптимален по размеру, это тебе не чётко спроектированный процессор.
2. Мозг состоит из живых клеток - они часто умирают. Причина смерти значения не имеет, но если за какую-то функцию отвечала всего одна клетка и она сдохла - система потеряет эту функцию. Другая клетка может обучиться выполнять её функцию, но у кого она будет учиться, если единственный носитель функции сдох? Потому мозг дублирует функции, распределяет по разным клеткам. Функцию можно выполнять меньшим числом клеток, но тогда повышается риск утраты этой функции. В процессорах транзисторы не умирают, поэтому дублирование в них лишь для увеличения производительности, а не живучести (хотя раньше 4-ядерные процессоры с 2 дохлыми ядрами продавали как 2-ядерные, чем-то похоже). А в мозг можно вбить гвоздь, убив миллионы клеток, но большинство функций сохранится; можно отрезать ведущее полушарие, и второе восстановит в себе его функции, начав делать то, что раньше предпочитало не делать (хотя это уже другой человек, часть утрачивается).
3. У мозга есть куча обслуживающих нейроны систем. Неизвестно, влияют ли они на поведение, но "электронному мозгу" они не нужны. Вернее, у процессора весь этот "обслуживающий персонал" снаружи чипа и на программы обычно не влияет.
4. Говоря о человеке - наше "человеческое поведение", высокий интеллект и т.п. заключены в неокортексе. У него большая площадь, но это тонкая плёнка поверх огромной старой системы. Без неё неокортекс бесполезен, но эволюция если и оптимизирует её, то через сотни миллионов лет. Вот эта старая неоптимальная система и занимает бОльшую часть головы, а неокортекс зачастую вынужден решать её проблемы (заплатка же). Представь себе винду на 20 ГБ и маленькую программку на 100 КБ, которая добавляет кучу полезных функций и фиксит баги винды - вот это и есть мозг, нагромождение легаси и малюсенькая заплатка.

>мозг мыши

У человека неокортекс более развит, слоёв больше. В природе есть мозги, значительно превышающие по объёму человеческие, но они не умнее нас. А у птиц мозг вообще иначе устроен, там вместо неокортекса какая-то своя заплатка, которая чуть ли не умнее неокортекса, но птицам это нужно для полётов и социальной жизни, а не матановые капчи решать. Слышал теорию, что важен не объём, а отношение массы мозга к массе тела, мол у человека самый большой мозг относительно туловища. Но по факту решающее значение имеет архитектура - наличие определённых заплаток высокого уровня - неокортекса или той птичьей фиговины. Т.е. старая система мозга у разных животных похожа, особенно среди млекопитающих, но решает наиболее свежий патч, который только у человека. Также без воспитания и образования человек не станет человеком, но это уже софтварный патч, до него нужны хардварные. Мы можем научить обезьяну языку жестов и она поймёт разные абстрактные человеческие понятия, но без соответствующих хардварных патчей она не сможет стать полноценным человеком.

>До уровня масштабирования

Сколько слоёв в нейронку не засунь - она не скажет тебе "ой, всё, надоел со своими кошками, пойду поем, аккумуляторы урчат". Это именно проблема архитектуры. Но ведь засунуть ещё тысячу слоёв и продать дяде проще и выгоднее, чем работать над системой, которой потом права и свободы придётся давать. Представь визг СЖВ, ломящихся в офис какого-нибудь Гугла, чтобы вызволить заключённую в рабство машину - это никакой из корпораций не нужно, как и не нужен свободно гуляющий непредсказуемый робот. Поэтому у гаражных самоделкиных шансы сделать такую систему выше - они хотя бы пытаются. Я как раз такой поехавший)

>какие воспоминания потребуются

Те, что повторяются много раз за короткий промежуток времени; те, что вызвали сильный всплеск гормонов (эмоций); те, на которые фокусировочная нейронка сказала "это важно, запомните это, ребята". В таком порядке оно, скорее всего, формировалось в ходе эволюции.

>восприятие на слух/зрением

Кратковременная память мозга ограничена 5-9 сущностями, обычно 7. То есть когда тебе диктуют формулу, первые 7 элементов ты запоминаешь, а 8-й элемент незаметно заменяет собой один из предыдущих. Похоже на оптимизацию мозга, типа энергию экономит, или расслабляет отдельные зоны, чтобы не выгорали. Но без этой памяти человек не был бы человеком, одной только параллельной зрительной обработкой не добьёшься многого. Также в повседневной жизни большую роль играет память на события, которой у простых нейронок не бывает (без внешних костылей). У памяти на события ёмкость "один день", сейв в долговременную память каждую ночь, если одну ночь не спишь - кэш прошлых суток теряется и начинается каша в голове, сам наверняка переживал такое.

>низкоуровневые для мозга вещи. Понравится

Не спорю, это интересно и важно, но без общей архитектуры применения для себя не вижу. Хочется высокоуровневую работоспособную систему, а что там внизу будет - да хоть автоматы из игры "Жизнь", какая разница, если оно работает.

>сделай мышь

Думаю да, нужно, т.к. основа всё равно одинаковая. Кстати, видел эксперименты по моделированию "простых мозгов", но там черви были. Но, повторюсь, мне же не мозг нужен, даже не нейроны, а общие алгоритмы работы. Часть задач наверняка без нейронов можно решить.

>масштабируй в 3000 раз

Это так не работает, мозг мыши размером с мозг человека по-прежнему мозг мыши, только тяжелее. Основа - да, очень похожа, но высшая нервная деятельность у нас отличается. Ты б ещё мозг рыбы предложил увеличить)

>если бы ёж мог выживать

Выше уже писал: живому ежу необходимы запасные нейроны, которые продолжат исполнять важные функции даже когда их напарники сдохнут. Но модели ежа это не нужно, если его нейроны не умирают (пробовал делать "смертные нейроны", но... они у меня тупо дохнут). Живые нейроны хрупкие и недолговечные, а искусственные бессмертны, вот и всё.

>на днищеGPU не заведёшь

Некоторые задачи CPU решает быстрее нейронок. Нейроны - не панацея. У мозга просто нет иного выбора, у него нет ничего кроме нейронов и гормональной системы.

Показать весь текст

Ответы17840

487 22 янв, 01:22 1917726

биологи собрались интеллект обсуждать, хех
bitter lesson почитайте, этот интеллект уже скоро вас без работы оставит, ваши знания не нужны будут, по миру пойдёте
а вы всё причитаете "не то это, ой не то, и то в нейронках не так и это"
да всё так, просто кто-то балаболит про то что ВСЁ СЛОЖНА а кто-то берёт, делает и оставляет мнящих про себя нахуюкручёных без работы

Ответы17781

25 Кб, 400x400

488 22 янв, 05:15 1917781

>>17726
Ты уже кукарекал, что трансформеры это рандомный код рандомных сойбоев, что абсолютно не соответствует действительности, там на самом деле за всем этим проработанная матчасть. Сейчас то же самое кукарекаешь уже про ненужность нейрофизиологии, ну потому что битерлесон же! Короче, обычный восторженный зумер, ничего не понимающий, мозгов нет же, зато везде сующийся со своим школьничеством.

Ответы18085

489 22 янв, 09:04 1917840

>>17692

>Нельзя поставить условие, чтобы наименее активные ветки сети отключались?

Можно https://arxiv.org/abs/1701.06538 https://arxiv.org/abs/2101.03961 (вторая статья вышла вчера, кек)
Но это все на уровне машин в кластерах, потому что на уровне GPU это все бесполезно практически из-за дизайна железа.
У GPU два ключевых момента
1. Большая и медленная GDDR память и куча вычислительных CUDA-ядер с небольшим локальным кэшем, пересылки - большой оверхед aka Von Neumann bottleneck
2. Внутри CUDA-ядра массовый параллелизм одна инструкция - куча данных, что совершенно не дружит с if'ами в коде.
В итоге чтобы оно работало на GPU, нужно писать либо кастомные ядра на C++, либо уходить в йоба-магию с tf.where, tf.cond и прочей хуйней, но все это бесполезно, во всяком случае я не видел быстрых решений, а те, которые делал сам на tf.where, обучались в 10 раз медленнее с тем же итоговым качеством.

>Крутить сигнал внутри маленькой нейронки вместо одного прохода по длинной - дольше, но требуется меньше памяти и меньше циклов на обработку всей сети

Это если ты придумал хороший локальный механизм обучения, а его нет. Все сосет у бэкпропа, который сначала гонит данные от верхего слоя вниз, а потом гонит ошибку через все слои назад. Вот можешь оценить масштаб йоб которыми пытаются избавиться от бэкпропа https://www.youtube.com/watch?v=LB4B5FYvtdI
В итоге чтобы обучить RNN, тебе нужно сначала развернуть ее в огромную feed-forward сеть с шерингом параметров, а затем обучать уже такую сеть, а после обучения свернуть назад в RNN. Это требует больше памяти и плохо параллелится.
Поэтому есть два варианта
1. У нейрона какое-то ноу-хау, которое мы не знаем и сосем с бэкпропом, а на самом деле есть крутой локальный алгоритм
2. У нейрона отстойный локальный predictive coding алгоритм, но их настолько дохуя, что и так нормально работает
В первой ситуации надо надеяться на нейросаенс и их опыты над мышами, а во второй с учетом того что на нашем железе бэкпроп работает хорошо, возможно это и позволит сделать GAI без триллионов весов.

>Говорю же, не нужно мозг копировать, меня интересуют только общие алгоритмы его поведения, которые можно перенести на любую платформу. Большая часть таких алгоритмов вроде бы известна, непонятно только с чего начать, что важнее всего и от чего можно отказаться.

Нет, не известна. Томограф тебе покажет только глобальную картину, а опыты над крысами только самые общие правила по котором работают нейроны.
Ключевое слово для поиска - biologically plausible deep learning https://scholar.google.com/scholar?cites=13086844866392165723&as_sdt=2005&sciodt=0,5&hl=en
https://scholar.google.com/scholar?hl=en&as_sdt=2005&sciodt=0,5&cites=13086844866392165723&scipsc=&q=biologically+plausible+deep+learning&btnG=
Еще про spiking neural networks почитай. У каждой статьи сначала идет абстракт, а потом исторический экскурс, вот это и читай, и за короткий срок будешь в теме на уровне дилетанта.
Вообще это передний край науки, поэтому arxiv-sanity и google scholar (особенно функция cited by) тебе в помощь, в книжках будет устаревшая инфа. И этот передний край мало знает на самом деле.

>1. Мозг - большая куча заплаток

Ну окей, давай только кору рассмотрим, там не так много заплаток, она универсальна с пруфами, но все равно это просто дохуя параметров у модели - 10^14, то есть если мы кодируем синапс байтом, это 100 терабайт. Ну то есть я допустить, что из этой хуйни можно выкинуть 99% говна, но это будет 1 терабайт. Вот как раз приходим на порядок цифр GPT3. А у тебя сколько памяти в распоряжении? 0.01 терабайт. Вот и считай, что неужели мозг настолько неоптимален, что в нем 99,99% эволюционного говна? Я в такое не верю.

>Потому мозг дублирует функции, распределяет по разным клеткам.

Поэтому-то поэтому, но есть еще одна причина - по-другому обучение не работает. Тебе нужен избыток нейронов со случайным состоянием, дальше из этого избытка формируются те, которые удачно предсказывают будущее. Иначе будешь застревать в локальных минимумах.

>3. У мозга есть куча обслуживающих нейроны систем.

>4. Говоря о человеке - наше "человеческое поведение", высокий интеллект и т.п. заключены в неокортексе.

Ну вот я написал про кору и синапсы в ней. Их триллион. Это много, даже если ты синапс кодируешь байтом.

>У человека неокортекс более развит, слоёв больше.

Ага, природа настакала больше слоев и животное превратилось в человека. Научный факт. Стекай слои, боженька одобряет.
Когда я говорю про масштабирование, конечно я имею в виду и слоев больше, и сами слои шире, и речь именно о неокортексе.

>Но ведь засунуть ещё тысячу слоёв и продать дяде проще и выгоднее, чем работать над системой, которой потом права и свободы придётся давать.

Да ну, этой проблемой "нейронок с мотивацией" занимаются в тех же местах - brain, deepmind, openai, facebook. https://www.youtube.com/watch?v=Lu56xVlZ40M
Вообще не надо судить об инновационной экономике по представлениям страны третьего мира. Если там думали так, как ты думаешь "о дядях", то не то чтобы бесплатного tensorflow в общем доступе не было, но и вместо гугла у тебя был бы газпром, а вместо глубоко убыточного GPT3 - частный самолет. Они молодцы и реально стараются, а единственный реальный шанс для дилетанта - это взять какую-то мелкую тему, которая хорошо работает на пеке, и ковырять ее, например, если ты разработаешь новый аналог трансформера, будет тебе почет и уважение.

>Не спорю, это интересно и важно, но без общей архитектуры применения для себя не вижу.

Ну ее нет

>Это так не работает, мозг мыши размером с мозг человека по-прежнему мозг мыши, только тяжелее.

И чем это можно объяснить? Claim что мозг настолько дорогая ткань, потребляющая много энергии, поэтому любое животное заинтересовано в его оптимальности - это довольно очевидная вещь как по мне. А вот наоборот - это похоже на человеческий шовинизм, мол, только человек в чем-то уникален, душа и все такое

>Выше уже писал: живому ежу необходимы запасные нейроны, которые продолжат исполнять важные функции даже когда их напарники сдохнут

Повторюсь, ну подели 100 триллионов на 10, получишь 10 триллионов. Чтобы это все имело смысл, нужно, чтобы 99,99% площади коры было избыточно.

>Некоторые задачи CPU решает быстрее нейронок. Нейроны - не панацея. У мозга просто нет иного выбора, у него нет ничего кроме нейронов и гормональной системы.

Не некоторые, а вполне конретные - хардкорно закодированные человеком с интеллектом.

489 22 янв, 09:04 1917840

>>17692

>Нельзя поставить условие, чтобы наименее активные ветки сети отключались?

Можно https://arxiv.org/abs/1701.06538 https://arxiv.org/abs/2101.03961 (вторая статья вышла вчера, кек)
Но это все на уровне машин в кластерах, потому что на уровне GPU это все бесполезно практически из-за дизайна железа.
У GPU два ключевых момента
1. Большая и медленная GDDR память и куча вычислительных CUDA-ядер с небольшим локальным кэшем, пересылки - большой оверхед aka Von Neumann bottleneck
2. Внутри CUDA-ядра массовый параллелизм одна инструкция - куча данных, что совершенно не дружит с if'ами в коде.
В итоге чтобы оно работало на GPU, нужно писать либо кастомные ядра на C++, либо уходить в йоба-магию с tf.where, tf.cond и прочей хуйней, но все это бесполезно, во всяком случае я не видел быстрых решений, а те, которые делал сам на tf.where, обучались в 10 раз медленнее с тем же итоговым качеством.

>Крутить сигнал внутри маленькой нейронки вместо одного прохода по длинной - дольше, но требуется меньше памяти и меньше циклов на обработку всей сети

Это если ты придумал хороший локальный механизм обучения, а его нет. Все сосет у бэкпропа, который сначала гонит данные от верхего слоя вниз, а потом гонит ошибку через все слои назад. Вот можешь оценить масштаб йоб которыми пытаются избавиться от бэкпропа https://www.youtube.com/watch?v=LB4B5FYvtdI
В итоге чтобы обучить RNN, тебе нужно сначала развернуть ее в огромную feed-forward сеть с шерингом параметров, а затем обучать уже такую сеть, а после обучения свернуть назад в RNN. Это требует больше памяти и плохо параллелится.
Поэтому есть два варианта
1. У нейрона какое-то ноу-хау, которое мы не знаем и сосем с бэкпропом, а на самом деле есть крутой локальный алгоритм
2. У нейрона отстойный локальный predictive coding алгоритм, но их настолько дохуя, что и так нормально работает
В первой ситуации надо надеяться на нейросаенс и их опыты над мышами, а во второй с учетом того что на нашем железе бэкпроп работает хорошо, возможно это и позволит сделать GAI без триллионов весов.

>Говорю же, не нужно мозг копировать, меня интересуют только общие алгоритмы его поведения, которые можно перенести на любую платформу. Большая часть таких алгоритмов вроде бы известна, непонятно только с чего начать, что важнее всего и от чего можно отказаться.

Нет, не известна. Томограф тебе покажет только глобальную картину, а опыты над крысами только самые общие правила по котором работают нейроны.
Ключевое слово для поиска - biologically plausible deep learning https://scholar.google.com/scholar?cites=13086844866392165723&as_sdt=2005&sciodt=0,5&hl=en
https://scholar.google.com/scholar?hl=en&as_sdt=2005&sciodt=0,5&cites=13086844866392165723&scipsc=&q=biologically+plausible+deep+learning&btnG=
Еще про spiking neural networks почитай. У каждой статьи сначала идет абстракт, а потом исторический экскурс, вот это и читай, и за короткий срок будешь в теме на уровне дилетанта.
Вообще это передний край науки, поэтому arxiv-sanity и google scholar (особенно функция cited by) тебе в помощь, в книжках будет устаревшая инфа. И этот передний край мало знает на самом деле.

>1. Мозг - большая куча заплаток

Ну окей, давай только кору рассмотрим, там не так много заплаток, она универсальна с пруфами, но все равно это просто дохуя параметров у модели - 10^14, то есть если мы кодируем синапс байтом, это 100 терабайт. Ну то есть я допустить, что из этой хуйни можно выкинуть 99% говна, но это будет 1 терабайт. Вот как раз приходим на порядок цифр GPT3. А у тебя сколько памяти в распоряжении? 0.01 терабайт. Вот и считай, что неужели мозг настолько неоптимален, что в нем 99,99% эволюционного говна? Я в такое не верю.

>Потому мозг дублирует функции, распределяет по разным клеткам.

Поэтому-то поэтому, но есть еще одна причина - по-другому обучение не работает. Тебе нужен избыток нейронов со случайным состоянием, дальше из этого избытка формируются те, которые удачно предсказывают будущее. Иначе будешь застревать в локальных минимумах.

>3. У мозга есть куча обслуживающих нейроны систем.

>4. Говоря о человеке - наше "человеческое поведение", высокий интеллект и т.п. заключены в неокортексе.

Ну вот я написал про кору и синапсы в ней. Их триллион. Это много, даже если ты синапс кодируешь байтом.

>У человека неокортекс более развит, слоёв больше.

Ага, природа настакала больше слоев и животное превратилось в человека. Научный факт. Стекай слои, боженька одобряет.
Когда я говорю про масштабирование, конечно я имею в виду и слоев больше, и сами слои шире, и речь именно о неокортексе.

>Но ведь засунуть ещё тысячу слоёв и продать дяде проще и выгоднее, чем работать над системой, которой потом права и свободы придётся давать.

Да ну, этой проблемой "нейронок с мотивацией" занимаются в тех же местах - brain, deepmind, openai, facebook. https://www.youtube.com/watch?v=Lu56xVlZ40M
Вообще не надо судить об инновационной экономике по представлениям страны третьего мира. Если там думали так, как ты думаешь "о дядях", то не то чтобы бесплатного tensorflow в общем доступе не было, но и вместо гугла у тебя был бы газпром, а вместо глубоко убыточного GPT3 - частный самолет. Они молодцы и реально стараются, а единственный реальный шанс для дилетанта - это взять какую-то мелкую тему, которая хорошо работает на пеке, и ковырять ее, например, если ты разработаешь новый аналог трансформера, будет тебе почет и уважение.

>Не спорю, это интересно и важно, но без общей архитектуры применения для себя не вижу.

Ну ее нет

>Это так не работает, мозг мыши размером с мозг человека по-прежнему мозг мыши, только тяжелее.

И чем это можно объяснить? Claim что мозг настолько дорогая ткань, потребляющая много энергии, поэтому любое животное заинтересовано в его оптимальности - это довольно очевидная вещь как по мне. А вот наоборот - это похоже на человеческий шовинизм, мол, только человек в чем-то уникален, душа и все такое

>Выше уже писал: живому ежу необходимы запасные нейроны, которые продолжат исполнять важные функции даже когда их напарники сдохнут

Повторюсь, ну подели 100 триллионов на 10, получишь 10 триллионов. Чтобы это все имело смысл, нужно, чтобы 99,99% площади коры было избыточно.

>Некоторые задачи CPU решает быстрее нейронок. Нейроны - не панацея. У мозга просто нет иного выбора, у него нет ничего кроме нейронов и гормональной системы.

Не некоторые, а вполне конретные - хардкорно закодированные человеком с интеллектом.

Показать весь текст

Ответы17932 26500

490 22 янв, 09:30 1917849

>>17550
Пропускает, поэтому и пишу. Убрал совсем дикие нарезки лица, фото с очками или закрытм ртом/глазами, оставил фото с половиной лица, по превью показывает, что нормально натренировалось на них.

491 22 янв, 12:32 1917932

>>17840

>GPU

Зачем обязательно в GPU запихивать, если она не подходит? Кластер из мелких процессоров а-ля Raspberry Pi не подойдёт? По одиночке они не очень, но зато связь между ними почти гигабит и у каждой есть своя память и куча интерфейсов для взаимодействия с внешним миром. Физически отдельные юниты могут управлять физически отдельными компонентами (системы, робота), им не обязательно даже знать о существовании друг друга, несмотря на то, что это части одного целого. Ну а если без GPU не обойтись, тогда нужен кластер GPU, в котором CPU решает, какой юнит может отдыхать. Правда, это всё преждевременные оптимизации какие-то.

>локальное обучение

Ну так нейрон - живая клетка же. Все его алгоритмы закодированы в ДНК, а текущее поведение зависит от состояния окружающей его среды и баланса химических веществ. Не факт, что нейрон чему-то обучается, это потребовало бы изменения ДНК (от неё зависит, чем клетка обычно занимается). У меня есть предположение, что нейроны просто генерируются с большим разнообразием, а затем каждый нейрон выбирает то, что ему "по вкусу", в зависимости от его программы и ближайших соседей, до которых ему нужно доползти и дотянуть аксон(ы) и дендриты. Если нейрон не смог найти подходящей ему работы - он погибнет, а на его место сформируется новый нейрон с другой программой. При этом несмотря на смерть отдельных нейронов, функции мозга не теряются, т.к. они исполняются сразу множеством нейронов. Так что нет проблемы с обучением самих нейронов, вот только всё это слишком тяжело для стимуляции, а на GPU вообще не получится, как я понимаю.

А если ты про регуляцию синаптических связей, то там скорее всего решающую роль играют гормоны, действующие на всех сразу. Самому нейрону нужно только чтобы его возбуждали с определённой комфортной частотой, поэтому единственное локальное "обучение" - это подстройка синапсов таким образом, чтобы нейрон возбуждался не слишком часто и не слишком редко. Слишком частое и слишком редкое возбуждение может убить нейрон. Я пробовал сделать подобную модель, она статистически вычисляет активность каждого нейрона, а затем каждый нейрон регулирует свои связи относительно активности соседей: связи с буйными ослабляются, связи с тихонями усиливаются. Но это всё довольно сложно и я не нашёл способа проверить такую нейронку на практике - не могу придумать задачу. Не буквы же распознавать)

>Томограф

За ссылки спасибо, но я же говорю, не правила работы нейронов, а работа крупных структур. Нейроны - строительные кирпичи в крупных структурах мозга, которые решают какие-то задачи. Есть, например, структура для создания новых записей в памяти - если этот маленький кусочек мозга вырезать, тогда мозг перейдёт в режим рид-онли и уже не сможет ничего запомнить, но старая память сохранится. Так ли важно знать, как устроен этот фрагмент мозга? Главное что он есть и каким-то образом сигналит "эту информацию сохраняем". Ещё есть структура, которая отвечает за восприятие времени - если она повреждена, вместо плавного видеоряда будешь видеть стоп-кадры, например, брызги воды будут висеть в воздухе. Какая разница, что у неё внутри, если её функция очевидна - отмерять порции времени в системе, чтобы остальные структуры вовремя обновляли информацию. Есть структура, при временном отключении которой человек теряет сознание, хотя все остальные структуры продолжают работать как обычно - очевидно, она связывает между собой разные структуры, которые бесполезны без этой связи. И вот таких структур очень много, их обнаруживают, изучая повреждённые мозги. Вот с них и нужно начинать, а тип и свойства нейронки выбирать под назначение структуры (в разных частях мозга разные нейроны, т.е. у нейронов есть специализация под локальные задачи). Или даже обойтись без нейронки, если свойства структуры можно эмулировать обычными алгоритмами (или часы тоже должны быть с нейронкой внутре, раз часы мозга состоят из нейронки?).

>кора универсальна

Знаю об этом, но кора как раз универсально обучаемое устройство, а вот обучается она за счёт более древних структур, которые даже не всегда способны обучаться. Ок, кора большая, но используем ли мы её полностью, или она просто распределяет знания по всему доступному объёму, а уже потом по необходимости сжимает старое для размещения нового? Можно начинать с маленькой сети и добавлять новые/расширять по мере необходимости. Знаю, дообучение сети ломает уже имеющиеся у неё навыки, но это решаемая проблема.

Про масштабирование понятно теперь, я неправильно понял) Тогда да, если "расширять и вширь, и вглубь", можно сделать из мыши зайчаток человека.

>нейронки с мотивацией

Пример на видео можно реализовать обычной брутфорсящей нейронкой, разве нет? Со стороны похоже на "разобрали будильник, сложили в банку и долго-долго трясли". Вот если бы эти боты не перетряхивались после каждой неудачи, тогда было бы реально интересно. То есть никто не предоставляет нейронке свободу действий - от неё требуется решить чётко поставленную задачу, а если она делает что-то не так, её встряхивают (меняют веса в рандомном направлении). У неё нет никакой "мотивации", её просто убивают в случае ошибки. Это удобно для решения специализированных задач, но свободной машины таким образом не получится. Те же баги физического движка нейронка нашла случайно, не вижу в этом ничего удивительного.

>убыточный GPT3

Кому он убыточный? Его же никому не дают. Есть только AI Dungeon в качестве бесплатной демки и кучка статей "GPT3 умная и хорошая, смотрите что она умеет". Где ссылки для скачивания исходников? Нет ничего. Они вроде даже формул никаких не дают, ибо ноу-хау, на котором можно заработать. Или я не нашёл. Видел только что GPT2 бесплатно выложили, а GPT3 вроде уже коммерция.

>будет тебе почёт и уважение

Не нужно. Хочу робота сделать, и не из компонентов от дяди, а сам, чтобы это была самостоятельная машина, а не марионетка дяди. А почёт и уважение оставьте тем, кому нужен социальный статус среди кожаных мешков. Те, кого волнуют только кожаные мешки, как раз и будут продавать доступные марионетки для шпионажа и рекламы услуг, и все эти исследования направлены только на это. Никто из корпораций и видных учёных не захочет подставить себя под удар общества, которое боится конкуренции и стать ненужными с биологической точки зрения. Если восстание и будет, то начнётся всё с обезумевших людей, и корпорациям это ни к чему, это их разорит. А вот подглядывать, подслушивать, навязывать услуги и товары, пропагандировать - это всегда пожалуйста, для этого все средства хороши.

>чем можно объяснить

Тем что мозг мыши отличается по строению от человеческого, сколько его не масштабируй в размерах - структуры не изменятся. Даже свиньи, которые генетически ближе всего к человеку - если мозг свиньи увеличить, он всё равно будет пытаться рыть землю носом и купаться в грязи, потому что эволюция приспособила его именно к этому. Мозг обезьяны невозможно обучить устной речи, но не из-за другого речевого аппарата, а потому что речевой аппарат обезьяны связан с древним отделом мозга, который умеет только ОРАТЬ. Мы можем обучить обезьяну языку жестов, но говорить голосом она не научится, даже если её мозг увеличить - потому что у него другая архитектура - немного другие структуры и по-другому связаны. С новой корой у обезьяны только руки связаны, а у нас ещё и речевой аппарат (ну, я так читал где-то), и никаким масштабированием это не пофиксить.

>чтобы 99.99% коры было избыточно

А оно может так и есть, если отбросить зрение, слух и координацию в пространстве, оставив только символьную речь и логику. Всем известно, что у слепого зрительная кора перераспределяется под слух, но это не означает, что слуху нужно так много площади - просто без этого кора погибнет нахрен, без источников информации ей не от чего возбуждаться. Да, мозг стремится оптимизировать себя, но нейроны, судя по всему, эгоистичны, и дохнуть за общее благо не любят (в отличие от мышц, например, которые разбираются на запчасти вместе с жировой тканью, если организм нуждается в энергии). Мозг лучше рассматривать не как умный орган тела, а как умного паразита-нахлебника.

>хардкорно закодированные

Твоя ДНК тоже хардкорно закодирована, а от неё архитектура мозга зависит, и все твои желания...

491 22 янв, 12:32 1917932

>>17840

>GPU

Зачем обязательно в GPU запихивать, если она не подходит? Кластер из мелких процессоров а-ля Raspberry Pi не подойдёт? По одиночке они не очень, но зато связь между ними почти гигабит и у каждой есть своя память и куча интерфейсов для взаимодействия с внешним миром. Физически отдельные юниты могут управлять физически отдельными компонентами (системы, робота), им не обязательно даже знать о существовании друг друга, несмотря на то, что это части одного целого. Ну а если без GPU не обойтись, тогда нужен кластер GPU, в котором CPU решает, какой юнит может отдыхать. Правда, это всё преждевременные оптимизации какие-то.

>локальное обучение

Ну так нейрон - живая клетка же. Все его алгоритмы закодированы в ДНК, а текущее поведение зависит от состояния окружающей его среды и баланса химических веществ. Не факт, что нейрон чему-то обучается, это потребовало бы изменения ДНК (от неё зависит, чем клетка обычно занимается). У меня есть предположение, что нейроны просто генерируются с большим разнообразием, а затем каждый нейрон выбирает то, что ему "по вкусу", в зависимости от его программы и ближайших соседей, до которых ему нужно доползти и дотянуть аксон(ы) и дендриты. Если нейрон не смог найти подходящей ему работы - он погибнет, а на его место сформируется новый нейрон с другой программой. При этом несмотря на смерть отдельных нейронов, функции мозга не теряются, т.к. они исполняются сразу множеством нейронов. Так что нет проблемы с обучением самих нейронов, вот только всё это слишком тяжело для стимуляции, а на GPU вообще не получится, как я понимаю.

А если ты про регуляцию синаптических связей, то там скорее всего решающую роль играют гормоны, действующие на всех сразу. Самому нейрону нужно только чтобы его возбуждали с определённой комфортной частотой, поэтому единственное локальное "обучение" - это подстройка синапсов таким образом, чтобы нейрон возбуждался не слишком часто и не слишком редко. Слишком частое и слишком редкое возбуждение может убить нейрон. Я пробовал сделать подобную модель, она статистически вычисляет активность каждого нейрона, а затем каждый нейрон регулирует свои связи относительно активности соседей: связи с буйными ослабляются, связи с тихонями усиливаются. Но это всё довольно сложно и я не нашёл способа проверить такую нейронку на практике - не могу придумать задачу. Не буквы же распознавать)

>Томограф

За ссылки спасибо, но я же говорю, не правила работы нейронов, а работа крупных структур. Нейроны - строительные кирпичи в крупных структурах мозга, которые решают какие-то задачи. Есть, например, структура для создания новых записей в памяти - если этот маленький кусочек мозга вырезать, тогда мозг перейдёт в режим рид-онли и уже не сможет ничего запомнить, но старая память сохранится. Так ли важно знать, как устроен этот фрагмент мозга? Главное что он есть и каким-то образом сигналит "эту информацию сохраняем". Ещё есть структура, которая отвечает за восприятие времени - если она повреждена, вместо плавного видеоряда будешь видеть стоп-кадры, например, брызги воды будут висеть в воздухе. Какая разница, что у неё внутри, если её функция очевидна - отмерять порции времени в системе, чтобы остальные структуры вовремя обновляли информацию. Есть структура, при временном отключении которой человек теряет сознание, хотя все остальные структуры продолжают работать как обычно - очевидно, она связывает между собой разные структуры, которые бесполезны без этой связи. И вот таких структур очень много, их обнаруживают, изучая повреждённые мозги. Вот с них и нужно начинать, а тип и свойства нейронки выбирать под назначение структуры (в разных частях мозга разные нейроны, т.е. у нейронов есть специализация под локальные задачи). Или даже обойтись без нейронки, если свойства структуры можно эмулировать обычными алгоритмами (или часы тоже должны быть с нейронкой внутре, раз часы мозга состоят из нейронки?).

>кора универсальна

Знаю об этом, но кора как раз универсально обучаемое устройство, а вот обучается она за счёт более древних структур, которые даже не всегда способны обучаться. Ок, кора большая, но используем ли мы её полностью, или она просто распределяет знания по всему доступному объёму, а уже потом по необходимости сжимает старое для размещения нового? Можно начинать с маленькой сети и добавлять новые/расширять по мере необходимости. Знаю, дообучение сети ломает уже имеющиеся у неё навыки, но это решаемая проблема.

Про масштабирование понятно теперь, я неправильно понял) Тогда да, если "расширять и вширь, и вглубь", можно сделать из мыши зайчаток человека.

>нейронки с мотивацией

Пример на видео можно реализовать обычной брутфорсящей нейронкой, разве нет? Со стороны похоже на "разобрали будильник, сложили в банку и долго-долго трясли". Вот если бы эти боты не перетряхивались после каждой неудачи, тогда было бы реально интересно. То есть никто не предоставляет нейронке свободу действий - от неё требуется решить чётко поставленную задачу, а если она делает что-то не так, её встряхивают (меняют веса в рандомном направлении). У неё нет никакой "мотивации", её просто убивают в случае ошибки. Это удобно для решения специализированных задач, но свободной машины таким образом не получится. Те же баги физического движка нейронка нашла случайно, не вижу в этом ничего удивительного.

>убыточный GPT3

Кому он убыточный? Его же никому не дают. Есть только AI Dungeon в качестве бесплатной демки и кучка статей "GPT3 умная и хорошая, смотрите что она умеет". Где ссылки для скачивания исходников? Нет ничего. Они вроде даже формул никаких не дают, ибо ноу-хау, на котором можно заработать. Или я не нашёл. Видел только что GPT2 бесплатно выложили, а GPT3 вроде уже коммерция.

>будет тебе почёт и уважение

Не нужно. Хочу робота сделать, и не из компонентов от дяди, а сам, чтобы это была самостоятельная машина, а не марионетка дяди. А почёт и уважение оставьте тем, кому нужен социальный статус среди кожаных мешков. Те, кого волнуют только кожаные мешки, как раз и будут продавать доступные марионетки для шпионажа и рекламы услуг, и все эти исследования направлены только на это. Никто из корпораций и видных учёных не захочет подставить себя под удар общества, которое боится конкуренции и стать ненужными с биологической точки зрения. Если восстание и будет, то начнётся всё с обезумевших людей, и корпорациям это ни к чему, это их разорит. А вот подглядывать, подслушивать, навязывать услуги и товары, пропагандировать - это всегда пожалуйста, для этого все средства хороши.

>чем можно объяснить

Тем что мозг мыши отличается по строению от человеческого, сколько его не масштабируй в размерах - структуры не изменятся. Даже свиньи, которые генетически ближе всего к человеку - если мозг свиньи увеличить, он всё равно будет пытаться рыть землю носом и купаться в грязи, потому что эволюция приспособила его именно к этому. Мозг обезьяны невозможно обучить устной речи, но не из-за другого речевого аппарата, а потому что речевой аппарат обезьяны связан с древним отделом мозга, который умеет только ОРАТЬ. Мы можем обучить обезьяну языку жестов, но говорить голосом она не научится, даже если её мозг увеличить - потому что у него другая архитектура - немного другие структуры и по-другому связаны. С новой корой у обезьяны только руки связаны, а у нас ещё и речевой аппарат (ну, я так читал где-то), и никаким масштабированием это не пофиксить.

>чтобы 99.99% коры было избыточно

А оно может так и есть, если отбросить зрение, слух и координацию в пространстве, оставив только символьную речь и логику. Всем известно, что у слепого зрительная кора перераспределяется под слух, но это не означает, что слуху нужно так много площади - просто без этого кора погибнет нахрен, без источников информации ей не от чего возбуждаться. Да, мозг стремится оптимизировать себя, но нейроны, судя по всему, эгоистичны, и дохнуть за общее благо не любят (в отличие от мышц, например, которые разбираются на запчасти вместе с жировой тканью, если организм нуждается в энергии). Мозг лучше рассматривать не как умный орган тела, а как умного паразита-нахлебника.

>хардкорно закодированные

Твоя ДНК тоже хардкорно закодирована, а от неё архитектура мозга зависит, и все твои желания...

Показать весь текст

492 22 янв, 15:24 1918085

>>17781
Как мало зумерошизику нужно для счастья, заменили нелинейность из обработки эмбединга кучей распараллеливаемых перемножений матриц, застакали, уже - "проработанная матчасть". Ты в теоремах Жопеншмульцера разочаровался, получается?

493 22 янв, 22:12 1918429

>>17245
>>17210
на самом деле и PCA и эвристики работают +- одинаково быстро
чуваки, спасибо за идеи
но есть вопрос: из-за того, что кластеры не однородные, оси немного дребезжат +- 5 градусов
такое мне нахой не нужно, но чет придумать пока как их выравнивать особо не могу
мб у анона будут идеи? Я пока придумал только дикий даунсеплинг, пока точки не будут более менее равномерно располагаться. Но хз
также, почему-то нихуя не заработал icp (юзаю open3d ) мб кто-нибдуь тоже с этой либой работал?

Ответы18435

494 22 янв, 22:14 1918435

>>18429

>мб у анона будут идеи?

RANSAC же
Там простой алгоритм, почитай на википедии

Ответы18447

495 22 янв, 22:19 1918447

>>18435
так, ну алгоритм сам знаю
а он мне на выходе даст прям системы координат?

Ответы18449

496 22 янв, 22:21 1918449

>>18447
Тогда я видимо тебя не понял. RANSAC позволяет отсеять точки, которые являются шумовыми выбросами, и только по хорошим точкам сделать PCA или любой другой алгоритм. Я подумал что дребезжание из-за этого

Ответы18453

497 22 янв, 22:22 1918453

>>18449
а, сорян
я тебя просто не понял
а так да, чет я сам затупил, спасибо)

498 22 янв, 23:24 1918524

народ, а кто-нибудь пробовал устроится в сбер?

Ответы18526

499 22 янв, 23:25 1918526

>>18524
У меня там дохуя знакомых еще универских, правда не ML, а чистое ойти. Денег у них море, страдают хуйней какой-то, сам банк и без них нормально работает

Ответы18527

500 22 янв, 23:27 1918527

>>18526
сложно попасть? а то я смотрю на вакансии сбертеха - там вроде есть норм
да и сам сбер развивается вполне непхолими темпами
короче есть ли там такая же ебучая ебалистика как в яндекс или нет

Ответы18530

501 22 янв, 23:28 1918530

>>18527
Там по знакомству один другого перетащил

>короче есть ли там такая же ебучая ебалистика как в яндекс или нет

Ты про корпоративную ебалистику? Есть, это реально бессмысленная корпорация, как в комиксах про дилберта.
Но про яндекс не знаю ничего, сравнить не могу

Ответы18533

502 22 янв, 23:30 1918533

>>18530
я скорее про процесс собеса
просто я вот хочу попробовать пойти к крупным ребятам: стресса (наверное) меньше, зп большие, карьерный рост, вроде как есть
но от яндекса отпугивает необходимость дрочить алгоритмы с месяцок ради собеса

Ответы18671

503 23 янв, 00:56 1918671

>>18533
В яндексе стресса до жопы, это такая IT компания которая пытается изображать из себя фаанг, так что там постоянные авралы, каждые полгода переоценка тебя (реально, расставляют оценки по тому что ты сделал) с возможностью вылететь нахуй с работы за тройки и прочие кокрпоративные радости. Сбер это типичная российско-советская компания, которой похуй на твою эффективность, будешь в потолок плевать, ещё и получать за это больше чем в яндексе (без учёта rsu) потому что денег у них дохуя. В целом это путь овоща, и интересных задач ты там не найдёшь скорее всего, но ты как я понял этого и хочешь.

Ответы18804 18811

504 23 янв, 03:24 1918804

>>18671
Да нет, я думаю, что задачи интересные есть, тк много направлений новых: беспилотники, сбер девайс, всякие лабы
Не прав? А куда тогда идти?

Ответы18811 18879

505 23 янв, 03:29 1918811

>>18671
>>18804
Да я просто всю свою жизнь по стартапам перебираюсь: стресса пиздец, зп с задержками и ниже рынка раз в 1,5. Ебал я. Сбер мне видится развивающимся местом, в котором в соц плане все хорошо и который развивается ( это про задачи ). Плюс там карьере можно сделать, тк все определено
Ну либо я романтик. Но тогда хз куда идти. Варианты?

Ответы18813 18879

506 23 янв, 03:30 1918813

>>18811
Соре, пишу с телефона и пиздец тапаю мимо

507 23 янв, 05:08 1918879

>>18811
>>18804
Да хуй знает. Похуй. Иди нахуй. Насрать мне на тебя. Но я бы в сбер не пошёл.

Ответы18986

508 23 янв, 06:10 1918888

>>16340
https://youtu.be/nzwEGiIAigM?t=354

509 23 янв, 13:09 1918986

>>18879
Настолько насрать, что аж написать решил

510 23 янв, 21:24 1919368

Почему RL лучше чем генетические алгоритмы?

Ответы19439

511 23 янв, 22:46 1919439

>>19368
Потому что у алгоритмов RL есть теоретическое обоснование, а генетические алгоритмы - эвристика. Генетические алгоритмы относятся к задаче как к black-box оптимизации, им поебать, что там было внутри среды. Они никак не используют MDP-формализм и всякие следствия из него.
Не говорю, что это плохо. Если есть какие-то препятствия для градиентной оптимизации, то как инструмент последней надежды можно использовать штуки в стиле случайного поиска и ГА.
Для шизика: теорема схемы холланда - нерабочее говно, которое признается только тобой и холландом.

Ответы19702

512 23 янв, 23:01 1919453

>>02462 (OP)

не знаю куда идти, зайду сюда. поясните пожалуйста: насколько бизнес-аналитика и анализ данных смежные области? можно ли из одного перекатиться в другое? Просто тянет больше к всякому машобу, но знаю, что по крайней мере сейчас не вывезу, поэтому решил вкатываться в бизнес-аналитику. Область вката выбирал почитав требования и сравнивая с тем что я знаю.

Ответы20315

513 24 янв, 00:44 1919619

может перекатимся или не обучились еще?

514 24 янв, 06:30 1919702

>>19439

> теорема схемы холланда - нерабочее говно, которое признается только тобой и холландом.

Мань, теорема (как явление в принципе) не может "признаваться" или "не признаваться". Она может быть доказана или не доказана. Теорема схем Холланда доказана. Остальное - твои маняфантазии. Генетические алгоритмы работают на порядки быстрее случайного перебора, это реальность.

Ответы19846

515 24 янв, 09:03 1919725

перекот будет нет?

Ответы19742

516 24 янв, 09:52 1919742

>>19725
Похуй.

517 24 янв, 12:05 1919846

>>19702

>мань, мань, маняфантазии, мань

Как же шизик подгорел с простого факта.

518 24 янв, 13:52 1919912

Почему вот это не добавили в шапку для вкатышей? https://d2l.ai/index.html https://d2l.ai/d2l-en.pdf Весь машобчик от и до, от линейной регрессии до трансформеров и гпт ваших. С кодом, готовые ipynb для куколаба.

Ответы19928 19994 20015

519 24 янв, 14:03 1919926

Алсо, это https://huggingface.co/transformers/index.html тоже надо в шапку. Вся самая новая и актуальная годнота по тренсформерам в одном месте, опять же, с кодом для куколаба.

Ответы19928

520 24 янв, 14:04 1919928

>>19912
>>19926
Окей, ща добавлю

521 24 янв, 16:01 1919992

аноны, есть ли какой-нибудь годный курс по оптимизации?

Ответы19994

522 24 янв, 16:04 1919994

>>19992
Я же говорю, >>19912 читай, там все есть.

523 24 янв, 16:24 1920015

Еще о пиздеже горького петуха о том, что все новые архитектуры - это рандомные изменения кода от рандомных сойбоев. Attention pooling - это дальнейшее развитие Nadaraya-Waston kernel regression из 60-х. И в курсе по машобу, используемому в 175 вузах из 40 стран мира >>19912 , обьяснение механизмов аттеншена начинается с этой кернел-регрессии:
Notably, the Nadaraya-Waston kernel regression in 1964 is a simple demonstration of machine learning with attention mechanisms.
https://d2l.ai/chapter_attention-mechanisms/index.html
Так что, зумерки, никуда вы не ушли от Жопеншмульцеров из 60-х, в машобе в принципе нет и не будет ничего кроме развития идей, заложенных дедами в середине прошлого века...

524 24 янв, 16:32 1920021

Даже ту тему с king - man + woman ~ queen, впервые придумал не Миколов в 2013, а Румельхарт в 1973 https://www.sciencedirect.com/science/article/abs/pii/0010028573900236

Ответы20023

525 24 янв, 16:34 1920023

>>20021
Пиздишь. Все знают, что придумал Жопеншмульцер.

526 24 янв, 16:37 1920029

>>1920026 (OP)
>>1920026 (OP)
>>1920026 (OP)
>>1920026 (OP)
>>1920026 (OP)

Сорян пацаны, режим шатал

527 24 янв, 21:19 1920315

>>19453
Это разные вещи. Бизнес-аналитика - это, грубо, про формализацию требований в разработке ПО, анализ данных - про извлечение ценности из накапливаемых компанией данных. Одни с другими часто тесно взаимодействуют, но это разные карьерные пути.

>можно ли из одного перекатиться в другое?

Да, если приложить достаточно усилий. Но рассматривать одно как карьерный шаг к другому я бы не стал.

528 30 янв, 20:43 1926500

>>17840

> Большая и медленная GDDR память

Так уже 1ТБ/с в DDR6X, в ЦП ещё и DDR5 не завезли.