test1 2 191422 0
test123
4 191424 0
asdfggfdsa
5 191425 0
test
6 193269 0
7 193281 0
Test
8 193282 0
Testing
9 193292 0
ДАВНО ТЕБЯ НЕ БЫЛО В УЛИЧНЫХ ГОНКАХ! #2
WARNING: тебе понадобится минимум 120гб свободного места

Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.

Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.

Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
16630046476323639.jpeg62 Кб, 550x357
10 193293 0
ДАВНО ТЕБЯ НЕ БЫЛО В УЛИЧНЫХ ГОНКАХ! #2
WARNING: тебе понадобится минимум 120гб свободного места

Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.

Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.

Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
11 193302 0
тест
13 193304 0
>>193303
тест
14 193305 0
>>193303
тест
15 193306 0
>>193303
❤❤💚💚
16 193307 0
Test
17 193308 0
>>193303
чмо
18 193309 0
>>193303
тест
19 193310 0
Test
20 193312 0
21 193319 0
еуые
22 193320 0
test
24 193322 0
Test
25 193323 0
26 193326 0
>>193321
Тест
27 193327 0
test
28 193328 0
29 193329 0
30 193331 0
31 193332 0
Test
32 193339 0
33 193340 0
34 193341 0
35 193343 0
36 193344 0
37 193345 0
38 193346 0
39 193348 0
>>193321
тест
40 193349 0
>>193321
тест
41 193350 0
>>193321
тест
42 193352 0
Тест чи шо
43 193354 0
>>193352
Чи тест
44 193357 0
Test
45 193358 0
Иест
(Автор этого поста был забанен. Помянем.)
46 193361 0
>>193352
текст
47 193362 0
test
(Автор этого поста был забанен. Помянем.)
48 213306 0
>>193293
Чтобы принять участие в гоночном турнире, необходимо:

1. Скачать Forza Horizon 5 версии 1.496.624.0.
2. Установить онлайн-фикс с сайта online-fix.me.
3. Зарегистрировать учётную запись Microsoft и войти в неё в игре.
4. Пройти обучающую сюжетную линию.
5. Написать свой ник в треде, чтобы тебя добавили.
49 213310 0

> test

50 213313 0
123
51 213314 0
321
52 213317 0
Test
53 213318 0
Тренировка лор для Flux
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md

Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml
Сгенерировать натуртекст описания картинок 1: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
Сгенерировать натуртекст описания картинок 2: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
54 213319 0
Тренировка лор для Flux
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md

Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml

Сгенерировать натуртекст описания картинок для Flux
• joy-caption-pre-alpha: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
• joy-caption-batch: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
55 213321 0
https://docs.google.com/document/d/1YplACs392Q2gXlveiALReAs1RYyIONpklhng-GNoUTo/pub

Перевод от gemma-2-27b-it.i1-Q6_K

Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.

Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.

Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.

В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.

FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.

Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.

Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.

Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.

Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.

Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.

Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").

Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.

Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.

К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.

Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.

Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресу a^/hhANUSpurples=fumartPUNCTUMaCr'i, чтобы обсудить возможности партнерства.
55 213321 0
https://docs.google.com/document/d/1YplACs392Q2gXlveiALReAs1RYyIONpklhng-GNoUTo/pub

Перевод от gemma-2-27b-it.i1-Q6_K

Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.

Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.

Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.

В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.

FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.

Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.

Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.

Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.

Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.

Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.

Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").

Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.

Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.

К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.

Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.

Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресу a^/hhANUSpurples=fumartPUNCTUMaCr'i, чтобы обсудить возможности партнерства.
56 213322 0
Классификатор эстетики
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.

Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.

Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.

Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.

В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.

Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.

Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.

Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.

В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.

Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».

Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.

Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.

Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.

Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.

Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.

Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.

Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.

Следующие шаги и планы на будущее
TL;DR: Обучение близко.

Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.

И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.

Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
56 213322 0
Классификатор эстетики
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.

Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.

Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.

Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.

В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.

Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.

Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.

Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.

В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.

Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».

Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.

Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.

Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.

Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.

Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.

Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.

Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.

Следующие шаги и планы на будущее
TL;DR: Обучение близко.

Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.

И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.

Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
1000029426.jpeg201 Кб, 1080x667
59 213332 0
60 213333 0
test
61 213337 0
Hu
62 213338 0
>>213337
Ji sdasd
63 213339 0
64 213386 0
F
65 213387 0
tst
66 213388 0
test
67 213389 0
test!
68 213390 0
1
69 213391 0
test2
70 213392 0
2
71 213393 0
3
72 213394 0
444
73 213395 0
5
74 213396 0
55
75 213397 0
fsdf
76 213398 0
е5656
77 213399 0
6
78 213400 0
66666
79 213401 0
6666
80 213402 0
4r4r
81 213406 0
test
82 213413 0
Test
83 213421 0
Нн
84 213446 0
test
85 213447 0
Video 2024-08-31 12-29-08.webm5,1 Мб, webm,
576x480, 0:23
86 213448 0
87 213449 0
Test
88 213450 0
Ggg
89 213451 0
Тййй
90 213452 0
Теат
91 213453 0
пук
92 213454 0
Чиньчунл
93 213456 0
пук
94 213458 0
Ьестиушаталатал
95 213460 0
пук
96 213462 0
хуй хуй
97 213463 0
вфыжоащоужщ
98 213465 0
вц
99 213468 0
апв
100 213472 0
test
101 213480 0
еуые
102 213482 0
test
103 213484 0
еуые
104 213485 1
еуые
105 213488 0
тестовый хуй
106 213493 0
test
107 213496 0
Test
108 213499 0
109 213500 0
Ttttes
110 213501 0
yy
111 213709 0
test
112 213712 0
Gg
113 213713 0
114 213714 0
image.png447 Кб, 1056x924
116 213716 0
117 213717 0
Test
118 213719 0
Test
119 213720 0
Test
image.png430 Кб, 800x600
120 213721 0
Стикер145 Кб, 500x500
121 213791 0
122 213792 0
Стикер29 Кб, 500x500
123 213793 0
124 213796 0
Test
125 213797 0
a
126 213799 0
### Первый этап боя

Место действия: Открытая равнина, без укрытий и преград, идеально подходящая для открытого конфликта.

### Состав команд:

- Команда 1: Киборг Ренат
- Состав: 1 киборг (Ренат)
- Вооружение: Двустволка, ноутбук Чуви Херобук.
- Уникальные способности: Неуязвимость к экстремальным температурам, отсутствие страха и усталости, высокая устойчивость к физическим повреждениям благодаря металлическому телу.
- Цели: Кража денег, действующий в одиночку.

- Команда 2: Сотня обезумевших таджиков
- Состав: 100 человек.
- Вооружение: Травматические пистолеты.
- Уникальные характеристики: Множественность, высокая агрессивность, но низкая организация.

- Команда 3: 500 обезумевших питеков
- Состав: 500 человек.
- Вооружение: Советское снаряжение (может включать винтовки), ружья.
- Уникальные характеристики: Большая численность, высокая преданность идейным принципам, способны к созданию временных альянсов.
127 213800 0
Test
128 213802 0
129 213803 0
test
130 213804 0
test
Стикер558 Кб, 500x500
131 213811 0
Стикер144 Кб, 500x500
132 213812 0
133 213813 0
test
134 213818 0
>>191421 (OP)
Мазафакер.
(Автор этого поста был предупрежден.)
135 213819 0
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
136 213826 0
137 213849 0
138 213850 0
Test
12231213 139 213851 0
test
140 213944 0
test
141 213945 0
test
142 213946 0
test
143 213948 0
test
Обновить тред
« /test/В начало тредаВеб-версияНастройки
/a//b//mu//s//vg/Все доски

Скачать тред только с превьюс превью и прикрепленными файлами

Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах.Подробнее