173010142249193596.jpg63 Кб, 626x417
Обучение ИИ на своей базе 3309342 В конец треда | Веб
Короче есть такая задача - есть одна очень узкоспециализированная хуита со своим ЯП, по которой инфы в инете не особо много, соответственно все ИИ с вопросами по ней тоже жидко обсираются.
Но есть охуенная дока страниц на 1500 в ПДФе с картинками и текстом.
Что я могу использовать, чтобы в какую нибудь ИИ запихнуть эту доку и может пару примеров кода итд, чтобы он выучил эту хуиту и мог нормально отвечать на вопросы по ней и писать код за меня? Платно или бесплатно похуй, наверно даже лучше платно, чтобы умней была.
Вроде как Гугл гемени умеет изучать документацию и отвечать по ней. Но насколько я понял это в контексте одного чата - то есть я закидываю доку, он изучает и может ответить на вопрос по ней, ну и соответственно видимо написать код.
А можно ли там создать свою модель, которую я обучу на этой доке? Ну чтобы не сидеть в контексте одного чата постоянно. Вертекс там какой-то у Гугла есть и аи студио, эт не оно случайно?
2 3309460
>>09342 (OP)
-> /ai/
Обучить можно, но это дорого, чревато галюнами и тебе не нужно.
Тебе нужен RAG или любой подобный костыль который сводится к :
1) индексируем тем или иным образом базу знаний (по FTS, эмбеддингам, извлечённым сущностям, тэгам и т.д)
2) при помощи LLM конвертим фразу живого человека в поисковый запрос к этой базе знаний
3) кладём найденные документы в контекст LLM, генерим ответ

Такие костыли активно обсуждаются, например, тут: https://t.me/llm_under_hood
# OP 3 3309468
>>09460
Спасибо за инфу, изучу. Только не очень понятно ты говоришь, что это очень дорого?
Сейчас в Google AI Studio скормил свой 25 мегабайтный пдф с документацией, Гугл оценил это в 300к токенов, то если это в платной версии было бы толи бакс, толи 2.
# OP 5 3309651
>>09601
А, так по сути это не обучение нейронки выходит, а тупо суммаризация
6 3309686
>>09601

>anthropic



Я читал что они банят за ВПН, так гугл не делают и openai, а ещё единственные просят номер телефона.
# OP 7 3309759
Короче сам все нагуглил, все есть и все работает, называется fine tuning и модель будет отвечать в контексте данных, которым ее обучили
8 3309886
>>09651

>А, так по сути это не обучение нейронки выходит, а тупо суммаризация


Мне лень расписывать, там есть проекты https://www.anthropic.com/news/projects где скидываешь файлы и он дальше с ними работает. Задаёшь вопросы и так далее. Суммаризация здесь вообще нихуя не причём. Промпт может быть любой, суммаризация это просто как пример. Какой функционал ты сам вложишь, так он и будет работать. Если ты скажешь "навестать страницу", он будет верстать. Скажешь "нарисовать график", он нарисует.

Ничё дешевле и лучше claude нет. Он плюс-минус как gpt-4o, в чём-то лучше и стоит дешевле. 300к токенов обойдётся в $0.9 ($0.003/за 1к токенов).

>>09686

>единственные просят номер телефона


Бля вот так трагедия из трагедий! В гугле вообще не вариант набрать "смс для активации", заплатить 15 рублей и пользоваться.

>Я читал что они банят за ВПН


Хз.
# OP 9 3309891
>>09886
За ссылочку спасибо, изучу
# OP 10 3310964
>>09886
Нашел, что у чатагпт есть аналогичная тема - Knowledge, поддерживает бОльший объём файлов для своей базы
11 3311011
>>10964

>поддерживает бОльший объём файлов


Да эт хуйня. При желании фикситься через rag и прочие langchain'ы https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/ Единственное что имеет значение - это качество ответов. А остальное - это свистелки и перделки.
# OP 12 3311123
>>11011
РАГом доучить можно чатгпт или клауде тоже?
13 3311794
>>11123
Вообще похуям. Хоть жпт. Хоть клауд. Хоть джамба. Хоть комманд. Хоть хаггинг фейс бесплатная модель. Это просто техника такая, она не зависит от модели.
Обновить тред
« /pr/В начало тредаВеб-версияНастройки
/a//b//mu//s//vg/Все доски

Скачать тред только с превьюс превью и прикрепленными файлами

Второй вариант может долго скачиваться. Файлы будут только в живых или недавно утонувших тредах.Подробнее