Ссылки:
- https://www.postgresqltutorial.com/
- https://www.mysqltutorial.org/
- https://www.sqlitetutorial.net/
- https://www.oracletutorial.com/
- https://github.com/agarcialeon/awesome-database
Задачи:
- https://www.sql-ex.ru
- https://www.codewars.com/?language=sql
Продвинутый MySQL:
- https://www.mysqltutorial.org/mysql-resources.aspx
- https://shlomi-noach.github.io/awesome-mysql/
Инструменты проектирования БД
- https://www.mysql.com/products/workbench/
- https://explain.dalibo.com/
Видосики:
- Плейлисты по разным СУБД: https://www.youtube.com/c/SQLDeveloperBI/playlists
- https://www.youtube.com/playlist?list=PLY7PmJJFH5nT-lbFKxfbp3rw5BBuq5Azo
Литература:
- Томас Кайт. Oracle для профессионалов
- https://postgrespro.ru/education/books/dbtech
- Алан Бьюли. Изучаем SQL. - про MySQL
- К. Дж. Дейт. Введение в системы баз данных
- Database Systems: Design, Implementation, & Management (Carlos Coronel, Steven Morris)
Прочее:
- https://dbdb.io/
- https://db.cs.cmu.edu/
- https://www.youtube.com/channel/UCHnBsf2rH-K7pn09rb3qvkA/playlists
- Сравнение диалектов SQL: http://troels.arvin.dk/db/rdbms/
- Как БД работают изнутри: https://habr.com/ru/company/mailru/blog/266811/
Ссылки для альтернативно мыслящих:
- https://www.w3schools.com/sql/
- https://learnxinyminutes.com/docs/sql/
- https://metanit.com/sql/
- http://sql-tutorial.ru/
- https://metanit.com/nosql/mongodb/
FAQ:
Q: Нужно ли знать английский?
A: Нет.
Q: Что лучше, SQL или NoSQL?
A: SQL.
Q: Вопросы с лабами и задачками
A: Задавай, ответят, но могут и обоссать.
Q: Помогите с :ORM_нейм для :язык_нейм
A: Лучше спроси в тредах по конкретным языкам.
Q: Где хранить файлы?
A: Не в БД. Для этого есть объектные хранилища, такие как Amazon S3 и Ceph.
Здесь мы:
- Разбираемся, почему PostgreSQL - не Oracle
- Пытаемся понять, зачем нужен Тырпрайс, если есть бесплатный опенсурс
- Обсуждаем, какие новые тенденции хранения данных появляются в современном цифровом обеществе
- Решаем всем тредом лабы для заплутавших студентов и задачки с sql-ex для тех, у кого завтра ПЕРВОЕ собеседование
- Анализируем, как работает поиск вконтакте
- И просто хорошо проводим время, обсирая чужой код, не раскрывая, как писать правильно.
Поехали!
Это чисто утилитарный тред, здесь пишут, когда есть вопросы, а не когда хотят початиться.
У этого треда активность как у любого другого на этой доске - околонулевая. Даже если человек задает вопрос, этот вопрос может висеть день и больше. Зато соседний тред, в котором айтишники могут повнимаеблядствовать, +- живой.
Ну ты вообще.
SQL - это Structured Query Language. Есть в природе база в которой не используется язык запросов и у запросов нет никакой структуры?
Вот тебе и вывод: иметь язык запросов с понятной структурой лучше чем не иметь.
>поясните для тупых
Это личное мнение какого-то петуха. Всё зависит от конкретного сценария использования. Есть сценарии когда лучше взять SQL и есть сценарии когда NoSQL лучше. Надо разбирать по каждому отдельному примеру. У меня есть и такие проекты и сякие. В том числе и NoSQL-проекты. И никто не умер от этого. Ничего такого сверхкритического нет. Ну да, в чём-то удобнее, а в чём-то неудобнее. В чём-то лучше, а в чём-то хуже. Где-то быстрее, а где-то медленнее. Можно до бесконечности обсасывать "ааааа, а вот у вас запись на 10% медленнее!" Есть случаи, когда одновременно и NoSQL и SQL в одном проекте используется, один для аналитики, а вторая БД для скорости. Такое тоже бывает.
>Есть случаи, когда одновременно и NoSQL и SQL в одном проекте используется
Это когда основная БД нормальная реляционка но тимлид пропихнул в проект монгу для одного сервиса чтобы у себя в резюме потом написать NoSQL, MongoDB
Кто-нибудь может объяснить мне, какие задачи у этой ебалы? В моей голове, если хочется поиграться локально с данными (будь то для локальной разработки, или же если ты аналитик и у тебя адхок задача) - есть Pandas для питонистов, есть SQLite для сиквела. Если же надо большие данные - есть жирные реляционные БД, есть всякие распределенные решения на мапредюсе, всё это можно захостить в облаке или онпрем. А вот этот класс инструментов - нафига он?
У меня есть ощущение что это вышло из DS, где люди так или иначе работают на жирных ноутах и модельки локально обучают, но ХЗ, я не машобщик.
1920x1080, 0:11
А чего ты порвался? У того, как ты выразился "петуха", хотя бы мнение какое-то было. А хули проку с твоего абзаца воды? Пук среньк, так-то да, а так-то нет.
Дженерик переливание из пустого в порожнее, один в один как жпт кал. Когда надо что-то высрать, но ничего конкретного ты не знаешь. Только жпт так запрограммирована чтобы всегда высирать ответ, а ты нахуя тут насрал?
то, что ты обосрался
Да не хочу я в ваших тупорылых спорах участвовать. Рассказывать по делу это с пеной у рта доказывать, что nosql пиздец хуже чем sql и вообще nosql нигде не применяется? Да иди ты нахуй и все кто доказывают эту хуйню - идите нахуй. Есть примеры когда nosql + sql используются одновременно, есть даже такой паттерн, называется CQRS:
https://highscalability.com/sql-nosql-yes/
https://www.thereformedprogrammer.net/ef-core-combining-sql-and-nosql-databases-for-better-performance/
Обе бд имеют право на существование.
Не обязательно так. У нас сейчас на проде одного довольно ебучего легаси продукта MySQL и Монга. Изначально был только мускуль, но продукт очень быстро разросся и требовал HA, так что мускуль заскейлить под эти требования не получалось. В итоге конфиги остались в мускуле, а основные OLTP в монге. Это в принципе неплохо работает.
Опять какая-то вода, бессмысленный мусор. Право на существование блядь какое-то, филосов стекломойный.
Если человек спрашивает что выбрать, то выбирать ему нужно реляционную базу. Без вариантов. Потому что данные будут в целости, сохранности и в нормальном виде. И перейти с реляционной базы на любую другую - легко. А вот обратно - хуй.
А рассказывать про какие-то охуительные исключения можно до бесконечности, только практической пользы от таких рассказов нихуя нет.
>Если человек спрашивает что выбрать
Выбирается в зависимости от задачи. Взвешиваются все плюсы и минусы. У меня есть проекты на nosql, там где сложные запросы не требуются. Никто не жаловался. И есть проекты на постгре. Если ты не можешь сделать на nosql - проблема в тебе и в кривых руках растущих из жопы.
Согласен, все по факту.
Выбирается постгрес потому что он способен решить большинство задач, и для него достатоно иметь немного кривые руки растущие из жопы. Он не даст сделать полной хуйни и обойдет за тебя большинство подводных камней.
Постгрес - вариант беспроигрышный. Пишешь в постгрес по умолчанию, а потом уже взвешиваешь плюсы и хуюсы и решаешь что делать дальше. Спойлер: в 99% случаев нихуя делать и не надо.
>где сложные запросы не требуются
Сперва не требуются, а потом внезапно хуяк и потребовались. Стартап выстрелил, так иногда бывает. И начинаются анальные пляски с кучей баз каждая в своем микросервисе, по сети летают данные там, где хватило бы обычного запроса на десяток джоинов. В какой-то момент происходит пиздос, данные разъезжаются и вместо холодильника с маркетплейся приезжает коробка дилдаков. Зато не sql.
Когда стартап выстреливает - пока мвп лениво крутится в проде набирается команда и переписывается всё чуть ли не с нуля, но по уму. На стадии мвп и поиска инвесторов очень многое, как в коде, так и в инфре нахер не нужно и не делается.
И сделать выгрузку из одной базы для переноса в другую - обычная задача, сто раз уже пройденная многими тысячами разрабов с написанием гигабайтов гайдов.
Твои бы слова да в авито. Команду так просто не соберешь, если ты не гугл. Главкабан не понимает, почему надо просрать кучу бабла и получить точно такой же продукт. Чтобы что? Продукт уже есть, надо набрасывать новые фичи с лопаты.
Ой бля хорош нудеть нахуй. Ты как бабка авдрухчо. Зачем писать а вот если то произойдёт, то чё тогда? Ну произойдёт и произойдёт. Что-нибудь придумаю, поставлю вторую бд или дата лейк замучу, или будет какая-нибудь pre-aggregate функция. Ситуаций из которых прям никак не выкрутиться почти не бывает. Нуууу блять всё можно грамотно обыграть, это не конец света.
>Нуууу блять всё можно грамотно обыграть
И поэтому все всё грамотно обыгрывают и у всех все заебись.
Что стоит выбрать и почему? Есть ли преимущество у таблиц с исключительно фиксированной длиной всех колонок?
Умею выполнять простые-средние SQL-запросы.
Мне нужно составить знание что я должен делать, куда смотреть, что вводить, какими критериями руководствоваться, какими инструментами пользоваться, чтобы научиться анализировать и оптимизировать работу с mysql. Книги, материалы, темы может кто-нибудь подсказать для этой ситуации?
Самая нормальная
сам тоже джун, пока смотрю этот плейлист https://youtube.com/playlist?list=PLUaB-1hjhk8FE_XZ87vPPSfHqb6OcM0cF&si=_HI7RFCllbmwDXBN. вроде норм, только видео все на английском, если с ним проблема, то яндекс озвучивание видео в помощь
Решил тут sql академию пройти и залип на задачке с insert
Добавьте новый товар в таблицу Goods с именем «Table» и типом «equipment».
В качестве первичного ключа (good_id) укажите количество записей в таблице + 1.
3й аргумент можно просто указать, но хочется его получить, а я не пойму как.
Написал решение:
insert into goods (good_id, good_name, type) values(
count(good_id) + 1,
'Table',
(ifnull(
select max(good_type_id) from GoodTypes where good_type_name = 'equipment'
group by good_type_id, 0)))
Думал через селект выдернуть можно, не получилось, попробовал через ифналл, но и он не сработал.
Что можно применить?
700x700, 0:23
>sql академию
>В качестве первичного ключа (good_id) укажите количество записей в таблице + 1.
Охуительная академия.
Что не так? Порядковый номер - это вполне реальный натуральный ключ. Или ты предлагаешь заменить натуральный ключ автоинкрементом? Почему?
320x240, 3:19
>натуральный ключ
Ты совсем ебанулся? Что за шизофазию ты несешь?
Какой он нахуй натуральный если вычисляется на лету, да еще и зависит от состояния ВСЕЙ таблицы, которое меняется постоянно?
Вот удалить запись с айди, например, три. И кто тут теперь вполне натуральный, кто тут блядь порядковый? Кто пятый? Кто десятый? А новый порядковый номер какой будет? Такой же как предыдущий?
И это я не говорю про вставку записей. Там же блядь гонка будет перманентная. Каждый долбоеб пересчитывает записи, а пока он считал там новые добавились.
Даже не знаю с кого я больше охуеваю. С клоунов-академиков или с клоунов-двачеров.
Да ладно, все такими были. Сейчас он разберется и поймет свою ошибку. Или не поймет и пойдет работать в яндекс, там умные не нужны.
Что у вас спрашивают на собесах? Что сами спрашиваете?
Надо собеседовать маслят накидайте что-нибудь.
С меня как обычно нихуя
По описанию логической модели данных напиши создай (напиши в DML) таблицы в 6NF, затем 5NF вьюшки для "основных" таблиц, и пару-тройку процедур для ввода данных. Создай индусы для процедур. Если осталось время, то опиши роли и права для администратора, пользователя, и приложения.
>таблицы в 6NF
Зачем это? Выше 3нф редко бывает нужно на практике, а чаще всего одну жирную таблицу вообще дробят на много маленьких и хранят жсоны в базе, потому что так быстрее работает и ниибёт.
>Выше 3нф редко бывает нужно на практике
Потому что на практике большинство таблиц в 3NF на самом деле удовлетворяют 5NF или 6NF.
>одну жирную таблицу вообще дробят на много маленьких и хранят жсоны в базе, потому что так быстрее работает и ниибёт.
Что работает быстрее?
спасибо анон, но звуит душновато. Хотя тот же 6NF довольно часто используется, но я б не стал так вопрос формулировать.
Я обычно спрашиваю, как работает жоин на физическом уровне, чем отличается кластерный индекс от не кластерного. Рисовать таблички не заставляю, могу спросить про CDC/SCD.
Просто учебный пример, потом генерация id будет, надеюсь
я имeл в виду про hash\loop\merge
Зачем? У промышленных субд внутри происходит ебаная магия с патентованными алгоритмами. Алсо сама концепция декларативного sql говорит, что тебе должно быть похуй на реализацию. Вопрос из серии "к чему бы еще доебаться".
Туда же вопросы про кластерный-некластерный индекс. Все индексы некластерные, блять, а кластерный только один по id, нахуя уделять ему столько внимания?
буднешь смеется, мне не давно началит рассказывать что кластерный ПОТОМУШО ДАННЫЕ ХРАНЯТСЯ В НЁМ КЛСТЕРОМ.
Вот есть древовидная структура у меня в базе
Ко мне приходит последовательность зависимости от корня к листу. Как проверить что эта последовательность есть в бд?
Не понимаю как использовать тут рекурсивный запрос
Час потужной мысли и гугления, теперь я вывожу путь от листа до корня в массив и возвращаю
В целом - это уже что-то
дед>папка>ребенок
Такая последовательность дается на вход, нужно понять, точно ли папка от деда, ребенок от папки
Не совсем понял как where это проверит
Мне же нужно каждого parentа проверить динамически
Я вижу два стула.
1. Рекурсивно построить полные пути от ребенка до самого далекого родителя, потом поискать среди полных путей исходный.
2. Разбить исходный путь на пары (родитель,потомок) и сделать джоин с таблицей связей в бд.
По идее, второй будет работать быстрее.
Дк сджойни цепочкой деда на папу, папа на ребёнка, если EXISTS(), то всё ок
Помню из-за какого-то сверхразума поймали коллизию счётчика айди мммм найс
Ну ты тугой канеш.
Представь что твоя последовательность будет состоять всего из одной ноды. Вот надо тебе найти есть ли в таблице "дед". Как ты будешь эту ноду искать? Дерево будешь рекурсивно строить? Ясен хуй нет.
Ну так твой поиск нескольких нод прекрасно сводится к поиску каждой из этих нод по отдельности. Нам нужно найти что в таблице есть "дед", и в таблице есть "папка", и в таблице есть "внучек". Зачем для этого какие-то рекурсии и деревья?
Можно жсонами всё хранить на норм ссд, изи. Юзать МуСКУФ в 2к24 - это кринге, чел.
> Можно жсонами всё хранить на норм ссд, изи.
Это тоже база данных. В определении понятия "база данных" нет ни слова о том, что это должна быть клиент-серверная многопользовательская поебота с таблицами, форенкеями, индексами, транзакциями и журналами.
> Юзать МуСКУФ в 2к24 - это кринге, чел.
Согласен.
Так размер этого дерева может быть разным, динамически формировать запрос предлагаете?
Или покажите пожалуйста пример, если не сложно
У себя я реализовал через возврат путей и поиск нужного
>динамически формировать запрос предлагаете?
А можно как-то по другому запрос формировать? Дерево твое как в этот запрос попадает? Статитески что-ли?
Последний раз объясняю.
У тебя есть последовательность:
1 <- 22 <- 45 <- 75.
Эту последовательность можно представить в виде пар (id, parent_id):
(1, 0), (22, 1), (45, 22), (75, 45).
Нужно просто проверить что в таблице есть все эти записи. Есть записи - есть последовательность, если какой-то не хватает, то и последовательности нет.
>95% случаев хватит базы данных работающей как бекап оперативной памяти, т.е. очень очень простой
Согласен, у нас редис на 200 ГБ и пара петабайт S3. Мы тексты обрабатываем
Big data уже давно стало скверным баззвордом... Указывай конкретные технологии.
К слову, в данных ты также можешь админить, только это называется DevOps. Будешь хорошо устроен если разберёшься с K8S и изучишь какой-нибудь Go.
Ну или разрабом - учи SQL, Java/Python/Scala, Spark, Kafka, Flink, Airflow, ...
В принципе это всё - старый-добрый SQL, только одетый в модные шмотки.
Объясните мне пожалуйста почему у mysql такая конченая реализация репликации по дефолту?
Как будто я блять в какие-то 90-е вернулся.
Реплика мастер-мастер, было пару случаев когда ебанули внезапно електрику и когда внезапно ебанул у сервера второе питание.
Суть следующая - у этой хуиты слетает каретка sql потока, причем по логам бывает уебывает куда-то за пределы файла. В реальности оно наебнулось на какой-то одной операции, но ты хуй найдешь на какой потому что файл полубинарный.
Почему не сделать функцию рекавери слейва с мастера и его локом?
Почему не сделать операции построчно в файле и писать вместо позиции каретки в файле как ебланы - номер строки случилась хуйня чтобы эту хуиту можно было дебажить, т.е. сделать операцию и скипнуть ошибку?
Я уже молчу что можно было сделать в теории полное автовосстановление по парным/непарным индексам.
В мире есть какие-то способы/аддоны как совладать с этой хуйней?
Есть таблица datetime-цена.
Хочу в результате запроса получить в одной строке цену за определённое время пятницы и за определённое время следующего понедельника.
Делаю
with (Номер недели, цена за требуемое время пятницы),
(Номер недели минус один, цена за требуемое время понедельника)
select join on номер_недели=номер_недели
Это нормальный способ, или уебанский и есть что-то проще?
Ну а как надо-то?
Возник вопрос. Есть ли какая-то позиция в сфере работы с БД где необходимо просчитывать что-то математически? Используя дискретную математику, реляционную алгебру и прочие разделы математики.
Подскажите плиз, если слышали о таком или знаете как двигаться в этом направлении.
Надо план смотреть.
Сходу кажется, что ты 2 раза будешь читать таблицу, сначала выбирая пятницу, а потом - понедельник. И потом делаешь join.
Возможно, можно сначала сделать фильтр на пятницу и понедельник, чтобы база в один проход выбрала эти данные, а потом с ними работать.
Тут можно сделать join, а можно и оконку попробовать прикрутить.
>работы с БД где необходимо просчитывать что-то математически
Data science? Там, правда, работы с самой СУБД практически нет, часто данные могут быть в виде файлов, например. Ну и анализ ты будешь делать при помощи библиотек на Python в Jupyter notebook.
Возможно, продвинутые аналитики тоже считают что-то математически, не знаю.
Знакомый работает синьором в банке тоже аналитиком. Говорит нужны джуны, работа пизда скучная, но перспективная
Написал список тем типа sql, dwh, greenplum, python, что нужно знать
За месяц прочитал в инете про все это
Взяли туда джуном после скрининга и тех. собеса
Не, я имею ввиду всё-таки использование в БД
Я хотел в ds попасть, но я великовозрастный вкатун, которого даже не рассматривают
Имел в виду про математическое моделирование БД, оптимизации этих моделей (про подобное краем уха слышал)
Не знаю, о чём ты. Речь про построение модели данных? Звезда, 3NF, Data vault.
Этим занимаются архитекторы, по крайней мере выделением общих принципов. Аналитик обычно может разве что разложить бизнес сущности по этим принципам - например, абонент это сущность, а регион это SCD и так далее.
Ну и в целом там какой-то сложной математики нет.
Понял, благодарю
>где необходимо просчитывать что-то математически?
...в пайплайнах? Ну очевидно же! У тебя есть некоторый набор данных - логи, xml, pdf, что угодно. Они же блять не сами по себе загрузятся в базу данных? Вначале их надо обработать и что тебе мешает во время обработки добавить своих магических супер-пупер алгоритмов? А потом они уже уйдут в бд, delta lake, отчёты или куда-то ещё дальше.
Или их по правильному нужно хранить в нереляционных базах вроде MongoDb
>хранить изображения в бинарном поле в mssql?
А нахера хранить их в базе данных? Какой в этом смысл? Ты конечно можешь хоть всё собрание сочинений Дюма залить туда. Но я исхожу из практических соображений. База данных она же блять ресурсы потребляет. И не абы какие. Все эти индексы, хранение, и прочее это всё стоит денег. Ты же не будешь под бд брать хостинг с hdd? Хороший топовый диск стоит невъебенных денег, около 3 тысяч баксов в месяц за 80K IOPS диск 512 гигабайт. Ну и плюс, это всё надо масштабировать, реплицировать, и так далее. А как быть если из-за твоих картинок запросы медленнее работают? Ну короче, что там такого супер важного, что эти картинки нельзя поместить в какое-нибудь объектное хранилище или обычный hdd-диск?
Вроде предпочтительно хранить ссылку на изображение, а сами изображения на диске.
Хотя, думаю, если объёмы небольшие, то всё равно где.
Никаких подводных. Выносишь картинки в отдельную таблицу Pictures(id,data), делаешь для нее партиционирование на отдельный диск, получаешь консистентность из коробки. С файловой системой ты рано или поздно проебешь бекапы и получишь ситуацию с ссылками на файлы, которых нет.
>А как быть если из-за твоих картинок запросы медленнее работают?
Перестать быть дебилом с орм головного мозга. Почитать, как работает бд и почему select * from table - это плохая идея.
Я не он, но не понял.
Если для картинок отдельная таблица, то оно не должно напрямую влиять на запросы бизнес-логики и прочего.
Если там оно всё в одной таблице, то будет влиять, если только БД не колоночная, которая умеет читать только нужные поля.
Это ответ на другой вопрос. А я спрашиваю ЗАЧЕМ В ПРИНЦИПЕ хранить картинки в бд. Не технический вопрос "сработает ли", а зачем? Хуй с ним, ладно. Пускай ты прав, всё масштабируется, работает, запрашивается. Ииииииии? Что мне мешает не ебать мозги, а хранить только ссылки. За тот вес, который занимает одна картинка я могу... даже не знаю... записать 500 текстовых записей?
Ну, будет ACID, не сможешь записать ссылку без картинки или картинку без ссылки.
И прочая консистентность, которую даёт СУБД.
Окей. И ради какого-то маааааааленького плюсика, ради отсутствия потенциально битых ссылок можно пожертвовать всем остальным: большую бд сложнее обслуживать, головняк при переезде на другую бд, плюс как ты собираешься раздавать эти файлы из базы данных? Открывать поток на стрим что ли? Если бы это была такая охуенная идея, пол-интернета давно бы хранило в бд. Но почему-то вместо этого выбирают cdn.
А, я мимо проходил, ОП идеи не я.
На тему best practice - аргумент так себе, люди в индустрии просто копируют чужие подходы в основном и всё.
Тема провокационная. С одной стороны - зачем использовать СУБД? С другой стороны - почему бы не использовать.
Реальный ответ тут только в стоимости ресурсов. Железо под шуструю OLTP будет дороже, чем под хранилку картинок, которая может быть медленнее.
Но, опять же, думаю, есть варианты настроить хранение изображений на отдельном железе, нужен только толковый админ.
Ты задачу уточни. Тебе нужен цдн с раздачей охулионы терабайтов в секунду? Или нужна консистентность, чтобы важный пдфник с договором не проебали? АСИД - это не маленький плюсих, это охуительный плюсище.
При чём тут оно?
Минутная гуглёжка выдаёт tablespaces для Постегрса.
Ну и нюансы, как всегда, возникают в процессе.
Суть в том, что можно разные таблицы хранить на разных дисках, блобы - на медленном хдд, индексы - на быстром дорогом ссд. Все происходит внутри субд, для тебя это обычный инсерт/апдейт, только с блекджеком и транзакциями. Для хранения пдфников в базе отличная штука.
>зачем использовать СУБД?
Действительно. Зачем использовать СУБД, если есть дата лейки для этого. Ну хочешь ты хранить картинки, пдфки - нахуй тебе СУБД? Возьми delta lake, там будет такой же acid. Прогоняешь по пайплайну и делаешь чё хочешь - хочешь нейронки обучаешь, хочешь анализ делаешь. СУБД изначально рассчитана на структурированные данные, там не предполагается, что ты начнёшь пихать емейлы или ещё какое неструктурированное говно в базу.
>>322307
>важный пдфник с договором не проебали?
Смотри выше. Hudi/Iceberg/Delta Lake у них у всех есть acid. К тому же, для договоров имеет смысл использовать блокчейн на базе hyperledger fabric вместо стандартной бд. Я могу привести с десяток примеров таких стартапов: DriveChain, Euroclear, страховая компания Allianz, банк Норвегии и так далее.
Да, сейчас бы вместо одной СУБД развернуть lakehouse на кластере кубера с каким-нибудь S3 или Хадупом, сверху Айсберг, обмазать блокчейном и нейронками.
Мы поняли, что ты следишь за баззвордами.
>Мы поняли, что ты следишь за баззвордами.
Окей, иди нахуй тогда. Тебе предложили самый простой вариант - постить ссылку, ты недоволен.
ХОЧУ ХРАНИТЬ ФАЙЛЫ В СУБД
@
НУ ПОСТЬ ССЫЛКУ
@
А ВДРУГ ССЫЛКА БИТАЯ, МНЕ ACID НУЖЕН
@
НУ ДАТА ЛЕЙК ТОГДА
@
НЕТ ФАЙЛЫ ВАЖНЫЕ
@
НУ БЛОКЧЕЙН ТОГДА
@
МНЕ НЕ НРАВЯТСЯ ТВОИ БАЗЗВОРДЫ, МНОГО МОДНЫХ СЛОВ ГОВОРИШЬ
1.5 года работал в DWH в банке риски - Oracle DB/MySQL.
1 год работал в разработчиком в кредитном конвейере в банке - Oracle DB.
2 года работал разработчиком в международном DWH - Oracle DB.
2.5 года уже работаю старшим инженером в банке - Greenplum/Postgresql.
Выгорел просто пиздец, ничего не хочется. Последнее время с петухоном работаю, это радует. Но хочется уйти в какой нибудь Golang. Что посоветуете?
У меня пара вопросов:
1) Как файл должен проебаться в файловой системе и не проебаться в бд. Если на диске наебнется сектор, то файл наебнеться внезависимости от того как он храниться? Или в бд (например mssql) есть какой-то механизм рекавери?
2) Что по производительности в двух случаях? Насколько я понимаю что файловая система будет быстрее.
У меня условная задача может на (всего-то) пару тысяч картинок которые желательно таки не проебывать как и в принципе любой файл.
А чому выгорел? Заебывают? Я бы наоборот в дата-жирок хотел из копро-аналитики перекатиться, начал вот эирфлоу по вечерам дергать хаха
Меня как раз заебывают аналитики. Мы пилим один из слоев данных и мне приходится из sql-говнокода аналитиков делать пайплайны. Очень рутинные и слабоавтоматизированные приседания.
Часть с airflow 2 как раз самая интересная в работе. И много где катируется, полезный опыт. Даги руками не пишем, кстате, автоматически сделали раскатку из dbt-проекта.
Когда ты хранишь данные в нескольких местах, перед тобой встает проблема консистентности. Пока ты в одной бд, этим занимается сама бд, ты себе мозги не ебешь. Иначе тебе придется заморочиться с распределенными транзакциями, это много лишней работы из ничего. Ты сохраняешь файл на файловый сервер и ссылку в бд, файловый сервер возвращает ошибку таймаут, твои действия? Запись есть в бд, а на фс файла нет, как ты будешь синхронизировать информацию?
мне пох че там грузили
Над БД у тебя есть приложение, верно? Приложение пусть проверяет наличие файла. Если отсутствует отсыпает пользователю ошибку и удаляет саму строчку в БД. Либо повесь на переодический процесс. Чтобы синхронизировать файлы и строки в базе. Обычно это не является проблемой.
Вооот. Уже появился демон, который надо написать и отладить. А потом к нему написать ямл и тоже отладить. А потом написать метрики, ты понел. На ровном месте система усложняется просто потому что.
У меня прямо сейчас уже такая хуита - таблица с пикчами это уже по сути сорт оф справочник, то есть в другой таблице хранятся какие-то данные и перечисление айдишек картинок.
И при добавлении основной записи (с картинками) сначала добавляются картинки (и опционально чистятся старые), берутся новые айди и добавляются в основную таблицу. Если айди пикч не получены - исключение.
>>322945
>>322971
Практически все тоже самое будет при работе с фс, никаких демонов здесь не нужно, пускай приложение другим потоком дергает дохлые не рабочие сектора хдд до таймаута фс.
У тебя уже есть рабочее решение. Ты хочешь его сломать. Зачем? Работает - не трогай.
>есть Pandas для питонистов
Пандас и перфоманс это смешно, алсо это психическая нагрузка соединять несколько источников через эту библиотеку, когда как в duckdb можно одним sql-запросом поженить csv, паркет, таблицу из постгреса и выплюнуть ее и в пандас, и в поларс, и обратно в базу, и вообще куда угодно.
Да мне перепилить нехуй делать.
Вообще мне интересна именно мат часть - насколько я сосу по производительности? Есть какие-то тесты минимальной реализации?
>когда как в duckdb можно
А кому он нужен? В серьезных проектах его нет либо его не затащить, т.к. нет экспертизы эксплуатации и разрабов не найдешь. Даже тупо развернуть где-нибудь на вируталке уже проблема т.к. нет нужных знаний и опыта использования
Это когда в базе данных всё чотка. Одна таблица не противоречит другой. Все ID сопоставимы между таблами.
Вообще типы данных должны быть хотя бы корректными, а не даты в строках и идентификаторы с дробной частью.
неужели так кто-то делает?
Иногда это целесообразно, но черезвычайно редко. Например, мы у себя в залупе хадупе храним cob_date как стрингу. Ибо это дата партицирования. Так нам удобнее хранить в YYYY-MM-DD. Все в банке знают что это партиция.
Ты чо такой дерзкий?
И какой порядок? Это как оптимизатор решит
Надо уметь читать план запроса.
Может я от жизни отстал и это уже нинужно? Какой сейчас инструмент используют для доступа к различным бд в одной программе, какой-нибудь DBeaver? Нужно PostreSQL, MSSQL, MySQL, Oracle, Sybase - работаю с разными вендорами да
Обычно DBeaver. Драйвера ставишь под нужную базу в настройках подключения и всё.
Dbeaver наше всё.
Да их просто заебал хадуп.
Исследование данных для ДС должно быть быстрым. Нет заранее составленного плана. Нет алгоритма.
Алсо есть еще один очевидный трюк: если скачать 1/100 данных из прода взятую истинно случайным образом, то механика создания модели и ее результаты будет такие же. Просто ее нужно будет в конце доучить всеми имеющимся данными
> Polars, Dask, Ray, DuckDB, и т.д.
Что за нонейм кал?
> Кто-нибудь может объяснить мне, какие задачи у этой ебалы?
Очень быстро. Очень. Быстро. Можно на одной машине обрабатывать 100к реквестов/сек или даже 500к. Нахуя мне любые другие sql или какие-то монги если они в 100 раз медленнее? Многие запросы на обычных бд бессмысленно выполнять, ибо производительность никакая, конечно это связано с лм нейронками и обработкой бихдаты.
Разделение на микросервисы тоже в тему - огромные БД с огромными возможностями уже не нужны так как раньше, логика разделена, огромным кол-вом говнокода ничего не засирается, быстрота, надёжность, примитивность, все в плюсе.
Жди ещё больше развития этой темы, в будущем нахуй ничего не нужно будет что-то кроме лмдб и аналогов.
мимо на лмдб
В мире есть не только OLTP, есть ещё OLAP и прочие data/grabage/lake/house решения.
Каво, блядь? Сам-то понял что высрал? Всё это работает на обычных "таблицах", на той же лмбд твоих олапов построено чуть больше чем дохуя. И в каждой из реализации, кста, работают транзакции.
Охуеть, а внутри всё на C написано.
Выкини свою LMDB, gcc/clang - это всё, что тебе нужно.
Вот это ты эксперт.
>пук
Если ты ничего не понял, ещё не означает. что несвязное.
Я у тебя спрашиваю, эксперт, тебе надо построить классическое аналитическое DWH, в котором будет ingest, модель данных, datamart слой, куда будут ходить аналитики и прочие BI-щики чтобы писать свои аналитические запросы.
Жду от тебя описания решения на основе LMDB.
Просто берёшь и строишь, ты, блядь, совсем даун что ли? Неужели тебе безумно сложно представить как работает векторная индексация в многомерных массивах?
Чел, если ты такой даун что не понимаешь как подобное работает - тебе не стоит вообще об этом рассуждать и что-то там кукарекать про бд. Это не твоё.
>Просто берёшь и строишь
Что и требовалось доказать.
Я говорю, конкретно описывай решение, компоненты, на каких платформах работают, интеграции с другими системами, стоимость, сроки внедрения.
Ничего ты не расскажешь, видно, что ты в этом треде прямо сейчас узнаёшь, что работа с данными - это не только база в микросервисе. Ничего, просвещайся.
Очнись, вкатун, ты маркетинга нажрался. Абсолютно все аналитические запросы отдаются команде которая работает с БД, она и пишет для этого апи. Никакие блщики и аналитики своими руками с БД никогда работают и не будут работать, не мечтай о доступе к бд.
Конечно я понимаю что ты вкатун и никогда с бд не работал, но можешь поверить мне, любые аналитические запросы не занимают больше 5 строк кода.
>Если ты ничего не понял, ещё не означает. что несвязное.
Перечитай еще раз. И прекрати позориться.
Позоришься тут только ты, вкатун, фантазируя про великие OLAP системы, которые кто-то годами очень сложно интегрируют, лолд.
В реальности почти вся аналитка это полтора запроса к любой бд. Притом эти запросы можно оптимизировать как угодно, в отличии от написанного кем-то говна.
Вкатуна ты в зеркале увидишь.
Пока вижу от тебя только общие слова.
В следующем сообщение ты описываешь, хотя бы верхнеуровнево, схему DWH на LMDB, c DM слоем для аналитических запросов, или ты обосрался, хотя это и так было изначально очевидно.
Вкатун, ещё раз тебе говорю, слушай внимательно. Если нужна аналитика - ты ПРОСТО берёшь и ПИШЕШЬ на бекенде все нужные запросы к бд. Всё. Просто берёшь и пишешь.
Для тебя это сложно потому что ты вкатун, понимаю тебя, но писать код аналитики в бекенде проще чем работать с какой-то обосранной бд с своим синтаксисом и своими проблемами, которая написана наверняка на другом языке. Всё это нахуй никому не всралось.
И да, вкатун, ты наверное не в курсе, но все dw и прочий шизокал работают поверх обычных субд и все из них могут работать с внешними хранилищами. Просто берёшь и подключаешь kv хранилище к любой OLAP системе. Но т.к. ты в катун, ты даже помыслить об этом не смог, да, ну не фантазируй больше, штош...
>слушай внимательно
Так что слушать, ты опять хуйню написал, быкендер. У тебя ограниченный кругозор технологий и дальше своей поляны ты видеть неспособен.
>Если нужна аналитика - ты ПРОСТО берёшь и ПИШЕШЬ на бекенде все нужные запросы к бд. Всё. Просто берёшь и пишешь.
Вот это ты эксперт. То есть то, что информация раскидана по разным СУБД, а каноничная архитектура подразумевает по базе на сервис, тебя не смутило. И аналитический запрос у тебя по сети через ДБлинки будет тянуть данные за периоды вроде года. Вот так архитектура уровня /pr.
Это уж я молчу, что на проекте может быть много разных систем, не связанных между собой, с которых надо тянуть данные.
Опять же, если даже предположить, что "эксперт" вроде тебя разрешил делать аналитику прямо в сервисах, то запуск отчётности вместе с пиковой нагрузкой положит твою систему к хуям.
>Просто берёшь и подключ
Примеры в студию, давай.
Вот интеграции CH - там нет: https://clickhouse.com/docs/en/integrations
Упс.
Ну ладно, давай посмотрим просто FDW для PostgreSQL: https://wiki.postgresql.org/wiki/Foreign_data_wrappers
Ох, тоже нет, ну ладно. Хотя и GP тогда тоже пролетает.
Ну и так далее. Примеры интеграций в студию.
P.S.: поражает, как каждая web-monkey считает себя экспертом во всём, научившись писать CRUD-сервисы.
Зачем ты его кормишь? Это же эксперт уровня епам.