| ARCHITEKTURA MEDALIONOWA W każdej dziedzinie podstawy są ważne, a podstawą budowy Lakehouse jest podział środowisk na 3 kategorie Bronze Silver Gold. Jeśli się z tym nie zetknąłeś, to warto wiedzieć co dzieje się w każdej z tych warstw?Polecam coś poczytać na ten temat. Medallion architecturePart 4 medallion architecture essentials |
| DATABRICKS ASSISTANT Gdzie się nie obejrzę, jest coraz więcej AI. Jest już w Databricksach. Teraz masz pomocnika w codziennej pracy. Ta funkcjonalność pojawiła się w lipcu, więc jest świeżutka. Jeśli o tym nie słyszałeś, to warto co nieco wiedzieć.Wystarczy opisać zadanie po angielsku i Asystent wygeneruje zapytanie SQL, może wyjaśniać złożony kod lub naprawiać błędy. Asystent wykorzystuje metadane Unity Catalog, aby zrozumieć tabele.Potrafi wygenerować kod SQL lub Python oraz uzupełnić już istniejący. Jest w public preview i jak na razie za darmo, ciekaw jestem, ile za niego policzą? Admin musi go włączyć w środowisku roboczym. Nie jestem pewien co z dostępem, często środowiska są zablokowane i nie ma wyjścia na świat. Trzeba to sprawdzić. How do i Enable Databricks Assistant |
| ZA DUŻO MAŁYCH PLIKÓW Kiedy Spark zapisuje dane, może stworzyć dużą ilość małych plików, ich ilość zależy od ilości partycji, ale jest to temat na osobny email. Większa liczba plików spowoduje spowolnienie pipelinów, IO będzie bardzo obciążało cały proces. Jest na to sposób OPTYMAIZE I VACUUM. Po niżej link do artykułu, który to ładnie opisuje. Optimize Zordering and file pruningZanim zaczniesz optymalizację, warto wiedzieć, jaka jest skala problemu, na szczęście jest na to rozwiązanie kilka linii kodu pozwoli wykryć te małe problematyczne pliki. Detect small files |
LIQUID CLUSTERINGJeśli chcesz się pozbyć problemów i nie myśleć o ciągłym sprawdzaniu tych małych plików, to możesz zrobić upgrade tabel i wykorzystać Liquid Clustering. Jest to najnowsza funkcjonalność, więc warto ją sprawdzić zanim zostanie wrzucona na proda. Kiedy użyć liquid clustering?Kiedy filtrowanie jest po kolumnie z dużą ilością różnorodnością kluczy.Kiedy tabela ma nierównomierną dystrybucję danych.Kiedy tabela szybko rośnie i wymaga ciągłej optymalizacji.Tabele z równoległym zapisem.Tabele z nieoptymalnym kluczem partycji.Liquid clustering |
