• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

AI napisze kod za ciebie⌨️

23.11.2024 Krzysztof Nojman

ARCHITEKTURA MEDALIONOWA
W każdej dziedzinie podstawy są ważne, a podstawą budowy Lakehouse  jest podział środowisk na 3 kategorie Bronze Silver Gold. Jeśli się z tym nie zetknąłeś, to warto wiedzieć co dzieje się w każdej z tych warstw?Polecam coś poczytać na ten temat. Medallion architecturePart 4 medallion architecture essentials
DATABRICKS ASSISTANT
Gdzie się nie obejrzę, jest coraz więcej AI. Jest już w Databricksach. Teraz masz pomocnika w codziennej pracy.  Ta funkcjonalność pojawiła się w lipcu, więc jest świeżutka. Jeśli o tym nie słyszałeś, to warto co nieco wiedzieć.Wystarczy opisać zadanie po angielsku i Asystent wygeneruje zapytanie SQL, może wyjaśniać złożony kod lub naprawiać błędy. Asystent wykorzystuje metadane Unity Catalog, aby zrozumieć tabele.Potrafi wygenerować kod SQL lub Python oraz uzupełnić już istniejący. Jest w public preview i jak na razie za darmo, ciekaw jestem, ile za niego policzą? Admin musi go włączyć w środowisku roboczym. Nie jestem pewien co z dostępem, często środowiska są zablokowane i nie ma wyjścia na świat.  Trzeba to sprawdzić.
How do i Enable Databricks Assistant
ZA DUŻO MAŁYCH PLIKÓW
Kiedy Spark zapisuje dane, może stworzyć dużą ilość małych plików, ich ilość zależy od ilości partycji, ale jest to temat na osobny email. Większa liczba plików spowoduje spowolnienie pipelinów, IO będzie bardzo obciążało cały proces. Jest na to sposób OPTYMAIZE I VACUUM. Po niżej link do artykułu, który to ładnie opisuje. Optimize Zordering and file pruningZanim zaczniesz optymalizację, warto wiedzieć, jaka jest skala problemu, na szczęście jest na to rozwiązanie kilka linii kodu pozwoli wykryć te małe problematyczne pliki. 
Detect small files

LIQUID CLUSTERINGJeśli chcesz się pozbyć problemów i nie myśleć o ciągłym sprawdzaniu tych małych plików, to możesz zrobić upgrade tabel i wykorzystać Liquid Clustering. Jest to najnowsza funkcjonalność, więc warto ją sprawdzić zanim zostanie wrzucona na proda. Kiedy użyć liquid clustering?Kiedy filtrowanie jest po kolumnie z dużą ilością różnorodnością kluczy.Kiedy tabela ma nierównomierną dystrybucję danych.Kiedy tabela szybko rośnie i wymaga ciągłej optymalizacji.Tabele z równoległym zapisem.Tabele z nieoptymalnym kluczem partycji.Liquid clustering

W kategorii:Newsletter

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

Jak zainstalować Python whl na Serverless

15.02.2026 By Krzysztof Nojman

Jak efektywnie korzystać z Databricks Assistant – 5 sprawdzonych praktyk

16.11.2025 By Krzysztof Nojman

Databricks DQX

Jakość danych w Databricks DQX

28.01.2025 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Databricks Klastry
  • Jak zainstalować Python whl na Serverless
  • Jak efektywnie korzystać z Databricks Assistant – 5 sprawdzonych praktyk
  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2026 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz