• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

AI napisze kod za ciebie⌨️

23.11.2024 Krzysztof Nojman

ARCHITEKTURA MEDALIONOWA
W każdej dziedzinie podstawy są ważne, a podstawą budowy Lakehouse  jest podział środowisk na 3 kategorie Bronze Silver Gold. Jeśli się z tym nie zetknąłeś, to warto wiedzieć co dzieje się w każdej z tych warstw?Polecam coś poczytać na ten temat. Medallion architecturePart 4 medallion architecture essentials
DATABRICKS ASSISTANT
Gdzie się nie obejrzę, jest coraz więcej AI. Jest już w Databricksach. Teraz masz pomocnika w codziennej pracy.  Ta funkcjonalność pojawiła się w lipcu, więc jest świeżutka. Jeśli o tym nie słyszałeś, to warto co nieco wiedzieć.Wystarczy opisać zadanie po angielsku i Asystent wygeneruje zapytanie SQL, może wyjaśniać złożony kod lub naprawiać błędy. Asystent wykorzystuje metadane Unity Catalog, aby zrozumieć tabele.Potrafi wygenerować kod SQL lub Python oraz uzupełnić już istniejący. Jest w public preview i jak na razie za darmo, ciekaw jestem, ile za niego policzą? Admin musi go włączyć w środowisku roboczym. Nie jestem pewien co z dostępem, często środowiska są zablokowane i nie ma wyjścia na świat.  Trzeba to sprawdzić.
How do i Enable Databricks Assistant
ZA DUŻO MAŁYCH PLIKÓW
Kiedy Spark zapisuje dane, może stworzyć dużą ilość małych plików, ich ilość zależy od ilości partycji, ale jest to temat na osobny email. Większa liczba plików spowoduje spowolnienie pipelinów, IO będzie bardzo obciążało cały proces. Jest na to sposób OPTYMAIZE I VACUUM. Po niżej link do artykułu, który to ładnie opisuje. Optimize Zordering and file pruningZanim zaczniesz optymalizację, warto wiedzieć, jaka jest skala problemu, na szczęście jest na to rozwiązanie kilka linii kodu pozwoli wykryć te małe problematyczne pliki. 
Detect small files

LIQUID CLUSTERINGJeśli chcesz się pozbyć problemów i nie myśleć o ciągłym sprawdzaniu tych małych plików, to możesz zrobić upgrade tabel i wykorzystać Liquid Clustering. Jest to najnowsza funkcjonalność, więc warto ją sprawdzić zanim zostanie wrzucona na proda. Kiedy użyć liquid clustering?Kiedy filtrowanie jest po kolumnie z dużą ilością różnorodnością kluczy.Kiedy tabela ma nierównomierną dystrybucję danych.Kiedy tabela szybko rośnie i wymaga ciągłej optymalizacji.Tabele z równoległym zapisem.Tabele z nieoptymalnym kluczem partycji.Liquid clustering

W kategorii:Newsletter

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz