• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Jak inkrementalnie ładować dane z Raw ▶️

23.11.2024 Krzysztof Nojman

W tym wydaniu:
Autoloader
Unity CatalogDaft vs Spark
Architektura medalionu
 DATABRICKS AUTOLOADER 
Może się zdarzyć, że próbujesz załadować dane z warstwy raw. Zastanawiasz się jak będziesz procesował dane inkrementalnie? Pliki codziennie wpadają do folderów w storage account. Za każdym razem ich ilość może być inna. Jak już je załadujesz to coś trzeba z nimi zrobić przecież nie mogą być w tym samym folderze do którego będą wpadać nowe pliki. Jedna z metod polega na przeniesieniu plików do innego folderu (np processed). Takie rozwiązanie ma swoje wady, a co jeśli będziesz musiał je przetworzyć jeszcze raz, trzeba przenieść je z powrotem do normalnego folderu i włączyć przetwarzanie. Jest z tym trochę pracy. 
Jest na to lepsza metoda = AUTOLOADER. 

W skrócie jest to streaming, który wykryje nowe pliki, dodam że jest on na tyle sprytny, że przetwarza pliki tylko raz. Ma kilka bardzo ciekawych opcji.Wspiera różne źródła.Amazon S3 (s3://)Azure Data Lake Storage Gen2 (ADLS Gen2, abfss://)Google Cloud Storage (GCS, gs://)Azure Blob Storage (wasbs://)
Każde uruchomienie jest rejestrowane, jeśli proces zostanie przerwany to Autoloader wznowi go od ostatniego przetwarzania. Dzięki temu jest odporny na awarie.  Kolejną jego zaletą jest wykrywanie schematów, jeśli chcesz to możesz automatycznie zmienić schemat tabel delta w bronze, tym procesem zajmie się Autoloader. Cały proces jest konfigurowalny, słowo klucz to cloudFiles, polecam zajrzeć do dokumentacji żeby nie ominąć żadnej ważnej opcji. Jest to solidne narzędzie sprawdzone na niejednej produkcji. 
What is Auto LoaderAuto Loader options
DATABRICKS UNITY CATALOG
Jeśli pracujesz w Databricks i nie masz jeszcze Unity Catalog to zapewne będziesz mieć. Ze względu na ułatwione zarządzanie dostępami co raz więcej firm będzie migrowało do Unity Catalog.  Warto się z tym zapoznać i przygotować do ewentualnej migracji. Jedną z opcji jest stworzenie osobnej subskrypcji i modyfikacja kodu który będzie zapisywał dane do tabel zarządzanych przez Unity Catalog.
Najważniejszą zmianą jaką musisz zrobić przy migracji jest zmiana ścieżek, najczęściej zapisujesz dane do folderów /mnt lub /abfss…a w Unity Catalog będziesz mieć .. Jeśli chcesz to potestować na boku to musisz mieć swoja subskrypcję, być adminem i mieć premium workspace. 

What is Unity Catalog
Enabling Unity Catalog on Azure Databricks: A Step-by-Step Guide
DAFT VS SPARK
Niedawno wspominałem o Polars, nowy szybki framework do inżynierii danych. Teraz pojawił się nowy bajer, zwie się Daft. Poniżej link to artykułu gdzie autor chce sprawdzić, czy można zamienić PySpark na Daft w środowisku Databricks. Okazuje się, że po instalacji Daft na klastrze Databricks i połączeniu go z Unity Catalog, można go użyć do odczytu tabel Delta. Jednak pojawiają się problemy z autoryzacją i odczytem tabeli, które wymagają rozwiązania. Po ich rozwiązaniu, Daft zdołał odczytać tabelę Delta z 21 milionami wierszy i przeprowadzić agregację danych szybciej niż PySpark. Jak się to sprawdzi na produkcji tego nie wiem, ale warto wiedzieć że są takie narzędzia. 

Introduction to Daft ( … vs Polars)Daft vs Spark (Databricks) for Delta Tables (Unity Catalog)
ARCHITEKTURA MEDALIONU
Obecnie jest duża moda na tworzenie Lakehouse opartej na kilku warstwach. Surowe dane wchodzą z jednej strony do Raw i są przetwarzane w kilku etapach (bronze, silver, gold). Po wszystkich etapach są już pięknie oczyszczone i gotowe do konsumpcji. Taki podział na kilka warstw jest bardzo rozsądny ponieważ daje ci możliwość rozbicia skomplikowanych operacji na kilka etapów.  Oczywiście co dzieje się w każdej warstwie zależy od ich ilości i podejścia danej organizacji.  Jak już wspominam o tradycji to jeszcze nie tak dawno temu stawiałem hurtownie danych w klasycznym SQL Server. Tam bardzo popularny jest Star Schema, czyli gwiazda. Tutaj mam dobre wieści da się zrobić gwiazdę w Databricks.  What goes into bronze, silver, and gold layers of a medallion data architectureFive Simple Steps for Implementing a Star Schema in Databricks With Delta Lake

W kategorii:Newsletter

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz