• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Ciekawostki od Cegladanych 🗞️

23.11.2024 Krzysztof Nojman

NOWOŚCI W DATABRICKS 

Pojawiły się dwie ciekawe nowości w Databricks. Coś dla developerów. Notatniki coraz bardziej przypominają IDE.1. Możliwość korzystania z plików w Repo takich jak .py, .csv, .txt czy log filesAutomatycznie uzupełnia segmenty kodu podczas ich wpisywaniaZwijanie koduOdpalić skrypt pythona2. Wsparcie dla .ipynb Jupyter notebooks (preview)
Możesz stworzyć nowy notatnik .ipynbZrobić konwersję istniejącego notatnika do .ipynbSprawdzić Code diff
Notebook EditorIpynb repos
DEDYKOWANY LAKEHOUSE DLA BRANŻY PRODUKCYJNEJ
Databricks stworzył Lakehouse dla fabryk. Przemysł produkcji generuje ogromne ilości danych (2-4 razy większe niż inne branże). Oto propozycja Databricks.Co oferujeDigital Twins: Przetwarzanie danych w czasie rzeczywistym, generowanie wskazówek oraz dostarczanie ich do wielu aplikacji dla podejmowania szybkich decyzji.Part-Level Forecasting: Prognozowanie zapotrzebowania na poziomie części, a nie na poziomie agregatów, aby uniknąć braków w magazynie, skrócić czas dostawy.Overall Equipment Effectiveness: Stopniowe przyjmowanie i przetwarzanie danych z urządzeń czujnikowych/IoT w różnych formatach oraz dostarczanie spójnego podejścia do raportowania KPI.Computer Vision: Wdrażanie aplikacji opartych na AI/ML w celu automatyzacji kluczowych procesów produkcyjnych, poprawy jakości, redukcji kosztów odpadów.Predictive Maintenance (IoT): Przyjmowanie danych w czasie rzeczywistym z urządzeń IoT i przetwarzanie złożonych danych (time-series processing) w celu maksymalizacji czasu pracy i minimalizacji kosztów konserwacji.The Lakehouse For Manufacturing

ARCHITEKTURA DATA MESH
Coraz częściej słyszę o architekturze Data Mesh. Czy jest to jakiś nowy koncept, który rozwiąże wszystkie problemy. Zapwne nie, ale warto co nieco wiedzieć na ten temat. Natrafiłem na kilka ciekawych materiałów na ten temat.  Data Mesh składa się z kilku komponentów Silosy danych: reprezentuje konkretną domenę biznesową
Dane są rozrzucone pomiędzy węzły (nodes), gdzie każdy może reprezentować inną domenę biznesową. Odejście od zcentralizowanego repozytorium danych. Implementacja: Oparta na architekturze mikro serwisów. Dostęp do poszczególnych danych jest przez API. Taka przynajmniej jest idea.
Silny model zarządzania: Bardzo ważny jest scentralizowany model zarządzania (data governance) danymi w celu zapewnienia widoczności, dostępów i zgodności z polityką firmy.  
Data Mesh:
 Każdy węzeł danych ma swoją specyficzną dziedzinę odpowiedzialności, a pod nią znajduje się usługa API do przesyłania i pobierania danych.
Katalog danych: jest ważnym narzędziem do zarządzania danymi oraz ich udostępnianiem i wyszukiwaniem. 
Tip! Artykuły na MS blog można słuchać. Jest opcja LISTEN więc jeśli nie chcę ci się czytać to posłuchaj.SqlBits_Video James SerraData Mesh ArchitectureData Monolith to Mesh – ten jest długi ale dobrze opisuje problem
APACHE PINOT
Rozproszony magazyn danych dla zapytań OLAP. Czyli coś dla nas. Stworzony przez inżynierów z Linkedin. Coś bardzo nowego i ciekawego z portfolio Apache.  Główne cechyLow Latency OLAPTechnologie indeksowania — Sorted Index, Bitmap Index, Text Search Index (Lucence/FST), Json Index, Geospatial IndexPrzetwarzanie w czasie zbliżonym do rzeczywistego za pomocą Apache Kafka , Apache Pulsar , Kinesis obsługuje formaty JSON , Avro , ProtoBuf , ThriftZapewnia interfejs SQLTabularyczny model danychDane składowane kolumnowoWspiera architekturę Lambda
Apache Pinot
WALIDACJA DANYCH
Napisałem artykuł o walidacji schematów danych w Sparku i Databricks. Jest to bardzo dobra praktyka, do której Cię zachęcm. To o czym napisałem dotyczy walidacji schematów podczas odczytu lub zapisu. Ale można też robić znacznie dokładniejszą walidację i są na to odpowiednie narzędzia, ja natrafiłem na takie Great Expectations. Jak walidowac schemat danych w Apache Spark i Databricks
Great Expectation NotatnikGreat expectations with apache spark a tale of data quality

W kategorii:Newsletter

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

Jak zainstalować Python whl na Serverless

15.02.2026 By Krzysztof Nojman

Jak efektywnie korzystać z Databricks Assistant – 5 sprawdzonych praktyk

16.11.2025 By Krzysztof Nojman

Databricks DQX

Jakość danych w Databricks DQX

28.01.2025 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Databricks Klastry
  • Jak zainstalować Python whl na Serverless
  • Jak efektywnie korzystać z Databricks Assistant – 5 sprawdzonych praktyk
  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2026 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz