Ciekawostki od Cegladanych 🗞️

NOWOŚCI W DATABRICKS

Pojawiły się dwie ciekawe nowości w Databricks. Coś dla developerów. Notatniki coraz bardziej przypominają IDE.1. Możliwość korzystania z plików w Repo takich jak .py, .csv, .txt czy log filesAutomatycznie uzupełnia segmenty kodu podczas ich wpisywaniaZwijanie koduOdpalić skrypt pythona2. Wsparcie dla .ipynb Jupyter notebooks (preview)
Możesz stworzyć nowy notatnik .ipynbZrobić konwersję istniejącego notatnika do .ipynbSprawdzić Code diff
Notebook Editor Ipynb repos

DEDYKOWANY LAKEHOUSE DLA BRANŻY PRODUKCYJNEJ
Databricks stworzył Lakehouse dla fabryk. Przemysł produkcji generuje ogromne ilości danych (2-4 razy większe niż inne branże). Oto propozycja Databricks.Co oferujeDigital Twins: Przetwarzanie danych w czasie rzeczywistym, generowanie wskazówek oraz dostarczanie ich do wielu aplikacji dla podejmowania szybkich decyzji.Part-Level Forecasting: Prognozowanie zapotrzebowania na poziomie części, a nie na poziomie agregatów, aby uniknąć braków w magazynie, skrócić czas dostawy.Overall Equipment Effectiveness: Stopniowe przyjmowanie i przetwarzanie danych z urządzeń czujnikowych/IoT w różnych formatach oraz dostarczanie spójnego podejścia do raportowania KPI.Computer Vision: Wdrażanie aplikacji opartych na AI/ML w celu automatyzacji kluczowych procesów produkcyjnych, poprawy jakości, redukcji kosztów odpadów.Predictive Maintenance (IoT): Przyjmowanie danych w czasie rzeczywistym z urządzeń IoT i przetwarzanie złożonych danych (time-series processing) w celu maksymalizacji czasu pracy i minimalizacji kosztów konserwacji.The Lakehouse For Manufacturing

ARCHITEKTURA DATA MESH
Coraz częściej słyszę o architekturze Data Mesh. Czy jest to jakiś nowy koncept, który rozwiąże wszystkie problemy. Zapwne nie, ale warto co nieco wiedzieć na ten temat. Natrafiłem na kilka ciekawych materiałów na ten temat. Data Mesh składa się z kilku komponentów Silosy danych: reprezentuje konkretną domenę biznesową
Dane są rozrzucone pomiędzy węzły (nodes), gdzie każdy może reprezentować inną domenę biznesową. Odejście od zcentralizowanego repozytorium danych. Implementacja: Oparta na architekturze mikro serwisów. Dostęp do poszczególnych danych jest przez API. Taka przynajmniej jest idea.
Silny model zarządzania: Bardzo ważny jest scentralizowany model zarządzania (data governance) danymi w celu zapewnienia widoczności, dostępów i zgodności z polityką firmy.
Data Mesh: Każdy węzeł danych ma swoją specyficzną dziedzinę odpowiedzialności, a pod nią znajduje się usługa API do przesyłania i pobierania danych.
Katalog danych: jest ważnym narzędziem do zarządzania danymi oraz ich udostępnianiem i wyszukiwaniem.
Tip! Artykuły na MS blog można słuchać. Jest opcja LISTEN więc jeśli nie chcę ci się czytać to posłuchaj.SqlBits_Video James SerraData Mesh Architecture Data Monolith to Mesh – ten jest długi ale dobrze opisuje problem

APACHE PINOT
Rozproszony magazyn danych dla zapytań OLAP. Czyli coś dla nas. Stworzony przez inżynierów z Linkedin. Coś bardzo nowego i ciekawego z portfolio Apache. Główne cechyLow Latency OLAPTechnologie indeksowania — Sorted Index, Bitmap Index, Text Search Index (Lucence/FST), Json Index, Geospatial IndexPrzetwarzanie w czasie zbliżonym do rzeczywistego za pomocą Apache Kafka , Apache Pulsar , Kinesis obsługuje formaty JSON , Avro , ProtoBuf , ThriftZapewnia interfejs SQLTabularyczny model danychDane składowane kolumnowoWspiera architekturę Lambda
Apache Pinot

WALIDACJA DANYCH
Napisałem artykuł o walidacji schematów danych w Sparku i Databricks. Jest to bardzo dobra praktyka, do której Cię zachęcm. To o czym napisałem dotyczy walidacji schematów podczas odczytu lub zapisu. Ale można też robić znacznie dokładniejszą walidację i są na to odpowiednie narzędzia, ja natrafiłem na takie Great Expectations. Jak walidowac schemat danych w Apache Spark i Databricks
Great Expectation Notatnik Great expectations with apache spark a tale of data quality

Najnowsze wpisy

Informacje Prawne

Footer

Najnowsze wpisy

Tagi

Informacje Prawne