| NOWOŚCI W DATABRICKS Pojawiły się dwie ciekawe nowości w Databricks. Coś dla developerów. Notatniki coraz bardziej przypominają IDE.1. Możliwość korzystania z plików w Repo takich jak .py, .csv, .txt czy log filesAutomatycznie uzupełnia segmenty kodu podczas ich wpisywaniaZwijanie koduOdpalić skrypt pythona2. Wsparcie dla .ipynb Jupyter notebooks (preview) Możesz stworzyć nowy notatnik .ipynbZrobić konwersję istniejącego notatnika do .ipynbSprawdzić Code diff Notebook EditorIpynb repos |
| DEDYKOWANY LAKEHOUSE DLA BRANŻY PRODUKCYJNEJ Databricks stworzył Lakehouse dla fabryk. Przemysł produkcji generuje ogromne ilości danych (2-4 razy większe niż inne branże). Oto propozycja Databricks.Co oferujeDigital Twins: Przetwarzanie danych w czasie rzeczywistym, generowanie wskazówek oraz dostarczanie ich do wielu aplikacji dla podejmowania szybkich decyzji.Part-Level Forecasting: Prognozowanie zapotrzebowania na poziomie części, a nie na poziomie agregatów, aby uniknąć braków w magazynie, skrócić czas dostawy.Overall Equipment Effectiveness: Stopniowe przyjmowanie i przetwarzanie danych z urządzeń czujnikowych/IoT w różnych formatach oraz dostarczanie spójnego podejścia do raportowania KPI.Computer Vision: Wdrażanie aplikacji opartych na AI/ML w celu automatyzacji kluczowych procesów produkcyjnych, poprawy jakości, redukcji kosztów odpadów.Predictive Maintenance (IoT): Przyjmowanie danych w czasie rzeczywistym z urządzeń IoT i przetwarzanie złożonych danych (time-series processing) w celu maksymalizacji czasu pracy i minimalizacji kosztów konserwacji.The Lakehouse For Manufacturing ARCHITEKTURA DATA MESH Coraz częściej słyszę o architekturze Data Mesh. Czy jest to jakiś nowy koncept, który rozwiąże wszystkie problemy. Zapwne nie, ale warto co nieco wiedzieć na ten temat. Natrafiłem na kilka ciekawych materiałów na ten temat. Data Mesh składa się z kilku komponentów Silosy danych: reprezentuje konkretną domenę biznesową Dane są rozrzucone pomiędzy węzły (nodes), gdzie każdy może reprezentować inną domenę biznesową. Odejście od zcentralizowanego repozytorium danych. Implementacja: Oparta na architekturze mikro serwisów. Dostęp do poszczególnych danych jest przez API. Taka przynajmniej jest idea. Silny model zarządzania: Bardzo ważny jest scentralizowany model zarządzania (data governance) danymi w celu zapewnienia widoczności, dostępów i zgodności z polityką firmy. Data Mesh: Każdy węzeł danych ma swoją specyficzną dziedzinę odpowiedzialności, a pod nią znajduje się usługa API do przesyłania i pobierania danych. Katalog danych: jest ważnym narzędziem do zarządzania danymi oraz ich udostępnianiem i wyszukiwaniem. Tip! Artykuły na MS blog można słuchać. Jest opcja LISTEN więc jeśli nie chcę ci się czytać to posłuchaj.SqlBits_Video James SerraData Mesh ArchitectureData Monolith to Mesh – ten jest długi ale dobrze opisuje problem |
| APACHE PINOT Rozproszony magazyn danych dla zapytań OLAP. Czyli coś dla nas. Stworzony przez inżynierów z Linkedin. Coś bardzo nowego i ciekawego z portfolio Apache. Główne cechyLow Latency OLAPTechnologie indeksowania — Sorted Index, Bitmap Index, Text Search Index (Lucence/FST), Json Index, Geospatial IndexPrzetwarzanie w czasie zbliżonym do rzeczywistego za pomocą Apache Kafka , Apache Pulsar , Kinesis obsługuje formaty JSON , Avro , ProtoBuf , ThriftZapewnia interfejs SQLTabularyczny model danychDane składowane kolumnowoWspiera architekturę Lambda Apache Pinot |
| WALIDACJA DANYCH Napisałem artykuł o walidacji schematów danych w Sparku i Databricks. Jest to bardzo dobra praktyka, do której Cię zachęcm. To o czym napisałem dotyczy walidacji schematów podczas odczytu lub zapisu. Ale można też robić znacznie dokładniejszą walidację i są na to odpowiednie narzędzia, ja natrafiłem na takie Great Expectations. Jak walidowac schemat danych w Apache Spark i Databricks Great Expectation NotatnikGreat expectations with apache spark a tale of data quality |
