• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

BLOG

Databricks DQX

Jakość danych w Databricks DQX

Krzysztof Nojman
28.01.2025

Jak sprawdzić jakość danych w Databricks i to zautomatyzować. Nie martw się jest nowe narzędzie od Databricks i bardzo Ci pomoże w kontroli jakości. Bardzo ważny temat wchodzący w skład testowania. Samo testowanie to bardziej skomplikowany aspekt inżynierii, ale jakość danych to kawałek łatwy to ugryzienia. Na szczęście nowe narzędzie od Databricks wydaje się być…

Continue Reading Jakość danych w Databricks DQX

spark joins

Jak Spark robi join?

Krzysztof Nojman
13.01.2025

Nie znam rozwiązania gdzie nie trzeba połączyć jakiś tabel. Możesz pracować przy różnych modelach architektonicznych takich jak Lakehouse czy Warehouse bądź innym cudzie technologii. W każdym przypadku pracując z Apache Spark będziesz łączył(ła) tabelę. Małe duże, rozproszone czy nie jakoś join trzeba zrobić. Najczęściej po prostu robisz join i nic innego Cię nie interesuje. Spark…

Continue Reading Jak Spark robi join?

AI Tools

Lista narzędzi AI dla każdego inżyniera, które warto znać

Krzysztof Nojman
30.11.2024

Skoro ten świat pożerany jest przez AI, to warto mieć pod ręką trochę narzędzi. Każdego dnia przybywa ich coraz więcej, i chcę rzucać się na każde, ale obserwuje. Najbardziej użyteczne przejdą próbę czasu i obronią swoją wartość. Poniżej lista kilku narzędzi dzięki którym możesz być bardziej produktywny. GitHub Copilot Uzupełnianie i generowanie kodu: Wrzuci sugestie…

Continue Reading Lista narzędzi AI dla każdego inżyniera, które warto znać

Kilka pomysłów na konfigurację Databricks

Krzysztof Nojman
26.11.2024

W wielu przypadkach ładowania danych w procesie ETL będziesz potrzebował/ła sparametryzować proces zasilania. Prawie każdy pipeline wymaga jakiś parametrów, np. nazwa tabeli, nazwa środowiska (dev, test, prod) ect.. Im bardziej skomplikowany pipeline tym więcej parametrów potrzeba. Jeśli parametrów jest kilka to możemy je nazwać pop prostu „parametrami” 😁, ale jak się pipeline komplikuje i trzeba…

Continue Reading Kilka pomysłów na konfigurację Databricks

Dobre praktyki

Krzysztof Nojman
14.09.2024

Zebrałem taką krótka listę dobrych praktyk. Żeby o nich nie zapomnieć i mieć ściągawkę na przyszłość. Są to ogólne zasady, które będą lepiej już gorzej pasować do większości scenariuszy. Aczkolwiek musisz pamiętać, że czasami występują odstępstwa od reguły. Jak zwykle w życiu trzeba dokładnie przemyśleć każdą decyzję. Planowanie Proces planowania na piśmie: Nie muszę chyba…

Continue Reading Dobre praktyki

7 rzeczy do optymalizacji Apache Spark

Krzysztof Nojman
08.06.2024

Apache Spark jest narzędziem bardzo skomplikowanym, i nie wielu z nas ma czasu na czytanie kodu źródłowego. Tego wszystkiego jest za dużo. Również podczas projektu nie ma za wiele czasu na dogłębna analizę. Zadbaj o to żeby uprościć sobie życie. Chciałem tutaj zebrać najważniejsze elementy z procesu optymalizacji. Mają one Ci pomóc w jak najszybszym…

Continue Reading 7 rzeczy do optymalizacji Apache Spark

Jak pobrać dane z on-prema używając ADF

Krzysztof Nojman
05.05.2024

Jak to zwykle bywa na początku projektu zanim rozpoczniesz używać magiczną technologię Big Data to najpierw musisz jakoś te dane pobrać. A jak je pobrać używając narzędzi Azure? Najlepszym narzędziem jest Azure Data Factory czyli kombajn do wszystkiego. 😁 no dobra trochę przesadzam, ale to solidne narzędzie do orkiestracji pobierania danych i do tego działa.…

Continue Reading Jak pobrać dane z on-prema używając ADF

Apache Spark Executor Memory

Co warto wiedzieć o pamięci wykonawcy (executor)

Krzysztof Nojman
19.02.2024

Dwa podstawowe problemy z jakimi się często spotykam związane są z osiągami jakie jestem w stanie uzyskać w Spark. Tobie też może się to przydarzyć jeśli już się nie wpadłeś w podobną pułapkę. proces działa bardzo wolno występują błędy OOM (out of memory errors) Z mojego punktu widzenia to najczęstsze co mi się przydarza. Aplikacja…

Continue Reading Co warto wiedzieć o pamięci wykonawcy (executor)

liquid clustering

Tabele Delta jak działa płynne kastrowanie (Liquid Clustering)

Krzysztof Nojman
07.01.2024

Partycjonowanie danych Partycjonowanie powstało po to żeby posegregować dane. Jeśli masz milion plików i chcesz wyciągnąć konkretną informację, to chwilę będziesz musisz poczekać. I ta chwila może potrwać sporo czasu i do tego przepalisz sporo kasy. Tutaj wkracza partycjonowanie, czyli pogrupowanie danych według jakiegoś klucza. Żeby dobrze dobrać partycję musisz wiedzieć jakie są twoje główne…

Continue Reading Tabele Delta jak działa płynne kastrowanie (Liquid Clustering)

Kolumny Apache Spark

Apache Spark operacje na kolumnach

Krzysztof Nojman
26.11.2023

Kolumny Kolumny w Spark Dataframe maja taką samą charakterystykę, jak w przypadku Pandas czy R DataFrames, na pewno znasz je z excela, bądź bazy relacyjnej. Koncepcja jest taka sama. Możesz dokonywać różnych operacji na wybranych lub wszystkich kolumnach. Operacje te będą zależeć od typu danych kolumny. W Sparku możesz odnieść się do kolumny na kilka…

Continue Reading Apache Spark operacje na kolumnach

walidacja schematu danych

Jak walidować schemat danych w Apache Spark

Krzysztof Nojman
21.04.2023

Walidacja schematu danych jest bardzo ważnym etapem, w każdym projekcie z danymi. Jest to klucz do sukcesu i należy go potraktować poważnie. Poniżej znajdziesz przykłady jak walidować schemat danych i jakie masz dostępne narzędzia w Apache Spark i Databricks. Oczywiście możesz zrobić znacznie więcej dla jakości danych, ale to są podstawy dla pierwszej wersji twojego…

Continue Reading Jak walidować schemat danych w Apache Spark

Databricks cli main image

Efektywniejsza praca z Databricks CLI

Krzysztof Nojman
30.01.2023

Jeśli pracujesz z Databricks, to powinieneś znać Databricks CLI, służy do wydawania poleceń i kontroli środowiska roboczego w Databricks. Dzięki niemu jesteś w stanie zarządzać obszarem roboczym w Databricks, gdzie są hostowane klastry Apache Spark, notatniki biblioteki, joby, ect.  Co to jest Databricks cli Jak wskazuje nazwa Command Line Interface jest narzędziem, które działa w…

Continue Reading Efektywniejsza praca z Databricks CLI

ETL

ETL – mechanizm, który napędza świat danych

Krzysztof Nojman
13.01.2023

Na pewno nie raz spotkałeś się z terminem ETL. Jest to akronim, jak się domyślasz pochodzi z angielskiego Extract Transform and Load. Jest to najpopularniejszy na świecie proces przetwarzania danych. Przetłumaczone na polski Wyciągnij, Przekształć i Załaduj. To wieloetapowy proces przetwarzania danych. Stosuje się go, kiedy organizacja chce stworzyć centralne repozytorium danych. Każdy z tych…

Continue Reading ETL – mechanizm, który napędza świat danych

Inżynier danych

7 rzeczy które musi umieć inżynier danych

Krzysztof Nojman
24.11.2022

Co robi inżynier Danych W największym skrócie inżynier Danych jest odpowiedzialny za przygotowanie i integrację danych. Dane trzeba przygotować do użycia bo surowe raczej są w słabej formie. A integracja to połączenie danych z wielu źródeł i form.   Skąd biorą się dane w twojej firmie?  Na samym początku źródła są ludzie, którzy te dane generują.…

Continue Reading 7 rzeczy które musi umieć inżynier danych

notatniki databricks

Czy można wykonać notatniki Databricks równolegle

Krzysztof Nojman
04.02.2022

Jak wiesz Spark jest stworzony do przetwarzania równoległego. Nie o tym jednak chcę dzisiaj napisać, ale o równoległym wykonaniu notatników Databricks. Stanąłem oko w oko przed problemem orkiestracji wielu kolekcji danych. I pojawił się problem ich ilości, w tradycyjnym podejściu musiałbym uruchomić kilkadziesiąt notatników jeden po drugim. Co nie jest zbyt efektywne. Mam kilkanaście kolekcji…

Continue Reading Czy można wykonać notatniki Databricks równolegle

co przyniesie rok 2022

Co przysienie rok 2022 dla Inżyniera Danych – 7 trendów

Krzysztof Nojman
07.01.2022

1. Cloud Jeśli jeszcze nie jesteście w temacie to niewątpliwie musisz pomyśleć o chmurze. Staje się ona nieodzowną częścią naszego świata IT. Coraz więcej firm myśli i zaczyna coraz mocniej cisnąć w chmurę. Oczywiście on-premises nie zniknie z pola widzenia i jeśli firma ma już jakieś rozwiązanie lokalnie, to zapewne będzie go utrzymywać. Obserwując rynek…

Continue Reading Co przysienie rok 2022 dla Inżyniera Danych – 7 trendów

Spark Dataframe

Co powinieneś wiedzieć o Spark Dataframe

Krzysztof Nojman
10.11.2021

Dataframe czyli ramka danych Ramka danych jest obiektem istniejącym w pamięci RAM. Najłatwiej ją zobrazować jako tabelę, która posiada kolumny oraz rzędy danych. Każda kolumna tak jak w bazie danych posiada nazwę oraz typ danych. Dataframe jest kolekcją obiektu Row (RDD[Row]) i schematu. Taka 'tabelka’ w pamięci ma bardzo dużo zalet dla analityka. Łatwo z…

Continue Reading Co powinieneś wiedzieć o Spark Dataframe

Wybór technologii

Big data, czy wiesz kiedy użyć tej technologii?

Krzysztof Nojman
12.10.2021

Jeśli zadałeś sobie pytanie, „big data co to?”, to jesteś w dobrym miejscu. Postaram się wyjaśnić do czego służy ta technologia, i kiedy użyć tego zestawu narzędzi. Ten prosty model, powinien Ci pozwolić dobrać optymalną technologię, pasującą do twojego problemu. Big Data przetłumaczone z angielskiego oznacza dosłownie „duże dane” po polsku lepiej by brzmiało „dużo…

Continue Reading Big data, czy wiesz kiedy użyć tej technologii?

Spark na Windowsie

Apache Spark na Windowsie czy to możliwe?

Krzysztof Nojman
23.09.2021

Witam, do tej pory pisałem o Databricks jako o super narzędziu do Big Data. Jest on niewątpliwie bardzo użyteczny, ale do tego potrzeba przeglądarki i dostępu do chmury publicznej, Azure, AWS lub GCP. A co jeśli chcesz zacząć przygodę ze Apache Spark na Windowsie bez wydawania kasy na chmurę. Mam dla Ciebie dobre wieści jest…

Continue Reading Apache Spark na Windowsie czy to możliwe?

Notatnik Databricks

Ten kod może Ci się przydać…

Krzysztof Nojman
20.08.2021

Jeśli pracujesz w środowisku Databricks, to najprawdopodobniej będziesz potrzebował zautomatyzować część funkcjonalności, żeby ułatwić sobie życie. Nie mówię tutaj tylko o produkcji, ale o pracy na devie. Przygotowałem trochę kodu, z którego często korzystam. Są to elementy przydatne może nie na co dzień, ale od Świeta 🙂 więc warto o nich pamiętać. Może i tobie się przyda. Dbutils Jest to…

Continue Reading Ten kod może Ci się przydać…

blogów

10 Blogów dla Inżyniera Danych, Które Warto Śledzić w 2021.

Krzysztof Nojman
28.06.2021

jaceklaskowski.gitbooks.io Jacek Laskowski jest programistą z wieloletnim stażem i dużym bagażem doświadczeń, który dzieli się wiedzą i za to go lubimy. Jacek napisał i wciąż pisze wspaniałą książkę o Sparku. Książka jest w wersji elektronicznej, dzięki temu jest dostępna online i łatwa w przeszukiwaniu. Jest to zestawianie dokumentacji z przykładami. Znajdziesz tam mnóstwo informacji o…

Continue Reading 10 Blogów dla Inżyniera Danych, Które Warto Śledzić w 2021.

databricks ciekawostki

11 Ciekawostek Databricks

Krzysztof Nojman
05.05.2021

1. Platforma analityczna Databricks to platforma analityczna oparta na Spark. Została założona przez twórców Sparka na uniwersytecie UC Berkeley w 2013, czyli już 8 lat na rynku. Databricks pracuje nad rozwojem Sparka, łącząc siły ze społecznością wpierającą ten projekt. Jako firma dodali więcej kodu do Sparka niż jakakolwiek inna organizacja. Ta firma płaci swoje rachunki…

Continue Reading 11 Ciekawostek Databricks

Lakehouse

Czy Data Lakehouse pożre Hurtownię Danych?

Krzysztof Nojman
16.03.2021

Czy hurtownie danych przejdą do lamusa a świat BI ogarnie nowa moda. Jest alternatywa dla hurtowni danych zwie się Data Lakehouse.

Continue Reading Czy Data Lakehouse pożre Hurtownię Danych?

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman