Czy JSON to samo zło
JSONMuszę przyznać, że json to mój ulubiony plik. Jeszcze się na nim nie zawiodłem. Aż tu trafiłem na taki artykuł gdzie autor krytykuje jsona. 😮No i bardzo dobrze bo konstruktywna krytyka jest ważna podkreśla słabe strony. Słowo klucz to kontekst jest bardzo ważny, ja json używam głównie do trzymania konfiguracji i do tego sprawdza się świetnie. Ale jeśli…
VS Code nowości AI
W tym wydaniu:Databricks $$$$ firma się bogaciAI EngineeringDatabricks CostsKonfiguracjeVS Code Updates DATABRICKS $$$$$Chodzą plotki, że Databricks zdobył trochę dodatkowych środków na rozwój. Zastrzyk gotówki na pewno się przyda w walce ze Snowflake i MS Fabric. Ja jestem z tego zadowolony, bo to naprawdę solidne narzędzie i jest coraz bardziej wypasione. Databricks vs. Snowflake vs. Microsoft FabricDatabricks Raises…
Co pamięta wykonawca (executor🧠)
Dzisiaj trochę inny newsletter, w formie wpisu, ostatnio trochę musiałem optymalizować, a przynajmniej przypomnieć sobie jak działa pamięć wykonawcy. Mam nadzieję, że te notatki przydadzą ci się. Dwa podstawowe problemy z jakimi się często spotykam związane są z osiągami jakie jestem w stanie uzyskać w Spark. Tobie też może się to przydarzyć jeśli już się nie…
Parametryzacja SQL i coś o przyszłości ⌚
PYTHON NA STERYDACH – POLARSW ostatnim wydaniu pisałem o Pandas UDF w kontekście typów danych. Jeden z czytelników dał mi znać o ciekawej bibliotece z super szybkim Pytonem. 🐍 (tutaj powinien wrzucić ikonę Monty Python ale takiej nie ma więc wrzucam poniżej zdjęcie, jeśli lubisz angielski humor to się uśmiejesz, Polecam 😁)Jak piszą na Github: Polars:…
Analiza danych po angielsku czyli OpenAI w Databricks 🔤
BARDZO DUŻE DANEOstatnio w projekcie głowimy się jak zasilić tabele Feature Store w Databricksach. Nie byłoby w tym nic trudnego gdyby nie olbrzymia ilość kolumn. Na wejściu mamy cirka 4000 kolumn (100 tabel), a do każdej kolumny musimy doliczyć po 20-30 statystyk – jak się domyślasz docelowo będzie sporo. Taka ciekawostka – testowałem ile Feature Table…
Continue Reading Analiza danych po angielsku czyli OpenAI w Databricks 🔤
Copilot tym razem w Office 365 🖋️
MICROSOFT 365 COPILOTMicrosoft wypuszcza Copilota dla klientów korporacyjnych. Jest on częścią pakietu Office 365 i będzie dostępny od 1 Listopada. Nie jest to ten, który napisze za Ciebie kod. Niemniej jednak nowa funkcjonalność może do czegoś się przydać. Będzie w Wordzie Exelu i Outlook i nie tylko, może będzie za nas pisał nudne emaile. 😁Microsoft 365 CopilotMS-012 Prepare your…
AI napisze kod za ciebie⌨️
ARCHITEKTURA MEDALIONOWAW każdej dziedzinie podstawy są ważne, a podstawą budowy Lakehouse jest podział środowisk na 3 kategorie Bronze Silver Gold. Jeśli się z tym nie zetknąłeś, to warto wiedzieć co dzieje się w każdej z tych warstw?Polecam coś poczytać na ten temat. Medallion architecturePart 4 medallion architecture essentials DATABRICKS ASSISTANTGdzie się nie obejrzę, jest coraz więcej AI. Jest już w Databricksach.…
Ostra konkurencja dla Databricks🏅
OPTYMALIZACJA Jak wiesz optymalizacja jest ważnym elementem pracy z Big Data. Poniżej kilka tipów od czego zacząć.1. Skalowanie partycji:Domyślna wartość spark.sql.shuffle.partitions (200) nie jest optymalna dla przetwarzania dużych ilości danych (> 20GB). Rekomendacje dotyczące partycji do wymieszania (shuffle): Rozmiar partycji do wymieszania powinien wynosić między 100MB a 200MB.Zmniejsz ilość partycji używając filtr na kolumnie wykorzystanej do partycji Hive – pamiętaj partycja Hive to…
Ciekawostki od Cegladanych 🗞️
NOWOŚCI W DATABRICKS Pojawiły się dwie ciekawe nowości w Databricks. Coś dla developerów. Notatniki coraz bardziej przypominają IDE.1. Możliwość korzystania z plików w Repo takich jak .py, .csv, .txt czy log filesAutomatycznie uzupełnia segmenty kodu podczas ich wpisywaniaZwijanie koduOdpalić skrypt pythona2. Wsparcie dla .ipynb Jupyter notebooks (preview)Możesz stworzyć nowy notatnik .ipynbZrobić konwersję istniejącego notatnika do .ipynbSprawdzić Code diffNotebook…
Czy Spark obsłuży Excela?🤔
JAK ZACZĄĆ Z PYSPARKIEMPython jest narzędziem numer 1, jeśli chodzi o świat analityki. W połączeniu z Apache Spark tworzy niebywałe narzędzie pozwalające na podbój świata 😁W poniższym linku znajdziesz notatnik z przykładami, pozwoli Ci poznać funkcjonalność PySpark.Podstawy PySparka CZY SPARK OBSŁUŻY EXCELTaka ciekawostka, z mojego punktu widzenie to raczej rzadki case, ale może się wydarzyć…
Czy to koniec z Big Data? 🚄
JAK WYBRAĆ TECHNOLOGIĘ W AZUREPrzy nauce Azure dobrze jest wiedzieć jak dobrać odpowiednią usługę dopasowaną do problemu. Sam nie raz zetknąłem się z nieodpowiednim użyciem narzędzi. Na szczęście jest pomocna dłoń, poniżej link do infografiki, która podpowie Ci jak dobrać narzędzia i czym się kierować. To bardzo przydatna checklista. Azure Technology Guidance.pdf CZY TO KONIEC BIG DATATrafiłem…
Czy Python może być szybszy?⏲️
JAK PRZYSPIESZYĆ PYTHONA Trafiłem na narzędzie, które podobno jest w stanie przyspieszyć Pythona… Numba bo o nim mowa tłumaczy funkcje Pythona na zoptymalizowany kod w czasie wykonywania przy użyciu standardowej biblioteki kompilatora LLVM. Tak skompilowany algorytm może zbliżyć się do prędkości C lub Fortran. Nie musisz wymieniać interpretera Pythona, uruchamiać osobnego kroku kompilacji, ani nawet instalować kompilatora C/C++.…
Hurtownie Danych Porównanie Gigantów 🧱
CO PRZYNIESIE ROK DLA INŻYNIERÓW DANYCH Jeśli lubisz sobie poczytać, to jest ciekawy artykuł o tym, co może być w nowym roku. Próba przewidzenia czy coś się zmieni w naszej pracy. Będziemy więcej czasu spędzać z FinOps i optymalizacją kosztów Pogłębi się specjalizacja Pojęcie data mesh będzie coraz powszechniejszy Modele ML mają odnosić coraz to…
Czy AI pisze lepszy kod od człowieka? 🤖
WZORCE PROJEKTOWE Wzorce projektowe jest to coś niezwykle ważnego. Każdy z nas ma często problem, najczęściej jest to jakaś skomplikowana logika do zaimplementowania. Niestety spędzamy sporo czasu nad stworzeniem rozwiązania, które już ktoś rozwiązał. Walcząc o oszczędność czasu, można wykorzystać gotowe wzorce. Natrafiłem na repo i pomyślałem, że się podzielę. Są tam linki do różnych wzorców…
Jak inkrementalnie ładować dane z Raw ▶️
W tym wydaniu:AutoloaderUnity CatalogDaft vs SparkArchitektura medalionu DATABRICKS AUTOLOADER Może się zdarzyć, że próbujesz załadować dane z warstwy raw. Zastanawiasz się jak będziesz procesował dane inkrementalnie? Pliki codziennie wpadają do folderów w storage account. Za każdym razem ich ilość może być inna. Jak już je załadujesz to coś trzeba z nimi zrobić przecież nie mogą być w…
Czy Databricks jest coraz lepsze ❓
W tym wydaniu Nowy SQL Edytor Databricks Apps Databricks Embeding Databricks i VS Code Snowflake integruje Claude Databricks zmienia się w platformę GenAI DATABRICKS NOWY SQL EDYTORDatabricks wprowadził nowy ulepszony edytor do edycji SQL. Edytor zawiera funkcje zwiększające produktywność, takie jak paleta poleceń, zwijanie kodu oraz dostosowywane motywy, a także filtry generowane przez AI i przeglądarkę…
