Databricks Assistant to twój osobisty pomocnik w Databricks oczywiście jest AI, jak wszystko dzisiaj 😁. znacząco zwiększa produktywność pracy. Co potrafi Jest dostępny w trzech miejscach Chociaż narzędzie jest intuicyjne, warto znać kilka sztuczek, aby wykorzystać jego pełen potencjał. Poniżej 5 praktycznych wskazówek, które pomogą Ci wycisnąć jak najwięcej z … [Więcej ...] oJak efektywnie korzystać z Databricks Assistant – 5 sprawdzonych praktyk
WPISY
Jakość danych w Databricks DQX
Jak sprawdzić jakość danych w Databricks i to zautomatyzować. Nie martw się jest nowe narzędzie od Databricks i bardzo Ci pomoże w kontroli jakości. Bardzo ważny temat wchodzący w skład testowania. Samo testowanie to bardziej skomplikowany aspekt inżynierii, ale jakość danych to kawałek łatwy to ugryzienia. Na szczęście nowe narzędzie od Databricks wydaje się być proste … [Więcej ...] oJakość danych w Databricks DQX
Jak Spark robi join?
Nie znam rozwiązania gdzie nie trzeba połączyć jakiś tabel. Możesz pracować przy różnych modelach architektonicznych takich jak Lakehouse czy Warehouse bądź innym cudzie technologii. W każdym przypadku pracując z Apache Spark będziesz łączył(ła) tabelę. Małe duże, rozproszone czy nie jakoś join trzeba zrobić. Najczęściej po prostu robisz join i nic innego Cię nie interesuje. … [Więcej ...] oJak Spark robi join?
Czy JSON to samo zło
JSONMuszę przyznać, że json to mój ulubiony plik. Jeszcze się na nim nie zawiodłem. Aż tu trafiłem na taki artykuł gdzie autor krytykuje jsona. 😮No i bardzo dobrze bo konstruktywna krytyka jest ważna podkreśla słabe strony. Słowo klucz to kontekst jest bardzo ważny, ja json używam głównie do trzymania konfiguracji i do tego sprawdza się świetnie. Ale jeśli zmienimy kontekst na … [Więcej ...] oCzy JSON to samo zło
VS Code nowości AI
W tym wydaniu:Databricks $$$$ firma się bogaciAI EngineeringDatabricks CostsKonfiguracjeVS Code Updates DATABRICKS $$$$$Chodzą plotki, że Databricks zdobył trochę dodatkowych środków na rozwój. Zastrzyk gotówki na pewno się przyda w walce ze Snowflake i MS Fabric. Ja jestem z tego zadowolony, bo to naprawdę solidne narzędzie i jest coraz bardziej wypasione. Databricks … [Więcej ...] oVS Code nowości AI
Lista narzędzi AI dla każdego inżyniera, które warto znać
Skoro ten świat pożerany jest przez AI, to warto mieć pod ręką trochę narzędzi. Każdego dnia przybywa ich coraz więcej, i chcę rzucać się na każde, ale obserwuje. Najbardziej użyteczne przejdą próbę czasu i obronią swoją wartość. Poniżej lista kilku narzędzi dzięki którym możesz być bardziej produktywny. GitHub Copilot OpenAI Codex Stworzony przez OpenAI, jest w … [Więcej ...] oLista narzędzi AI dla każdego inżyniera, które warto znać
Kilka pomysłów na konfigurację Databricks
W wielu przypadkach ładowania danych w procesie ETL będziesz potrzebował/ła sparametryzować proces zasilania. Prawie każdy pipeline wymaga jakiś parametrów, np. nazwa tabeli, nazwa środowiska (dev, test, prod) ect.. Im bardziej skomplikowany pipeline tym więcej parametrów potrzeba. Jeśli parametrów jest kilka to możemy je nazwać pop prostu "parametrami" 😁, ale jak się pipeline … [Więcej ...] oKilka pomysłów na konfigurację Databricks
Co pamięta wykonawca (executor🧠)
Dzisiaj trochę inny newsletter, w formie wpisu, ostatnio trochę musiałem optymalizować, a przynajmniej przypomnieć sobie jak działa pamięć wykonawcy. Mam nadzieję, że te notatki przydadzą ci się. Dwa podstawowe problemy z jakimi się często spotykam związane są z osiągami jakie jestem w stanie uzyskać w Spark. Tobie też może się to przydarzyć jeśli już się nie … [Więcej ...] oCo pamięta wykonawca (executor🧠)
Parametryzacja SQL i coś o przyszłości ⌚
PYTHON NA STERYDACH - POLARSW ostatnim wydaniu pisałem o Pandas UDF w kontekście typów danych. Jeden z czytelników dał mi znać o ciekawej bibliotece z super szybkim Pytonem. 🐍 (tutaj powinien wrzucić ikonę Monty Python ale takiej nie ma więc wrzucam poniżej zdjęcie, jeśli lubisz angielski humor to się uśmiejesz, Polecam 😁)Jak piszą na Github: Polars: Blazingly fast DataFrames … [Więcej ...] oParametryzacja SQL i coś o przyszłości ⌚
Analiza danych po angielsku czyli OpenAI w Databricks 🔤
BARDZO DUŻE DANEOstatnio w projekcie głowimy się jak zasilić tabele Feature Store w Databricksach. Nie byłoby w tym nic trudnego gdyby nie olbrzymia ilość kolumn. Na wejściu mamy cirka 4000 kolumn (100 tabel), a do każdej kolumny musimy doliczyć po 20-30 statystyk - jak się domyślasz docelowo będzie sporo. Taka ciekawostka - testowałem ile Feature Table jest w stanie wytrzymać … [Więcej ...] oAnaliza danych po angielsku czyli OpenAI w Databricks 🔤





