• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Czy Python może być szybszy?⏲️

23.11.2024 Krzysztof Nojman

JAK PRZYSPIESZYĆ PYTHONA

Trafiłem na narzędzie, które podobno jest w stanie przyspieszyć Pythona… 

Numba bo o nim mowa tłumaczy funkcje Pythona na zoptymalizowany kod w czasie wykonywania przy użyciu standardowej biblioteki kompilatora LLVM. Tak skompilowany algorytm może zbliżyć się do prędkości C lub Fortran. 

Nie musisz wymieniać interpretera Pythona, uruchamiać osobnego kroku kompilacji, ani nawet instalować kompilatora C/C++. Po prostu zastosuj jeden z dekoratorów Numba do swojej funkcji Pythona, a Numba zajmie się resztą.

Jestem ciekaw czy to działa tak dobrze jak to sprzedają?

Numba

MODELOWANIE DANYCH

Bardzo ważny temat często zaniedbywany, czyli modelowanie danych. Muszę przyznać, że modelowanie wykonuje się raz na jakiś czas szczególnie na początku projektu, a potem to już leci. Po jakimś czasie człowiek zapomina jak powinien do tego podejść. Postanowiłem przypomnieć sobie i Tobie jakie są modele. To pozwoli na odświeżenie wiedzy i bardziej efektywne projektowanie modelu. 

To jak podejdziesz do modelowania będzie miało ogromny wpływ na konsumenta tych danych. Zrobione dobrze będzie działało szybko i efektywnie. Do tego użytkownik będzie mógł łatwo ogarnąć dane, jeśli będą dobrze zorganizowane.

Jest kilka metod do modelowania nie wiem czy je znasz ale warto poznać wady i zalety każdej z nich.

  • Kimball
  • Inmon
  • Data Vault
  • Activity Schema
  • 3NF

TESTOWANIE NOTATNIKÓW

Praca z notatnikami jest bardzo przyjemna, ale testy też są ważne i nie można tego zaniedbywać. Poniżej link do artykułu i nagrania z przykładem jak można to zrobić w Synaps Analytics.   

How to test Azure Synapse notebooks

A co z Databricks tutaj też jest rozwiązanie, w obecym projekcie używamy frameworku Nutter, który świetnie można zautomatyzować w DevOps. Poza tym można to robić bardziej natywnie w pytest. 

Unit Tests on Azure Databricks

Nutter


DATAFRAME PORÓWNANIE 

Jeśli pracujesz z danymi w stylu Big Data lub działasz w Pythonie, to pewnie wiesz, co to jest Dataframe. Jeśli nie to mam o tym artykuł. 

Natrafiłem na ciekawe porównanie osiągów różnych typów, Chcesz wiedzieć co jest najszybsze?

Polars / Spark / Pandas / DataFusion

ETL

Atykół o tym czym jest process ETL. To w sumie podstawy, ale warto o nich pamiętać. 

ETL – mechanizm, który napędza świat danych

W kategorii:Newsletter

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz