JAK PRZYSPIESZYĆ PYTHONA
Trafiłem na narzędzie, które podobno jest w stanie przyspieszyć Pythona…
Numba bo o nim mowa tłumaczy funkcje Pythona na zoptymalizowany kod w czasie wykonywania przy użyciu standardowej biblioteki kompilatora LLVM. Tak skompilowany algorytm może zbliżyć się do prędkości C lub Fortran.
Nie musisz wymieniać interpretera Pythona, uruchamiać osobnego kroku kompilacji, ani nawet instalować kompilatora C/C++. Po prostu zastosuj jeden z dekoratorów Numba do swojej funkcji Pythona, a Numba zajmie się resztą.
Jestem ciekaw czy to działa tak dobrze jak to sprzedają?
MODELOWANIE DANYCH
Bardzo ważny temat często zaniedbywany, czyli modelowanie danych. Muszę przyznać, że modelowanie wykonuje się raz na jakiś czas szczególnie na początku projektu, a potem to już leci. Po jakimś czasie człowiek zapomina jak powinien do tego podejść. Postanowiłem przypomnieć sobie i Tobie jakie są modele. To pozwoli na odświeżenie wiedzy i bardziej efektywne projektowanie modelu.
To jak podejdziesz do modelowania będzie miało ogromny wpływ na konsumenta tych danych. Zrobione dobrze będzie działało szybko i efektywnie. Do tego użytkownik będzie mógł łatwo ogarnąć dane, jeśli będą dobrze zorganizowane.
Jest kilka metod do modelowania nie wiem czy je znasz ale warto poznać wady i zalety każdej z nich.
TESTOWANIE NOTATNIKÓW
Praca z notatnikami jest bardzo przyjemna, ale testy też są ważne i nie można tego zaniedbywać. Poniżej link do artykułu i nagrania z przykładem jak można to zrobić w Synaps Analytics.
How to test Azure Synapse notebooks
A co z Databricks tutaj też jest rozwiązanie, w obecym projekcie używamy frameworku Nutter, który świetnie można zautomatyzować w DevOps. Poza tym można to robić bardziej natywnie w pytest.
Unit Tests on Azure Databricks
DATAFRAME PORÓWNANIE
Jeśli pracujesz z danymi w stylu Big Data lub działasz w Pythonie, to pewnie wiesz, co to jest Dataframe. Jeśli nie to mam o tym artykuł.
Natrafiłem na ciekawe porównanie osiągów różnych typów, Chcesz wiedzieć co jest najszybsze?
Polars / Spark / Pandas / DataFusion
ETL
Atykół o tym czym jest process ETL. To w sumie podstawy, ale warto o nich pamiętać.
