Wybór odpowiedniego typu compute w Databricks to jedna z kluczowych decyzji wpływających na koszt, wydajność i wygodę pracy. Nic tak nie frustruje jak gapienie się na monitor w oczekiwaniu wyników. ☹️

W tym wydaniu rozkładamy na czynniki pierwsze wszystkie opcje klastrów w Azure Databricks — od Serverless, SQL Warehouse Classic i Pro po Standard Job Compute.

Serverless Compute — przyszłość jest teraz
Serverless compute to flagowa rekomendacja Databricks dla większości workloadów. Co warto wiedzieć:
Zero zarządzania infrastrukturą — zasoby są provisionowane i zarządzane przez Databricks w serverless compute plane. Infrastrukturą zarządza Databricks więc cześć problemów jest po ich stronie.
Błyskawiczny start — eliminacja czekania na rozgrzewanie klastrów, to akurat bardzo lubię bo czekać kilka minut na start jest czasami wkurzające.
Automatyczne skalowanie — zasoby dopasowują się do obciążenia więc nie musisz planować jaki klaster wybrać i ile RAMu będzie potrzebne.
Versionless — zawsze najnowszy runtime, automatyczne upgrady i patche.
Wspierane workloady: notebooki, jobs/workflows, Lakeflow Spark Declarative Pipelines. Ogólnie wszystko czego potrzebujesz na codzień. Możliwość wyboru środowiska ilość RAM i dodania zależnych bibliotek.

Wymagania:
Unity Catalog musi być włączony
Workspace w wspieranym regionie Azure
Brak włączonego PCI-DSS w profilu compliance

Ograniczenia:
Źródła danych tylko przez Lakehouse FederationBrak pełnej kontroli nad konfiguracją klastra

Koszty
To co ważne to monitorowanie kosztów, bo można sobie przepalić trochę kasy. Szczególnie uczulam na osobiste konta bo u klienta jeśli jest blokada to powinna być ustawiona żeby zabezpieczyć skarbiec firmy.Informacje o tym ile przepaliłeś/łaś $$$ oprócz portalu znajdziesz w tabeli system.billing.usage tam są szczegóły ile i na co.

Classic Compute — pełna kontrola w Twoich rękach

Classic compute to zasoby deployowane bezpośrednio w koncie chmurowym klienta. Czyli runtime który wybrałeś jest w VM na twoim koncie. Tutaj płacisz Databricks za moc obliczeniową i Azure na VMkę. Dwa tryby dostępu:

Standard Access Mode (rekomendowany)

Wielu użytkowników może współdzielić jedno compute
Iizolacja kodu przez Lakeguard — pełne bezpieczeństwo
Wsparcie: Python ✅ | SQL ✅ | Scala ✅ | R ❌

Dedicated Access Mode

Compute przypisany do jednego użytkownika/grupy
Wymagany dla: RDD API, rozproszony ML, GPU, język R

Kto może tworzyć?

Admini — bez ograniczeń
Użytkownicy z entitlementem „Unrestricted cluster creation”
Pozostali — tylko przez przypisane compute policies

SQL Warehouse — potęga dla analityków

SQL Warehouse to compute zoptymalizowany pod zapytania SQL, dashboardy i integracje z narzędziami typu BI.

Kluczowe cechy:

Auto-restart — zatrzymany warehouse startuje automatycznie przy zapytaniu
Integracje: Power BI, Tableau, JDBC/ODBC, Python SQL Connector, DataGrip, DBeaver
Starter Warehouse — tworzony automatycznie w nowym workspaceMożna podłączyć notebook do Pro lub Serverless SQL Warehouse
Wspiera tylko SQL

Drzewko decyzyjne – różne typy compute
Polecam poczytać informację o tym jaki typ CPU i VM wybierasz to bardzo ważne.Sizes for virtual machines in Azure

Jak wybrać? Tabela decyzyjna

Polecam nagranie na Akademia Big Data (Link poniżej⬇️) tam omawiam szczegóły jak podejść do wyboru jaki typ compute wybrać i kiedy.

Twój scenariusz	Rekomendowany compute
Interaktywne notebooki (Python/SQL)	Serverless compute
SQL analytics i dashboardy	Serverless SQL Warehouse
Automatyczne joby i pipelinesProdukcja	Serverless computeJob Compute
Potrzebujesz RDD API, GPU lub R	Classic Dedicated compute
SQL	Pro SQL Warehouse
Współdzielony klaster dla zespołu	Classic Standard compute

Ogólna zasada: zacznij od Serverless. Sięgaj po Classic tylko gdy potrzebujesz funkcji niedostępnych w serverless.

⚠️ UWAGA ⚠️

Kod który działa na zwykłym klastrze może nie zadziałać na Serverless, to dotyczy SQL i innych języków. Jest to spowodowane różnicą w wersjach bibliotek i innymi ustawieniami.

Osobiście skupił bym się na przemyśleniu czego potrzebuje.

Serverless jest najprostszym wyborem klikasz i nic nie musisz robić, wszystko się dzieje samo optymalnie. Sam przyznasz, że jako obietnica to trochę brzmi zbyt pięknie żeby było prawdziwie.

Trochę tak jest tyle że to kosztuje i może warto poświęcić trochę czasu i chociaż zrobić porównanie kosztów i czasu wykonania. Najlepsza decyzja to ta podjęta na podstawie danych, a nie opini.

Databricks Klastry

Jak wybrać? Tabela decyzyjna

Drzewko decyzyjne – wybór klastra

Najnowsze wpisy

Informacje Prawne

Jak wybrać? Tabela decyzyjna

Drzewko decyzyjne – wybór klastra

Footer

Najnowsze wpisy

Tagi

Informacje Prawne