• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Efektywniejsza praca z Databricks CLI

23.11.2024 Krzysztof Nojman

Databricks cli main image

Jeśli pracujesz z Databricks, to powinieneś znać Databricks CLI, służy do wydawania poleceń i kontroli środowiska roboczego w Databricks. Dzięki niemu jesteś w stanie zarządzać obszarem roboczym w Databricks, gdzie są hostowane klastry Apache Spark, notatniki biblioteki, joby, ect. 

Databricks fs ls

Co to jest Databricks cli

Jak wskazuje nazwa Command Line Interface jest narzędziem, które działa w terminalu na twoim komputerze. Są to komendy wykonujące konkretne zadania. Działa ono tak samo na Windows, Mac i Linux.

Jest to narzędzie typu open-source hostowane na gitHub, więc jeśli chcesz, to możesz przejrzeć kod źródłowy.

Kiedy używać

Możesz usprawnić swoją pracę i sprawić, że będziesz bardziej produktywny. Do tego oszczędzisz czas, a tego zawsze jest za mało 😥. Podstawową zaletą narzędzi typu command line, jest ich prostota, a jednocześnie spore możliwości. Wiem to brzmi jak administracja, ale uważam, że warto je znać i korzystać zgodnie z przeznaczeniem. Może być przydatne dla każdego od Developera do DevOpsa. 

Najważniejszą zaletą jest szybkość, prostota i możliwość automatyzacji. Można te same operacje wykonać w portalu, ale uważam,  że część z nich można wykonać w terminalu i to całkiem efektywnie. Nie trzeba czekać 5 minut, żeby przejrzeć, jakie dane są w folderach.

Nie ważne co ja myślę sprawdź, zobacz jak działa może się okazać przydatne.

Kiedy są przydatne.

  • Kiedy będziesz chciał stworzyć klaster już skonfigurowany.
  • Kiedy chcesz sprawdzić jakie masz dane.
  • Kiedy chcesz uruchomić job.
  • Kiedy chcesz zobaczyć jakie masz notatniki.
  • Kiedy chcesz importować lub eksportować notatniki.
  • Kiedy chcesz zainstalować paczki jar lub wheel.

……. Jest tego dużo, pełna lista poniżej.

Pełna lista możliwośći

Ta lista pochodzi z oficjalnej dokumentacji więc możesz na niej polegać.

  • Cluster Policies CLI
  • Clusters CLI
  • DBFS CLI
  • Delta Live Tables CLI
  • Groups CLI
  • Instance Pools CLI
  • Jobs CLI
  • Libraries CLI
  • Repos CLI
  • Runs CLI
  • Secrets CLI
  • Stack CLI
  • Tokens CLI
  • Unity Catalog CLI
  • Workspace CLI

 Dostępne komendy:

KomendaOpis
cluster-policiesMożliwość zmian polityk klastra.
clusters Tworzenie i modyfikowanie klastrów.
configure Konfiguracja narzędzia CLI, czyli dodawanie adresu url oraz tokena.
fsMożliwość przeglądania folderów w DBFS.
groupsZarządzanie grupami.
instance-poolsTworzenie i zarządzanie Databricks instance pools.
jobsZarządzanie mechanizmem jobs.
librariesZarządzanie bibliotekami.
pipelinesZarządzanie procesem ETL Databricks Delta Pipelines.
reposUstawianie i konfiguracja repozytorium
runsZarządzanie procesem jobs runs.
secretsDostęp to sekretów Databricks API
stack[Beta] Zarządzanie i pobieranie Databricks resource stacks
tokens Interakcja z tokenami Databricks tokens.
unity-catalogInterakcja z Databricks Unity Catalog.
workspaceZarządzanie środowiskiem roboczym Databricks workspace.

Terminal

Takie proste narzędzie, a ile daje radości i jak pomaga w życiu.

Jak już tak rozmawiamy o terminalach to polecam się zapoznać z Windows Terminal bo jest świetny i bardzo pomaga w codziennej pracy. Jest do pobrania w Microsoft Store. Instrukcje jak można skonfigurować Windows Terminal.

Jak zacząć korzystać z Databricks CLI

Na szczęście dla Ciebie instalacja jest bardzo prosta. Link do oficjalnej dokumentacji.

  1. Sprawdź czy masz zainstalowanego Pythona w wersji co najmniej 3.6
python --version
Wersja Python

Jeśli nie to wejdź na oficjalną stronę Python.org i go zainstaluj. Pamiętaj żeby wybrać opcję i dodać pip.

  1. Sprawdź czy masz zainstalowane narzędzie do zarządzania paczkami – pip? Jeśli instalowałeś Python w poprzednim kroku to powinien tam być. Zawsze możesz go dodać.
pip --version
wersja pip
  1. Jeśli masz te trzy warunki to możesz instalować Databricks CLI
pip install databricks-cli
Databricks CLI
  1. Teraz czas na konfigurację dostępu. Potrzebujesz dwóch informacji
    • Adress URL workspace https://adb-7907630882506808.8.azuredatabricks.net/
    • Token wygenerowany w Databricks workspace
      • Ścieżka do tokena: Databricks workspace > twój email@ > User Settings > Generate New Token
Databricks Generuj Token
Wejdź w ustawienia User Settings
Databricks generuj token
Generuj nowy token
Databricks Generuj token
Podaj nazwę oraz czas ważności
  1. Czas na konfigurację CLI – podaj URL i token z poprzedniego kroku
databricks configure --token
Databricks CLI konfiguracja

  1. Czas sprawdzić czy działa

Możesz sprawdzić zawartość folderów

databricks fs ls
Databricks fs

Ważne

Dla każdej komendy jest dostępna pomoc wystarczy dodać „-h” i zobaczysz podpowiedź.

Databricks cli pomoc

Zalety

Najważniejszą korzyścią jest oszczędność czasu, podczas prac deweloperskich nie muszę wchodzić na workspace czy czekać aż klaster się uruchomi. Mogę np. sprawdzić jakie mam pliki i konfigurację bardzo szybko i wygodnie.

Jest też sporo elementów codziennej pracy, którą możesz zautomatyzować i tu też oszczędzisz cenny czas. Polecam sprawdzić. Zacznij go używać i sam się przekonasz czy warto.

Jakie masz metody na efektywną pracę z Databricks?

W kategorii:Databricks Tagi:Databricks

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz