• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Jak za darmo bawić się Big Data

23.11.2024 Krzysztof Nojman

Databricks

Domyślam się, że wielu z was chciałoby sprawdzić, jak działa ta magiczna technologia. I jest nadzieja dla wszystkich. Zupełnie za darmo jest dostępna platforma do Big Data, będąc bardzo precyzyjnym do Sparka. Zwie się ona Databricks Community Edition. https://community.cloud.databricks.com/login.html

Jest to bezpłatna wersja Databricks, czyli zestawu narzędzi do przetwarzania danych (Big Data). Zachęcam do otworzenia konta i zapoznania się z jej możliwościami. Oczywiście dodam na wstępie, że mamy do dyspozycji tylko podstawową funkcjonalność i jest dość okrojona. Więc proszę się nie rozczarować, gdy zobaczycie tylko cluster z jednym driverem. Będzie dostępne 6GB ramu i 10 GB dysku na dane. Wiem, może to się wydać za mało na prawdziwe Big Data. Cluster bez maszyn wykonawczych to jak laptop bez monitora :). Niemniej jednak masz dostęp do Sparka i środowiska wykonawczego Databricks.  Dzięki temu możesz się sporo nauczyć. Będę starał się tego dowieść, ile tak naprawdę można się nauczyć, używając darmowego narzędzia.

Po założeniu konta wystarczy się zalogować już świat Big Data jest otwarty. 

Po zalogowaniu zobaczysz taką stronę. Jest to miłe powitanie. I tego miejsca możemy już zacząć działać.

Wystarczą 3 proste kroki do rozpoczęcia tworzenia aplikacji w Sparku. 

Krok 1 Tworzymy Klaster

Najważniejszy element ze wszystkich to oczywiście klaster, na którym możemy uruchamiać nasze aplikacje. Dobrze by było, jakby ktoś dołożył parę procesorów. Dzięki Databricks Community jest taka opcja. Po lewej stronie klikamy na “Clusters”. Pokaże się strona, na której stworzymy klaster.

W tym miejscu możemy stworzyć własny klaster. W porównaniu do pełnej wersji mamy tylko kilka opcji.
Wybieramy

  • Nazwa kalstra
  • Środowisko Wykonawcze: Tutaj jest kilka opcji, w zależności jaką wersję chcemy. Są dostępne najnowsze wersje beta i różne wersje Sparka i Scali. Daje to możliwość przetestowania najnowszych wersji. 
  • Region (Databricks używa AWS i mamy do wyboru 3 regiony)  

I to wszystko co potrzeba do uruchomienia środowiska wykonawczego. 

Po wybraniu naszych opcji klikasz na “Create Cluster” i już za kilka chwil działasz. 

Krok 2 Dane

Kolejnym ważnym elementem jest dostęp do danych, a właściwie możliwość dodania danych do analizy. Tutaj musimy pamiętać że mamy ograniczenie – 10 GB.

Wybieramy ikonę “Data”

Potem wybieramy opcję “Add Data”

Tutaj wybieramy pliki i przekazujemy je do Databricksów.

“DBFS” tab daje Ci możliwość wglądu do wszystkich folderów jakie zostały stworzone oraz stworzenia tabeli.

“Create Table with UI” ta opcja daje możliwość wyboru klastra i stworzeniu tabeli używając interfejsu.

“Create Table in Notebook” ta opcja otwiera notebook, w którym są przykładowe skrypty, dzięki którym możemy stworzyć tabele.

Krok 3 Pierwszy notebook

Możemy wszystko stworzyć od podstaw lub wykorzystać gotowe notebooki. Jest ich mnóstwo. Systematycznie będę dodawał przykładowe notebooki do githuba. Na razie możesz się posiłkować gotowcem od Databricksów. 

Klikamy na “Databricks” i tutaj mamy link “Explore Quickstart Tutiorial” do przykładowego szablonu, w którym są instrukcje jak korzystać z notebooka. 

Ważnym elementem, którego będziemy często używać jest “Workspace” jest to główne miejsce służącym do nawigacji. W codziennej pracy tworzy się sporo notebooków i trzeba między nimi skakać. 

Gorąco zachęcam do poznania i zabawy.

W kategorii:Databricks Tagi:Databricks, Spark

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

0 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz