• Przejdź do treści
  • Przejdź to drugiego menu
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
  • START
  • BLOG
  • NEWSLETTER
  • KIM JESTEM
  • KONTAKT
Cegładanych

Cegładanych

Dane - Databricks i Chmura Azura

  • Azure
  • Databricks
  • Spark
  • Etl
  • Engineering
  • AI

Po co mi Certyfikat Databricks ?

16.03.2021 Krzysztof Nojman

Certyfikat Databricks

Certyfikat Databricks

Witam wszystkich gorąco i serdecznie, ten wpis będzie dotyczył certyfikacji a konkretnie Certyfikatu Databricks. Postawiłem sobie za cel, że zdobędę ten certyfikat. Są różne opinie na rynku dotyczące certyfikatów w IT. Jedni są za a inny przeciw i na pewno każdy ma racje po swojej stronie i konkretne argumenty. Nie mniej jednak posiadanie certyfikatów ma swoje zalety a najważniejsze dla mnie to usystematyzowanie wiedzy i pokazanie, że poważnie się podchodzi do danej technologii. Poza tym będę wiedział jak trudy, jest taki certyfikat. Od kolegi, który go zdawał dowiedziałem się, że trzeba być dobrze przygotowanym do certyfikatu Databricks i czasu na myślenie nie ma za dużo i trzeba znać się na rzeczy. Aczkolwiek zdawał on stary egzamin, który w tym roku jest już inny.

Jak na razie zdobyłem już dwa, są to darmowe i bardzo proste kursy, które można przerobić w kilka godzin, ale przynajmniej otrzymałem za zachętę ładny papierek. Muszę przyznać, że trochę motywuje.

Już zacząłem zbierać materiały i działam codziennie, żeby cały czas poznawać Sparka i Databricks.

Certyfikat Databricks
Certyfikat Databricks

Certyfikat Databricks

Właśnie zauważyłem, że Databricks zmienił certyfikację od 01 Listopada 2019. Trochę mnie to cieszy, ponieważ historycznie Certyfikat Databricks CRT010: Databricks Certified Developer: Apache Spark™ 2.X kosztował $300 i obejmował znacznie więcej tematów. Obecnie został podzielony na dwa oddzielne egzaminy i do tego cena spadła do $200, więc jak można sobie go odmówić 🙂

  1. Databricks Certified Associate Developer for Apache Spark 2.4
  2. Databricks Certified Associate ML Practitioner for Apache Spark 2.4

Poniżej znajdziecie dwa zestawienia wszystkich elementów egzaminu. Pierwsza część starego egzaminu i druga z nowszej serii. Będę zbierał i dodawał materiały i linki jak tylko znajdę coś ciekawego. Polecam sprawdzać materiały na Git-hub tam też będę wrzucał trochę kodu. Wiec polecam odwiedzać tą stronę.

CRT010: Databricks Certified Developer: Apache Spark™ 2.X

Zdaje sobie sprawę z tego że ten Certyfikat Databricks jest już nieaktualny ale pokazuje co trzeba wiedzieć aby dobrze opanować Sparka.

Certification Exam Scope

  • Understanding breadth of Spark API usage
  • Understanding DataFrame API usage
  • Applying best practices to avoid runtime issues and performance bottlenecks
  • Scaling Spark Applications through API features and architecture
  • Integrating Streaming, ML, GraphFrames atop the Spark unified engine
  • Solving typical use cases

Exam Topic Areas

  • 30% – Spark Architecture and Run-time Behavior
    • Spark cluster components and deployment modes
      • https://spark.apache.org/docs/latest/cluster-overview.html
      • https://techvidvan.com/tutorials/spark-modes-of-deployment/
      • https://www.cegladanych.pl/spark-jakie-ma-komponenty/
      • https://www.cegladanych.pl/czym-jest-spark/
  • Caching – cache(), persist(), unpersist(), and storage levels
    • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-CacheManager.html
    • https://docs.databricks.com/delta/optimizations/delta-cache.html
  • Partitioning
    • Initial DataFrame partitioning when reading from data source
      • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-DataFrameReader.html
    • Repartitioning via coalesce() vs repartition()
      • https://medium.com/@mrpowers/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4
      • https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-rdd-partitions.html
    • Controlling number of shuffle partitions
      • https://medium.com/@manuelmourato25/how-spark-dataframe-shuffling-can-hurt-your-partitioning-28d05fdcb6fa
      • https://kb.databricks.com/data/random-split-behavior.html
  • Performance
    • Catalyst optimizer
      • https://databricks.com/glossary/catalyst-optimizer
    • Identifying performance bottlenecks in Spark applications
      • https://spark.apache.org/docs/latest/sql-performance-tuning.html
      • https://databricks.com/session/understanding-the-performance-of-spark-applications
      • https://databricks.com/blog/2018/01/09/databricks-cache-boosts-apache-spark-performance.html
      • https://databricks.com/session/improving-python-and-spark-performance-and-interoperability
      • https://databricks.com/training/instructor-led-training/courses/apache-spark-tuning-and-best-practices
      • https://databricks.com/session/tuning-apache-spark-for-large-scale-workloads
      •  
  • 40% – Spark SQL and DataFrame/DataSet Manipulation
    • Reading and writing DataFrames
      • https://spark.apache.org/docs/2.2.0/sql-programming-guide.html
      • https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html
    • Transformations, actions, and other operations
  • https://docs.databricks.com/spark/latest/dataframes-datasets/introduction-to-dataframes-scala.html
  • Wide vs narrow transformations
    • https://databricks.com/glossary/what-are-transformations
    • https://training.databricks.com/visualapi.pdf
    • https://supergloo.com/spark-scala/apache-spark-examples-of-transformations/
  • Joins
    • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins.html
    • https://databricks.com/session/optimizing-apache-spark-sql-joins
    • Supported Types
      • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins.html#join-types
      • https://medium.com/@achilleus/https-medium-com-joins-in-apache-spark-part-2-5b038bc7455b
    • Broadcast Joins
      • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-joins-broadcast.html
    • Cross Joins
  • Defining and using User Defined Functions (UDFs)
    • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-udfs.html
  • Window functions
    • https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html
    • https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-functions-windows.html
  • 10% – RDDs and Low-Level APIs
    • Basic RDD and PairRDD operations
      • Transformations, such as map(), flatMap(), mapValues()
      • Aggregations
      • Actions
      • Joins
    • RDD <-> DataFrame conversions
    • Accumulator & AccumulatorV2
    • Wide Transformations, such as reduceByKey(), groupByKey() etc..
  • 10% – Structured Streaming
    • No legacy DStream API coverage
    • Standard sources and sinks
    • Fault tolerance guarantees
    • Streaming DataFrame manipulation
      • Aggregation, including using time windows
    • Watermarking
    • Checkpointing
  • < 5% – Machine Learning
    • No legacy RDD-based APIs coverage
    • ML Pipeline basics
      • Initial DataFrame
      • Transformers
      • Estimators
    • Model selection
      • Evaluators
      • Parameter grids
    • No knowledge about specific algorithms is required
  • < 5% – GraphFrames
    • No GraphX coverage
    • Creating a GraphFrame instance
    • Basic GraphFrame operations
      • inDegrees(), outDegrees()
      • bfs(), shortestPaths()
      • triangleCount()
    • No knowledge about specific algorithms is required
  • Key API Classes
    • SparkSession
    • DataFrame and DataSet
    • DataFrameReader and DataFrameWriter
    • Column and Row
    • org.apache.spark.sql.functions

Databricks Certified Associate Developer for Apache Spark 2.4

  • have a basic understanding of the Spark architecture
  • be able to apply the Spark DataFrame API to complete individual data manipulation task, including: 
    • selecting, renaming and manipulating columns
    • filtering, dropping, sorting, and aggregating rows
    • joining, reading, writing and partitioning DataFrames
    • working with UDFs and Spark SQL functions

Tutaj Databricks rekomenduje kurs DB 105 – Apache Spark™ Programming

Muszę przyznać, że jestem trochę rozczarowany przy poprzednim kursie było dokładnie rozpisane jakie są wymagania. Teraz jest bardziej ogólnie, czyżby było mało chętnych więc Databricks upraszcza żeby nie odstraszać ?

Co jest w kursie to powinno wystarczyć żeby dostać 5, mam taka nadzieję.

  • About Databricks, Spark
  • A high-level overview of the Spark Architecture
  • Spark Entry Points, Simple Data Injestion & overview of API docs
  • Hands-on practice with different data injestion options
  • Hands-on practice with the DataFrames APIs
  • Introduction to Spark’s execution model
  • Hands-on practice with performance optimization
  • Introduction to Structured Streaming
  • Introduction to Machine Learning Pipelines

Co myślicie o takim certyfikacie, jakie są wasze doświadczenia ?

W kategorii:Databricks Tagi:Certyfikat, Databricks

Big Data ebook
Subskrybuj
Powiadom o
guest

guest

2 Komentarze
Najstarsze
Najnowsze Najwięcej głosów
Opinie w linii
Zobacz wszystkie komentarze
Marcin
Marcin
1 rok temu

Na razie nie mam opinii, ale robię ten certyfikat i jeśli się mi powiedzie to powiem

0
Odpowiedz
Krzysztof Nojman
Krzysztof Nojman
Autor
Odpowiedź do  Marcin
1 rok temu

Bez wchodzenia w za i przeciw, bez wątpienia klienci na to patrzą. Powodzenia

0
Odpowiedz

Pierwszy panel boczny

O MNIE

Narzędzia i dobre procesy do przetwarzania danych to podstawa sukcesu i wartości dla firmy. Czytaj więcej…

big data ebook

Ostatnie wpisy

spark joins

Jak Spark robi join?

13.01.2025 By Krzysztof Nojman

Czy JSON to samo zło

04.01.2025 By Krzysztof Nojman

VS Code nowości AI 

09.12.2024 By Krzysztof Nojman

Linki społecznościowe

  • Facebook
  • GitHub
  • LinkedIn
  • YouTube

Wyszukiwanie

Footer

Najnowsze wpisy

  • Jakość danych w Databricks DQX
  • Jak Spark robi join?
  • Czy JSON to samo zło
  • VS Code nowości AI 
  • Lista narzędzi AI dla każdego inżyniera, które warto znać
  • Kilka pomysłów na konfigurację Databricks
  • Co pamięta wykonawca (executor🧠)

Tagi

AI Apache Spark Architektura Azure BIg Data Certyfikat cloud Databricks Data Factory Dataframe DQX ETL Hurtownia Danych Intellij IoT Jaka technologia Join Kod Konfiguracja lakehouse Narzędzia Optymalizacja pyspark Spark Windows 10 zadania

Informacje Prawne

To jest nudna część lecz wymagana, wszystkie notki prawne o stronie znajdziecie tutaj.

Polityka Prywatności

Regulamin

Copyright © 2025 · Wszelkie prawa zastrzeżone. Krzysztof Nojman

wpDiscuz