Calcolo distribuito con Spark SQL | La rete universitaria

Descrizione

Questo corso è rivolto a studenti con esperienza SQL e ora vogliono fare il passo successivo per acquisire familiarità con il calcolo distribuito utilizzando Spark. Gli studenti comprenderanno quando utilizzare Spark e in che modo Spark come motore combina in modo univoco tecnologie dati e AI su vasta scala. I quattro moduli si basano l'uno sull'altro e alla fine del corso lo studente capirà: architettura Spark, Spark DataFrame, ottimizzazione dei dati di lettura / scrittura e come costruire un modello di apprendimento automatico. Il primo modulo introdurrà Spark, incluso il modo in cui Spark funziona con il calcolo distribuito e quali sono Spark Dataframes. Il modulo 2 copre i concetti chiave di Spark come archiviazione vs. elaborazione, memorizzazione nella cache, partizioni e interfaccia utente Spark. Il terzo modulo esamina le pipeline di dati tecnici che riguardano la connessione a database, schemi e tipo, formati di file e scrittura di dati validi. Il modulo finale esamina l'applicazione di Spark con Machine Learning attraverso il caso d'uso aziendale, una breve introduzione su cosa sia l'apprendimento automatico, la costruzione e l'applicazione di modelli e una conclusione finale del corso. Comprendendo quando utilizzare Spark, ridimensionando quando il modello o i dati sono troppo grandi per essere elaborati su una singola macchina o avendo semplicemente bisogno di accelerare per ottenere risultati più rapidi, gli studenti affineranno le loro abilità SQL e diventeranno dati più abili Scienziato.