Analisi di Big Data con Scala e Spark

Descrizione

La manipolazione di big data distribuiti su un cluster utilizzando concetti funzionali è dilagante nell'industria ed è probabilmente uno dei primi usi industriali diffusi di idee funzionali. Ciò è dimostrato dalla popolarità di MapReduce e Hadoop, e più recentemente Apache Spark, un framework di raccolte distribuite in memoria veloce scritto in Scala. In questo corso vedremo come il paradigma del parallelo dei dati può essere esteso al caso distribuito, utilizzando Spark ovunque. Tratteremo il modello di programmazione di Spark in dettaglio, facendo attenzione a capire come e quando differisce dai modelli di programmazione familiari, come le raccolte parallele a memoria condivisa o le raccolte Scala sequenziali. Attraverso esempi pratici in Spark e Scala, impareremo quando è necessario considerare importanti questioni relative alla distribuzione come la latenza e la comunicazione di rete e come possono essere affrontate efficacemente per migliorare le prestazioni.

Risultati di apprendimento. Entro la fine di questo corso sarai in grado di:

- leggere i dati dalla memoria persistente e caricarli in Apache Spark,
- manipola i dati con Spark e Scala,
- esprimere algoritmi per l'analisi dei dati in uno stile funzionale,
- riconoscere come evitare mescolanze e ricalcoli in Spark,

Background consigliato: dovresti avere almeno un anno di esperienza di programmazione. La conoscenza di Java o C # è l'ideale, ma è sufficiente anche l'esperienza con altri linguaggi come C / C ++, Python, Javascript o Ruby. Dovresti avere familiarità con la riga di comando. Questo corso è destinato a essere seguito dopo la programmazione parallela: https://www.coursera.org/learn/parprog1.