Analisi dei Big Data con Spark | La rete universitaria

Descrizione

Nella scienza dei dati, i dati vengono definiti "grandi" se non possono essere contenuti nella memoria di un singolo laptop o workstation standard. L'analisi di grandi set di dati richiede l'utilizzo di un cluster di decine, centinaia o migliaia di computer. L'utilizzo efficace di tali cluster richiede l'uso di file system distribuiti, come Hadoop Distributed File System (HDFS) e modelli di calcolo corrispondenti, come Hadoop, MapReduce e Spark. In questo corso, parte del programma Data Science MicroMasters, imparerai quali sono i colli di bottiglia in un massiccio calcolo parallelo e come utilizzare Spark per ridurre al minimo questi colli di bottiglia. Imparerai come eseguire un machine learning supervisionato e non supervisionato su enormi set di dati utilizzando la Machine Learning Library (MLlib). In questo corso, come negli altri di questo programma MicroMasters, acquisirai esperienza pratica utilizzando PySpark all'interno dell'ambiente dei notebook Jupyter.