Manipolazione dei dati su scala: sistemi e algoritmi

Descrizione

L'analisi dei dati ha sostituito l'acquisizione dei dati come collo di bottiglia per il processo decisionale basato sull'evidenza: stiamo annegando in essa. L'estrazione della conoscenza da set di dati ampi, eterogenei e rumorosi richiede non solo potenti risorse di elaborazione, ma anche astrazioni di programmazione per utilizzarle in modo efficace. Le astrazioni emerse nell'ultimo decennio fondono idee da database paralleli, sistemi distribuiti e linguaggi di programmazione per creare una nuova classe di piattaforme di analisi dei dati scalabili che costituiscono la base per la scienza dei dati su scale realistiche.

In questo corso imparerai il panorama dei sistemi rilevanti, i principi su cui si basano, i loro compromessi e come valutare la loro utilità rispetto alle tue esigenze. Imparerai come i sistemi pratici sono stati derivati dalla frontiera della ricerca in informatica e quali sistemi stanno arrivando all'orizzonte. Verranno trattati il cloud computing, i database SQL e NoSQL, MapReduce e l'ecosistema che ha generato, Spark ei suoi contemporanei e sistemi specializzati per grafici e array.

Imparerai anche la storia e il contesto della scienza dei dati, le abilità, le sfide e le metodologie che il termine implica e come strutturare un progetto di scienza dei dati. Alla fine di questo corso sarai in grado di:

Obiettivi di apprendimento:
1. Descrivere modelli, sfide e approcci comuni associati ai progetti di data science e cosa li rende diversi dai progetti in campi correlati.
2. Identificare e utilizzare i modelli di programmazione associati alla manipolazione scalabile dei dati, tra cui algebra relazionale, mapreduce e altri modelli di flusso di dati.
3. Utilizzare una tecnologia di database adattata per analisi su larga scala, inclusi i concetti che guidano database paralleli, elaborazione di query parallele e analisi in-database
4. Valutare gli archivi chiave-valore e i sistemi NoSQL, descrivere i loro compromessi con sistemi comparabili, i dettagli di esempi importanti nello spazio e le tendenze future.
5. "Pensa" in MapReduce per scrivere in modo efficace algoritmi per sistemi inclusi Hadoop e Spark. Comprenderai i loro limiti, i dettagli di progettazione, la loro relazione con i database e il loro ecosistema associato di algoritmi, estensioni e linguaggi.
scrivere programmi in Spark
6. Descrivere il panorama dei sistemi Big Data specializzati per grafici, array e flussi