Analisi dei dati ad alta dimensione | La rete universitaria

Descrizione

Se sei interessato all'analisi e all'interpretazione dei dati, questo è il corso di data science per te. Iniziamo imparando la definizione matematica di distanza e la usiamo per motivare l'uso della scomposizione del valore singolare (SVD) per la riduzione delle dimensioni e la scalatura multidimensionale e la sua connessione all'analisi delle componenti principali. Impareremo a conoscere l'effetto batch: il problema analitico dei dati più impegnativo oggi nella genomica e descriveremo come le tecniche possono essere utilizzate per rilevare e regolare gli effetti batch. Nello specifico, descriveremo l'analisi delle componenti principali e l'analisi fattoriale e dimostreremo come questi concetti vengono applicati alla visualizzazione dei dati e all'analisi dei dati di dati sperimentali ad alto rendimento. Infine, forniamo una breve introduzione al machine learning e lo applichiamo ai dati ad alto rendimento. Descriviamo l'idea generale alla base dell'analisi di clustering e descriviamo K-means e clustering gerarchico e dimostriamo come questi vengono utilizzati in genomica e descriviamo algoritmi di predizione come vicini k-più vicini insieme ai concetti di set di addestramento, set di test, tassi di errore e cross- validazione. Data la diversità nel background educativo dei nostri studenti, abbiamo diviso la serie in sette parti. Puoi seguire l'intera serie o singoli corsi che ti interessano. Se sei uno statistico dovresti considerare di saltare i primi due o tre corsi, allo stesso modo, se sei biologo dovresti considerare di saltare alcune delle lezioni introduttive di biologia. Si noti che le statistiche e gli aspetti di programmazione della classe aumentano in difficoltà relativamente rapidamente nei primi tre corsi. Dal terzo corso si insegneranno concetti statistici avanzati come i modelli gerarchici e dal quarto abilità avanzate di ingegneria del software, come il calcolo parallelo e concetti di ricerca riproducibili. Questi corsi compongono 2 serie XS e sono di autoapprendimento: PH525.1x: Statistica e R per le scienze della vita PH525.2x: Introduzione ai modelli lineari e all'algebra matriciale PH525.3x: Inferenza statistica e modellazione per esperimenti ad alto rendimento PH525.4x : Analisi dei dati ad alta dimensione PH525.5x: Introduzione al bioconduttore: annotazione e analisi di genomi e saggi genomici PH525.6x: Calcolo ad alte prestazioni per la genomica riproducibile PH525.7x: Casi di studio in genomica funzionale Questa classe è stata supportata in parte da NIH concedere R25GM114818.