La Rete Università

Apprendimento automatico: clustering e recupero

Descrizione

Casi di studio: ricerca di documenti simili

Un lettore è interessato a un articolo di notizie specifico e desideri trovare articoli simili da consigliare. Qual è la giusta nozione di somiglianza? Inoltre, cosa succede se ci sono milioni di altri documenti? Ogni volta che desideri recuperare un nuovo documento, devi cercare in tutti gli altri documenti? Come raggruppate insieme documenti simili? Come si scoprono argomenti nuovi ed emergenti trattati nei documenti?

In questo terzo caso di studio, trovando documenti simili, esaminerai algoritmi basati sulla somiglianza per il recupero. In questo corso, esaminerai anche le rappresentazioni strutturate per descrivere i documenti nel corpus, inclusi i modelli di clustering e di appartenenza mista, come l'allocazione di Dirichlet latente (LDA). Implementerai la massimizzazione delle aspettative (EM) per apprendere i cluster di documenti e vedere come ridimensionare i metodi utilizzando MapReduce.

Risultati di apprendimento: entro la fine di questo corso, sarai in grado di:
-Crea un sistema di recupero dei documenti utilizzando k-vicini più vicini.
-Identificare varie metriche di somiglianza per i dati di testo.
-Ridurre i calcoli nella ricerca del vicino più prossimo k utilizzando KD-alberi.
-Produrre vicini più vicini approssimativi utilizzando l'hashing sensibile alla località.
-Compare e confrontare compiti di apprendimento supervisionati e non supervisionati.
-Cluster di documenti per argomento utilizzando k-means.
-Descrivi come parallelizzare k-means usando MapReduce.
-Esaminare approcci probabilistici di clustering utilizzando modelli di miscele
-Adatta una miscela di modello gaussiano utilizzando la massimizzazione delle aspettative (EM).
-Eseguire modelli di appartenenza mista utilizzando l'assegnazione latente di Dirichlet (LDA).
-Descrivere i passaggi di un campionatore Gibbs e come utilizzare il suo output per trarre inferenze.
-Confrontare e contrastare tecniche di inizializzazione per obiettivi di ottimizzazione non convessi.
-Implementa queste tecniche in Python.

Prezzo: Iscriviti gratuitamente!

Lingua: Inglese

Sottotitoli: Inglese, coreano, arabo

Apprendimento automatico: clustering e recupero - Università di Washington