Rilevamento di notizie false con l'aiuto di un algoritmo

Pubblicato il:

aggiornato:

I ricercatori dell'Università del Michigan hanno recentemente sviluppato un algoritmo che può identificare storie di notizie false meglio degli umani. L'algoritmo utilizza gli indizi linguistici per distinguere tra storie fattuali e inesatte.

L'algoritmo potrebbe essere utilizzato da importanti aggregatori di notizie e siti di social media come Google News e Facebook per individuare e combattere la disinformazione.

Combattere notizie false

Dopo l'elezione di 2016, "fake news" è diventata una parola d'ordine politica come molti hanno ipotizzato quelle notizie inventate su Facebook hanno influenzato i risultati delle elezioni.

Le notizie che riportano informazioni false o discutibili sono proliferate nei siti di social media negli ultimi anni. Queste storie, create come click-bait o con l'intenzione di influenzare l'opinione pubblica, hanno scatenato polemiche in politica e hanno causato grossi problemi alle piattaforme di social media che lottano per regolamentare la massiccia quantità di dati e notizie che circolano sui loro siti web.

Dopo l'elezione di 2016, Facebook ha adottato misure per combattere la distribuzione di contenuti falsi sulle loro piattaforme. Hanno provato a vietare utenti di spicco, come il commentatore di destra Alex Jones, lavorando con ispettori dei fatti di terze partie consentendo agli utenti di segnalare storie inesatte.

Questi sforzi hanno avuto un successo limitato a questo punto, aumentando la necessità di nuove strategie per entrare nell'ovile. Un algoritmo in grado di identificare automaticamente e con precisione le storie di notizie false offre uno strumento accattivante.

"C'è stato uno sforzo significativo negli ultimi tempi nella comunità di ricerca per affrontare questo problema", ha detto Rada Mihalcea, professore di ingegneria elettrica e informatica presso UM e ricercatore capo del progetto.

"Tuttavia, la maggior parte del lavoro, comprese le recenti sfide relative alle notizie false, si è concentrato sulla comprensione della posizione e sulla verifica delle richieste e dei fatti".

"Da quello che so, questo è il primo sistema che affronta l'identificazione automatica di notizie false nelle loro intere dimensioni, e che normalmente appaiono online", ha continuato.

Altre ricerche sono state più limitate, cercando di identificare le esche per clic, o imparando la distinzione tra notizie satiriche e reali, secondo Mihalcea.

Attualmente, i siti di notizie false si basano principalmente su controllori di fatto umani, il che richiede tempo. Con l'afflusso travolgente di notizie condivise online, questo significa che la maggior parte delle storie false non vengono prese e, se lo sono, sono già state lette da un numero sufficiente di persone per avere un impatto.

La verifica automatica potrebbe aiutare gli aggregatori di notizie e i siti di social media a trovare notizie false in precedenza, e forse in modo più accurato, rispetto ai regolatori umani.

Mihalcea ha affermato che l'algoritmo del suo team potrebbe essere utilizzato sia dagli utenti che dai siti di social media per segnalare storie e distinguere tra media attendibili e non attendibili. Ha già dimostrato che può identificare storie di notizie false con un tasso di successo percentuale 76, che è un margine di errore significativo, ma superiore al tasso di successo umano del percento 70.

Come funziona?

Il nuovo algoritmo adotta un approccio abbastanza unico per identificare storie di notizie false. Utilizza l'analisi linguistica, il che significa che esamina le caratteristiche quantificabili nello stile e nel contenuto di ogni articolo, dalla sua struttura grammaticale, al suo uso della punteggiatura e alla complessità del suo linguaggio.

"Abbiamo iniziato raccogliendo un set di dati di notizie - sia false che legittime - che possono essere utilizzate per apprendere le caratteristiche delle notizie false", ha detto Mihalcea. “Rappresentiamo i dati utilizzando una serie di caratteristiche: sequenze di parole, punteggiatura, categorie di parole, relazioni sintattiche e altro.

"Ad esempio, una di queste caratteristiche potrebbe essere un numero che riflette il numero di volte in cui vediamo la parola" storia ", un'altra potrebbe essere il numero di volte in cui vediamo le parole in una relazione soggetto-verbo e così via. Questi rappresentanti vengono quindi inseriti nell'algoritmo di apprendimento, che alla fine decide come pesarli per la classifica finale. "

Mihalcea ha spiegato che questi indizi sono spesso diversi da quelli che gli umani cercano. Ad esempio, l'algoritmo identifica alcune parole chiave che indicano accuratezza o inaccuratezza, che gli umani potrebbero non cercare istintivamente.

"In questa e in altre ricerche che abbiamo fatto sull'inganno, abbiamo trovato ad esempio che l'uso della parola" Io "è associato alla verità", ha detto. "È facile per un algoritmo contare il numero di volte in cui viene detto 'I' e trovare la differenza.

"Le persone, tuttavia, non eseguono questo conteggio in modo naturale e, sebbene possa essere facile, le distraggono dall'effettiva comprensione del testo."

La formazione di un algoritmo per rilevare l'inganno richiede l'identificazione di una vasta serie di indizi linguistici tratti da un significativo campione di notizie false. Questo rappresenta una sfida, poiché le notizie false appaiono e scompaiono rapidamente, vengono in molti generi e possono essere spesso confuse con la satira.

Il team ha evitato questo problema redigendo le proprie fonti di notizie false. Hanno assunto degli scrittori esterni per prendere vere e proprie notizie e decodificarli in falsi. Gli scrittori sono stati reclutati utilizzando il marketplace online di crowdsourcing Amazon Mechanical Turk.

Mihalcea ha notato che questo processo è coerente con il modo in cui le notizie false vengono tipicamente create nel mondo reale.

Alla fine del processo, il team ha avuto un set di notizie reali e false di 500 da alimentare all'algoritmo. Dopo che l'algoritmo ha eseguito un'analisi linguistica su questi elementi, l'hanno testato con notizie vere e false tratte da Internet.

L'algoritmo può attualmente identificare storie fraudolente a un tasso percentuale 76, che è buono, ma c'è spazio per miglioramenti.

Mihalcea ha notato che ci sono prove che l'alimentazione dell'algoritmo di più dati possa rendere l'algoritmo più efficace. Hanno tracciato le prestazioni dell'algoritmo in funzione della quantità di dati immessi in esso, creando una "curva di apprendimento", che ha permesso loro di vedere se l'algoritmo smettesse di apprendere dopo una certa quantità di dati.

"Quello che abbiamo osservato è che è probabile che più dati aumentino le prestazioni, quindi un passo successivo naturale sarebbe quello di raccogliere più notizie, sia false che legittime, come un modo per migliorare l'efficacia dell'algoritmo", ha detto.

Il lavoro del team nello sviluppo dell'algoritmo ha un punto cruciale nella storia politica e dei media. Quasi la metà degli americani ora soprattutto ottenere le loro notizie onlinee oltre i due terzi dicono di ottenere almeno alcune delle loro notizie attraverso i social media.

Ma Internet rimane una fonte di informazioni ampiamente non regolamentata.

"Il web - compresi i social media - gioca un ruolo enorme nella società di oggi, in quanto è una fonte importante di informazioni che le persone usano per prendere decisioni", ha detto Mihalcea.

"Prendi in considerazione ad esempio recenti eventi politici, o le discussioni sulla vaccinazione, e così via. In questo ambiente, dove tutti possono mettere "notizie" là fuori, è importante che le persone abbiano un mezzo per distinguere tra ciò che è degno di fiducia e ciò che non lo è. "

Prova GRATUITA di 6 mesi

Quindi, goditi Amazon Prime a metà prezzo - 50% di sconto!

TUN AI – Il tuo assistente educativo

TUNAI

Sono qui per aiutarti con borse di studio, ricerca universitaria, lezioni online, aiuti finanziari, scelta delle specializzazioni, ammissione all'università e consigli di studio!

La Rete Università