Logo Università degli Studi di Milano



 
 
Notizie  

Machine Learning for Bioinformatics and Personalized Medicine: a survey of my research activity at the Computer Science Dept UNIMI

Lunedì 20 marzo 2017 allr 11.00

Dipartimento di Informatica, via Comelico 39 Milano, sala lauree

Relatore : Marco Frasca

Supervisore : Prof. Giorgio Valentini

Abstract

L'enorme quantità di dati biologici prodotta dai diversi progetti di sequenziamento del genoma ha richiesto negli ultimi anni uno sforzo notevole nel rappresentare e interpretare tali informazioni. In questo contesto, molte delle sfide che si sono presentate ai ricercatori hanno richiesto la formalizzazione di problemi di apprendimento automatico di diversa natura, per estrarre nuova conoscenza utile alla ricerca biomedica.
Particolare attenzione hanno riscosso alcuni problemi centrali in biologia e in medicina, tra cui la predizione automatica della funzione proteica, l'integrazione di sorgenti eterogenee di dati biologici, il riposizionamento di farmaci esistenti, l'individuazione dei geni coinvolti nelle principali patologie genetiche dell'uomo, l'individuazione delle varianti nucleotidiche singole rilevanti nella determinazione di fenotipi anomali, l'analisi della responsività a farmaci dei pazienti affetti da una specifica patologia.
Dal punto di vista informatico, i problemi affrontati sono molteplici e includono l'apprendimento supervisionato e semi-supervisonato, il ranking di istanze, la classificazione binaria singletask e multitask e l'integrazione di multiple ed eterogenee sorgenti di dati.
Nel seminario questi problemi di apprendimento automatico verranno discussi formalmente, con riferimenti ad alcune applicazioni reali. Verranno quindi presentate brevemente le soluzioni a tali problemi studiate nel corso dell'attività da assegnista, tra cui:
1) Reti di Hopfield parametriche in grado di classificare i nodi in maniera affidabile in presenza di etichettature fortemente sbilanciate;
2) una loro implementazione parallela basata su GPU e con rappresentazione sparsa in grado di elaborare su macchine comuni reti con milioni di nodi;
3) una sua estensione che prevede la possibilità di assegnare i neuroni a categorie differenti in base a loro proprietà intrinseche, diverse dalla classe da predire;
4) uno schema algoritmico per integrare sorgenti di dati eterogenee rappresentate mediante reti;
5) un recente framework per ordinare i nodi secondo la classe da predire che integra anche una procedura di selezione degli esempi negativi più rilevanti;
6) un nuovo modello di propagazione delle etichette multitask che sfrutta le dissimilarità tra i task piuttosto che le loro similarità.
Questo modello si è mostrato particolarmente adatto per problemi di classificazione con rare istanze positive, mentre la sua complessità è pressoché invariata rispetto al modello a task singolo. Il framework di cui al punto 5) è stato applicato a un benchmark pubblico per l'individuazione dei geni responsabili di patologie genetiche dell'uomo, risultando il miglior metodo.
Saranno infine riportati alcuni potenziali sviluppi futuri dei metodi illustrati, di interesse sia metodologico che applicativo.

08 marzo 2017
Torna ad inizio pagina