510324 - STATISTICS AND BIG DATA ANALYSIS

insegnamento

ID:

510324

Durata (ore):

72

CFU:

SSD:

BIOLOGIA MOLECOLARE

Anno:

2024

Periodo di attività

Secondo Semestre (03/03/2025 - 13/06/2025)

Obiettivi Formativi

Al termine del corso lo studente sarà in grado di:
- comprendere e applicare i concetti chiave della statistica, come testare una ipotesi, ipotesi nulla, p-value e modelli statistici;
- identificare i test statistici corretti da applicare in differenti situazioni e più appropriati alla tipologia di dato;
- usare gli strumenti computazionali piu appropriati (R, Nextflow), e l’infrastruttura piu adatta (locale, HPC, Cloud) per rispondere a domande su dati di tipo biologico;
- valutare e confrontare i risultati di una analisi, per rispondere alla domanda iniziale, o prendere decisioni di tipo sperimentale;
- risolvere una domanda biologica e comunicare i risultati di una analisi bioinformatica in modo integrato e coerente, utilizzando metodi di riproducibilità della ricerca.

Prerequisiti

Lo studente dovrà possedere conoscenze di base sull’utilizzo di un computer (almeno Windows): copia di files, installazione di programmi, utilizzo di un browser.
Lo studente dovrà possedere i concetti di base in:
- biologia molecolare (struttura e funzione di un gene, trascrizione, traduzione, splicing e sequenziamento)
- genetica (varianti, frazioni alleliche, frequenza di popolazione, aplotipi).
È richiesto un risultato positivo nel test di autovalutazione dei pre-corsi online (https://elearning.unipv.it/course/view.php?id=20).
Nel caso non fossero presenti conoscenze sufficienti, le basi di biologia molecolare possono essere acquisite nel corso “Basic Molecular Biology” (1° semestre del 1° anno), o approfondite nel corso “Advanced Molecular Biology) (2° semestre del 1° anno); gli elementi di base di genetica possono essere acquisiti nel corso “Basic Genetics and Cell Biology” (2° semestre del 1° anno) o approfonditi nel corso “Human Molecular Genetics (2° semestre del 1° anno).
Conoscenze di biochimica e biologia cellulare non sono essenziali ma sono consigliate.
Conoscenze di base di statistica saranno utili.

Metodi didattici

Il corso farà un uso significativo di strumenti di “blended learning”, in cui il semplice trasferimento di informazioni avviene solo in parte durante le lezioni frontali.
Ci si attenderà che lo studente utilizzi la piattaforma Kiro sia per letture e approfondimenti, che per autovalutazioni.
Le lezioni in classe saranno prevalentemente dedicate a dimostrazioni pratiche, discussioni e problem solving, attraverso una didattica interattiva: demo, lavoro di gruppo, uso di quiz e feedback in tempo reale.
Si utilizzeranno containers (docker), macchine virtuali e editor di codice per lo svolgimento delle lezioni e per migliorare l’apprendimento di python, R e degli strumenti a linea di comando.

Le più appropriate modalità didattiche inclusive saranno individuate di volta in volta per studenti appartenenti alle differenti categorie previste dall’Ateneo.

Verifica Apprendimento

Allo studente sarà assegnato un dataset semplificato da analizzare con le metodologie apprese durante il corso.
Successivamente allo studente sarà chiesto di illustrare i risultati ottenuti, dimostrando un approccio critico al problema biologico e verificando la conoscenza degli strumenti utilizzati.

Testi

Si utilizzeranno prevalentemente materiali a disposizione liberamente, video e tutorials.
L’uso di libri di testo è del tutto a scelta dello studente, e si suggeriscono i seguenti:

- R Bioinformatics Cookbook
Dan MacLean
Packt Publishing, 2019

- Modern Statistics for Modern Biology
Holmes, Susan; Huber, Wolfgang
Cambridge University Press, 2019

- Tidy Modeling with R
Max Kuhn and Julia Silge
O’Reilly

Alcuni testi sono messi a disposizione dalla Biblioteca di Scienze in forma di e-book, o sono già liberamente consultabili come sito web (https://web.stanford.edu/class/bios221/book/, https://www.tmwr.org).

Il docente fornirà in ogni caso materiale, tutorials e approfondimenti durante le lezioni.

Contenuti

Nella prima parte, il corso affronterà le basi della statistica applicate alla biologia, con una particolare attenzione ai metodi ritenuti essenziali nella analisi dei big data.
Nella seconda parte, il corso si concentrerà sugli strumenti computazionali, i metodi e gli ambienti maggiormente utilizzati per l’analisi di big data.
In particolare il corso affronterà:
- concetti di base di statistica, come il test di una ipotesi, le p-value, la scelta del test statistico più appropriato;
- l’ambiente R per la statistica e il modelling dei dati;
- modelling statistico: clustering, riduzione della dimensionalità, supervised learning;
- ambiente unix e bash;
- high performance computing, ambiente di lavoro, scheduler e principi del calcolo distribuito;
- workflows e motori di workflows, con un focus su Nextflow;
- cloud computing.

Lingua Insegnamento

INGLESE

Altre informazioni

Il docente è a disposizione degli studenti sia tramite e-mail e negli orari di ricevimento da concordare, sia tramite strumenti collaborativi: un canale dedicato verra predisposto su Slack per discussioni e conversazioni.