Il corso introduce le nozioni, le metodologie e gli strumenti fondamentali della linguistica computazionale e del trattamento automatico del linguaggio (Natural Language Processing, NLP). Sono fornite le basi di statistica per l’analisi automatica dei testi e per la comprensione delle funzionamento delle metodologie di apprendimento automatico (machine learning) nonché dei modelli del linguaggio. Sono presentati i principali task di NLP, i principali strumenti di intelligenza artificiale generativa e le principali tecniche di prompting. Al termine del corso gli studenti sono in grado di effettuare task linguistici su testi e di valutarne la performance.
Prerequisiti
Nozioni di base di linguistica, che saranno riprese all'inizio del corso.
Metodi didattici
Lezioni frontali interattive. Slides. Laboratorio con esercitazioni di gruppo sui seguenti temi: 1- Introduzione alla programmazione in Python e a Colab 2- Preprocessing del testo 3- POS tagging e parsing sintattico 4- Named Entity Recognition 5- Semantica distribuzionale 6- Sentiment Analysis
Verifica Apprendimento
Prova orale di verifica dell’apprendimento dei contenuti del corso. Indagine empirica di un fenomeno linguistico (sintattico, semantico, lessicale, discorsivo) o di un fenomeno sociale o culturale (attraverso l'analisi linguistica), a scelta dello studente, concordato con la docente, utilizzando gli strumenti di analisi automatica dei testi illustrati nel corso. Elaborato scritto di 5 cartelle (inclusa bibliografia, escluse le tabelle e le figure) riportante i risultati del task svolto, da inviare a elisabetta. jezek@unipv.it 7 gg prima della data dell'appello d’esame.
Testi
Testo di riferimento: Elisabetta Jezek & Rachele Sprugnoli (2023). Linguistica computazionale. Introduzione all’analisi automatica dei testi. Bologna: Il Mulino. Cap. I; Definizione, scopi e cenni storici, Cap. III Basi di statistica; Cap. IV Apprendimento automatico; Cap. 5 Semantica Distribuzionale e tipi di vettori; Cap. VI L'annotazione dei testi. Ulteriori letture saranno indicate durante le lezioni e indicate nella piattaforma KIRO.
Contenuti
Il corso coprirà i seguenti argomenti: - Definizione, scopi e cenni storici della Linguistica Computazionale e del Natural Language Processing - Basi di Statistica - Apprendimento automatico tradizionale e neurale per il Natural Language Processing - Valutazione dei modelli computazionali - Annotazione di dati linguistici per l'apprendimento automatico - Modelli del linguaggio e intelligenza artificiale generativa
Lingua Insegnamento
ITALIANO
Altre informazioni
Tutto il materiale didattico è disponibile sul portale della didattica KIRO (accesso con credenziali di Ateneo).