ID:
511355
Durata (ore):
18
CFU:
3
SSD:
GLOTTOLOGIA E LINGUISTICA
Anno:
2024
Dati Generali
Periodo di attività
Primo Semestre (23/09/2024 - 17/12/2024)
Syllabus
Obiettivi Formativi
Il Laboratorio di Ethical Aspects in Language Technology (18 ore, 3 CFU) dovrà essere seguito insieme al corso Ethical Aspects in Language Technology (18 ore, 3 CFU) tenuto, nel mese di gennaio, dalla prof.ssa Malvina Nissim, presso il Collegio Ghislieri (offerta formativa “Collegiale non residente”).
Il corso si propone di offrire agli studenti e alle studentesse una base teorica e pratica sulle implicazioni etiche relative allo sviluppo e all’uso delle tecnologie del linguaggio e all’elaborazione del linguaggio naturale (NLP), in particolare Large Language Models (LLM). Gli studenti e le studentesse saranno in grado di individuare, analizzare e valutare criticamente le varie questioni etiche associate alle applicazioni NLP. Inoltre, si acquisiranno competenze pratiche per progettare e implementare soluzioni volte a mitigare la vasta gamma di rischi etici individuabili in queste applicazioni.
Il corso si propone di offrire agli studenti e alle studentesse una base teorica e pratica sulle implicazioni etiche relative allo sviluppo e all’uso delle tecnologie del linguaggio e all’elaborazione del linguaggio naturale (NLP), in particolare Large Language Models (LLM). Gli studenti e le studentesse saranno in grado di individuare, analizzare e valutare criticamente le varie questioni etiche associate alle applicazioni NLP. Inoltre, si acquisiranno competenze pratiche per progettare e implementare soluzioni volte a mitigare la vasta gamma di rischi etici individuabili in queste applicazioni.
Prerequisiti
Non sono richieste conoscenze pregresse di programmazione in Python o di sviluppo di modelli e applicazioni NLP. Una comprensione elementare dei concetti di base della linguistica computazionale è utile ma non obbligatoria.
Metodi didattici
Il corso si articolerà in diversi laboratori in cui gli studenti e le studentesse guidati/e dalla docente lavoreranno su attività pratiche, spesso in piccoli gruppi.
Verifica Apprendimento
La valutazione delle conoscenze acquisite in questo modulo costituisce parte integrante della valutazione finale dell'insegnamento Ethical Aspects in Language Technology. La verifica dell'apprendimento avverrà attraverso una serie di compiti distribuiti lungo tutta la durata del modulo. Gli studenti e le studentesse dovranno partecipare a discussioni e dibattiti durante le lezioni e dovranno preparare presentazioni orali, che serviranno a dimostrare la loro capacità di illustrare le principali questioni associate agli aspetti etici nell'ambito del NLP.
Testi
Articoli in open-access:
- Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency March 2021 Pages 610–623. https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- A. Stevie Bergman, Gavin Abercrombie, Shannon Spruit, Dirk Hovy, Emily Dinan, Y-Lan Boureau, Verena Rieser. 2022. Guiding the Release of Safer E2E Conversational AI through Value Sensitive Design. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 39–52, Edinburgh, UK. Association for Computational Linguistics. https://aclanthology.org/2022.sigdial-1.4.pdf
- Steven Bird. 2020. Decolonising speech and language technology. In Proceedings of the 28th International Conference on Computational Linguistics, pp. 3504-3519. 2020. https://aclanthology.org/2020.coling-main.313.pdf
- Steven Bird. 2022. Local Languages, Third Spaces, and other High-Resource Scenarios. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7817–7829, Dublin, Ireland. ACL. https://aclanthology.org/2022.acl-long.539.pdf
- Yang Cao, Anna Sotnikova, Hal Daumé III, Rachel Rudinger, and Linda Zou. 2022. Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1276–1295, Seattle, United States. Association for Computational Linguistics. https://aclanthology.org/2022.naacl-main.92.pdf
- Dallas Card, Serina Chang, Chris Becker, Julia Mendelsohn, Rob Voigt, Leah Boustan, Ran Abramitzky, and Dan Jurafsky. 2022. Computational analysis of 140 years of US political speeches reveals more positive but increasingly polarized framing of immigration. Proceedings of the National Academy of Sciences 119 (31) e2120510119. https://www.pnas.org/doi/pdf/10.1073/pnas.2120510119
- Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin Kumar, Yulia Tsvetkov, Mark R. Leiser, Saif Mohammad. 2023. Assessing Language Model Deployment with Risk Cards. arXiv. https://doi.org/10.48550/arXiv.2303.18190
- Wei Guo and Aylin Caliskan. 2021. Detecting emergent intersectional biases: Contextualized word embeddings contain a distribution of human-like biases. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’21, page 122–133, New York, NY, USA. Association for Computing Machinery. https://dl.acm.org/doi/pdf/10.1145/3461702.3462536
- David Jurgens, Yulia Tsvetkov, Dan Jurafsky. 2017. Incorporating Dialectal Variability for Socially Equitable Language Identification. ACL 2017. https://aclanthology.org/P17-2009.pdf
- Allison Koenecke, Andrew Nam, Emily Lake, Joe Nudell, Minnie Quartey, Zion Mengesha, Connor Toups, John Rickford, Dan Jurafsky, Sharad Goel. 2020. Racial Disparities in Automated Speech Recognition. Proceedings of the National Academy of Sciences 117 (14) 7684-7689. https://www.pnas.org/doi/epdf/10.1073/pnas.1915768117
- Debora Nozza, Federico Bianchi, Dirk Hovy. 2021. HONEST: Measuring hurtful sentence completion in language models. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2398–2406, Online. Association for Computational Linguistics. https://aclanthology.org/2021.naacl-main.191.pdf
- Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, and Rahul Gupta. 2023. “I’m fully who I am”: Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, pages 1246–1266, Chicago, United States. Association for Computing Machinery. https://doi.org/10.1145/3593013.3594078
- Surangika Ranathunga and Nisansa de Silva. 2022. Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World. AACL/IJCNLP 2022, 823–848. https://aclanthology.org/2022.aacl-main.62.pdf
- Laura Weidinger, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, Myra Cheng, Borja Balle, Atoosa Kasirzadeh, Courtney Biles, Sasha Brown, Zac Kenton, Will Hawkins, Tom Stepleton, Abeba Birhane, Lisa Anne Hendricks, Laura Rimell, William Isaac, Julia Haas, Sean Legassick, Geoffrey Irving, Iason Gabriel. 2022. Taxonomy of risks posed by language models. In 2022 ACM Conference on Fairness, Accountability, and Transparency, pp. 214-229. 2022. https://dl.acm.org/doi/pdf/10.1145/3531146.3533088
- Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel. 2021. Ethical and social risks of harm from Language Models. arXiv. https://arxiv.org/pdf/2112.04359
- Vithya Yogarajan, Gillian Dobbie, Henry Gouk. 20023. Effectiveness of Debiasing Techniques: An Indigenous Qualitative Analysis. ICLR TinyPaper 2023. https://openreview.net/pdf?id=dJfdug9aGd8
- Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency March 2021 Pages 610–623. https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- A. Stevie Bergman, Gavin Abercrombie, Shannon Spruit, Dirk Hovy, Emily Dinan, Y-Lan Boureau, Verena Rieser. 2022. Guiding the Release of Safer E2E Conversational AI through Value Sensitive Design. In Proceedings of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 39–52, Edinburgh, UK. Association for Computational Linguistics. https://aclanthology.org/2022.sigdial-1.4.pdf
- Steven Bird. 2020. Decolonising speech and language technology. In Proceedings of the 28th International Conference on Computational Linguistics, pp. 3504-3519. 2020. https://aclanthology.org/2020.coling-main.313.pdf
- Steven Bird. 2022. Local Languages, Third Spaces, and other High-Resource Scenarios. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7817–7829, Dublin, Ireland. ACL. https://aclanthology.org/2022.acl-long.539.pdf
- Yang Cao, Anna Sotnikova, Hal Daumé III, Rachel Rudinger, and Linda Zou. 2022. Theory-Grounded Measurement of U.S. Social Stereotypes in English Language Models. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1276–1295, Seattle, United States. Association for Computational Linguistics. https://aclanthology.org/2022.naacl-main.92.pdf
- Dallas Card, Serina Chang, Chris Becker, Julia Mendelsohn, Rob Voigt, Leah Boustan, Ran Abramitzky, and Dan Jurafsky. 2022. Computational analysis of 140 years of US political speeches reveals more positive but increasingly polarized framing of immigration. Proceedings of the National Academy of Sciences 119 (31) e2120510119. https://www.pnas.org/doi/pdf/10.1073/pnas.2120510119
- Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin Kumar, Yulia Tsvetkov, Mark R. Leiser, Saif Mohammad. 2023. Assessing Language Model Deployment with Risk Cards. arXiv. https://doi.org/10.48550/arXiv.2303.18190
- Wei Guo and Aylin Caliskan. 2021. Detecting emergent intersectional biases: Contextualized word embeddings contain a distribution of human-like biases. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’21, page 122–133, New York, NY, USA. Association for Computing Machinery. https://dl.acm.org/doi/pdf/10.1145/3461702.3462536
- David Jurgens, Yulia Tsvetkov, Dan Jurafsky. 2017. Incorporating Dialectal Variability for Socially Equitable Language Identification. ACL 2017. https://aclanthology.org/P17-2009.pdf
- Allison Koenecke, Andrew Nam, Emily Lake, Joe Nudell, Minnie Quartey, Zion Mengesha, Connor Toups, John Rickford, Dan Jurafsky, Sharad Goel. 2020. Racial Disparities in Automated Speech Recognition. Proceedings of the National Academy of Sciences 117 (14) 7684-7689. https://www.pnas.org/doi/epdf/10.1073/pnas.1915768117
- Debora Nozza, Federico Bianchi, Dirk Hovy. 2021. HONEST: Measuring hurtful sentence completion in language models. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2398–2406, Online. Association for Computational Linguistics. https://aclanthology.org/2021.naacl-main.191.pdf
- Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, and Rahul Gupta. 2023. “I’m fully who I am”: Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, pages 1246–1266, Chicago, United States. Association for Computing Machinery. https://doi.org/10.1145/3593013.3594078
- Surangika Ranathunga and Nisansa de Silva. 2022. Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World. AACL/IJCNLP 2022, 823–848. https://aclanthology.org/2022.aacl-main.62.pdf
- Laura Weidinger, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, Myra Cheng, Borja Balle, Atoosa Kasirzadeh, Courtney Biles, Sasha Brown, Zac Kenton, Will Hawkins, Tom Stepleton, Abeba Birhane, Lisa Anne Hendricks, Laura Rimell, William Isaac, Julia Haas, Sean Legassick, Geoffrey Irving, Iason Gabriel. 2022. Taxonomy of risks posed by language models. In 2022 ACM Conference on Fairness, Accountability, and Transparency, pp. 214-229. 2022. https://dl.acm.org/doi/pdf/10.1145/3531146.3533088
- Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zac Kenton, Sasha Brown, Will Hawkins, Tom Stepleton, Courtney Biles, Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks, William Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel. 2021. Ethical and social risks of harm from Language Models. arXiv. https://arxiv.org/pdf/2112.04359
- Vithya Yogarajan, Gillian Dobbie, Henry Gouk. 20023. Effectiveness of Debiasing Techniques: An Indigenous Qualitative Analysis. ICLR TinyPaper 2023. https://openreview.net/pdf?id=dJfdug9aGd8
Contenuti
1. Bias (“pregiudizio”) e harm (“danno”) in NLP (focus su LLM)
- Definizioni e tipi di bias e harm;
- Tecniche per identificare, misurare e mitigare i bias;
- Case study con hands-on session: generazione di testo, traduzione automatica;
- Case study con hands-on session: elaborazione del parlato.
2. Questioni etiche nell’annotazione e nell’anonimizzazione dei dati
- Crowdsourcing e l’effetto dei bias nel processo di annotazione;
- La delocalizzazione e le condizioni di lavoro degli annotatori e delle annotatrici;
- I rischi associati all’esposizione dei dati personali e tecniche di anonimizzazione;
- Case study con hands-on session: simulazione di un progetto di anonimizzazione dei dati.
3. Dual use (“duplice uso”) delle tecnologie NLP
- Scenari di dual use (scopi malevoli e scopi benefici) in cui le tecnologie NLP possono essere impiegate;
- Case study con hands-on session: generazione e identificazione di fake news;
- Case study con hands-on session: la profilazione del parlante/utente.
4. Sottorappresentazione linguistica
- Confronto tra le risorse e le applicazioni NLP per la lingua inglese e quelle per altre lingue (il concetto di "under-resourced language");
- Case study con hands-on session: risorse e applicazioni per le lingue africane;
- Case study con hands-on session: riconoscimento vocale automatico delle parlato accentato.
- Definizioni e tipi di bias e harm;
- Tecniche per identificare, misurare e mitigare i bias;
- Case study con hands-on session: generazione di testo, traduzione automatica;
- Case study con hands-on session: elaborazione del parlato.
2. Questioni etiche nell’annotazione e nell’anonimizzazione dei dati
- Crowdsourcing e l’effetto dei bias nel processo di annotazione;
- La delocalizzazione e le condizioni di lavoro degli annotatori e delle annotatrici;
- I rischi associati all’esposizione dei dati personali e tecniche di anonimizzazione;
- Case study con hands-on session: simulazione di un progetto di anonimizzazione dei dati.
3. Dual use (“duplice uso”) delle tecnologie NLP
- Scenari di dual use (scopi malevoli e scopi benefici) in cui le tecnologie NLP possono essere impiegate;
- Case study con hands-on session: generazione e identificazione di fake news;
- Case study con hands-on session: la profilazione del parlante/utente.
4. Sottorappresentazione linguistica
- Confronto tra le risorse e le applicazioni NLP per la lingua inglese e quelle per altre lingue (il concetto di "under-resourced language");
- Case study con hands-on session: risorse e applicazioni per le lingue africane;
- Case study con hands-on session: riconoscimento vocale automatico delle parlato accentato.
Lingua Insegnamento
ITALIANO
Altre informazioni
Il Laboratorio di Ethical Aspects in Language Technology si svolgerà nel mese di dicembre. Le aule e gli orari verranno indicati sul sito web del Dipartimento, su KIRO e sulla pagina docente.
Corsi
Corsi
LINGUISTICA TEORICA, APPLICATA E DELLE LINGUE MODERNE
Laurea Magistrale
2 anni
No Results Found