AI & NLP (Natural Language Processing) workshop

The aim of this workshop is to promote technical and practical exchanges between researchers who use NLP methods. There is no hesitation in detailing the code (r/python), sharing tips, and discovering new methods and models.

Periodicity: Every other Thursday from 12h15 to 13h30, by videoconference.

To attend, please fill the form.

Upcoming sessions

2025-10-16 at 12:15h

Paul Favier (Dauphine-PSL - DRM / Chaire Gouvernance et Régulation)

Expérimenter avec les LLM - Generative Engine Optimization (GEO) : présentation d'outils et d'un design de recherche

Abstract: Ce travail de recherche aborde le concept d'Optimisation pour Moteurs Génératifs (GEO), un nouveau paradigme d'optimisation de contenu qui se concentre sur la visibilité des sources dans les réponses générées par les systèmes d'IA. Pour étudier ce phénomène, Paul présentera un projet de recherche s'appuyant sur 1) un outil open-source GEMQT (Generative Engine for Multiple Queries Tool) qu'il a développé, qui permet de mener des expériences à grande échelle et reproductibles sur les systèmes conversationnels ; 2) un outil plus efficace et systématique qui est LiteLLM, une bibliothèque qui fournit une interface unifiée pour appeler de nombreuses API de modèles d'IA, gérant ainsi la complexité technique et les erreurs ; puis 3) une analyse préliminaire des données récoltées. L'objectif final de ce travail est d'identifier les variables d'une page internet qui influencent la visibilité d'une ressource web dans une réponse générée par l'IA.

2025-10-30 at 12:15h

Olivier Berthier (Dauphine-PSL / Executive Master Statistique & Big Data)

Identification d’argument : identifier des segments sémantiques avec Qwen, sur la base du “grand débat”

Abstract: Nous analysons 87 562 contributions du Grand Débat National sur la transition écologique, en focalisant l’étude sur la question ouverte “Que faites‑vous pour protéger l’environnement ?” et leur variation selon le type de commune. Au cœur du projet, nous concevons un pipeline NLP rule‑based avec spaCy (tokenisation/lemmatisation) et extraction d’expressions multi‑mots par patrons syntaxiques (NOM+ADJ, VERBE+OBJ), complété par TF‑IDF, co‑occurrences et analyse de tonalité. Cette approche met en évidence des “signatures thématiques” territoriales robustes et interprétables. Des LLM viendront enrichir le pipeline (normalisation/synthèse, codage thématique assisté).

2025-11-06 at 12:15h

Mehdi ELMOUKHLISS (Marylink.io)

Generative AI as Practice: CREW Operational Governance Framework

Abstract: Generative artificial intelligence (GenAI) governance and orchestration face complex challenges: diverse use cases, unmanaged risks, limited knowledge retention, and difficulties in measuring impacts. These barriers hinder consistent, scalable, and innovative GenAI adoption. Rather than treating GenAI as a technical tool, this article conceptualizes Generative AI as a practice. We introduce an integrative theoretical framework (DCS), grounded in three knowledge management theories, to align strategic thinking, collaboration, and knowledge structuring. Implemented through the CREW model (Components, Roles, Environments, Workflows), this framework fosters agile, collaborative governance that clarifies responsibilities, tailors deployments, retains knowledge, measures practices, and supports responsible GenAI adoption. The CREW model provides a practical roadmap to optimize GenAI value while mitigating risks. Its theoretical contributions advance the understanding of GenAI governance in organizations.

2025-11-20 at 12:15h

Vincent To (Dauphine-PSL - DRM / Chaire Gouvernance et Régulation)

GenAI in Internal Audit

Abstract: Internal Audit must produce multiple reports on different granularity. Report to the attention of all readers, Executive Summary to the attention of top management & Synthesis to the Board of Directors. By leveraging on GenAI, the goal is to obtain quickly a suggestion of Executive Summary (around 650 words) and a Synthesis (around 250 words) with an intuitive WebApp integrated.

2025-12-04 at 12:15h

Christian Chung (Dauphine-PSL / DRM)

To be announced

2025-12-11 at 12:15h

Damien Mayaux (Dauphine-PSL - DRM / Chaire Gouvernance et Régulation)

Skill distance and job transitions of unemployed workers after a training program

Abstract: Do training programs help reduce structural imbalances in the labor market? We develop a novel measure of skill distance between occupations by applying a natural language processing algorithm to a sample of job postings. Using this measure, we find that the differential in re-employment rates between trained and untrained workers is driven by reallocations into occupations that are more distant in terms of required skills from the last job held. From a purely reallocative perspective, however, the re-employment differential associated with training programs does not appear to be explained by more frequent transitions into occupations facing strong labor shortages. (With Kevin Michael Frick, Yagan Hazard, Thomas Zuber)

Past sessions

2025-10-02 at 12:15h

Andres Tellez Avila (Mines Paris-PSL)

Cartographie et complexité thématique assistées par intelligence artificielle : application à l’électrification du transport

Abstract: Ce projet met en œuvre un processus assisté par IA pour la cartographie thématique et l’analyse de la complexité des travaux scientifiques. En combinant le traitement automatique du langage, regroupement et étiquetage des thèmes, il permet de cartographier l’espace des connaissances sur l’électrification des transports. L’approche relie méthodes bibliométriques et théorie de la complexité économique afin d’identifier les dynamiques de recherche et les opportunités stratégiques.

2025-09-25 at 12:15h

Elina Ishmukhametova (Université de Lille 1 - Faculté des Sciences et Technologie)

Experimental Investigation of Algorithm Delegation for Choice Tasks

Abstract: Are people willing to delegate their decisions to algorithms? This question is crucial for understanding the economic implications of Al. In this paper, we contribute to answering it by experimentally examining attitudes toward algorithmic delegation, i.e., the willingness to delegate choices to algorithms. Unlike prior research focused on forecasting or judgmental tasks, our study centers on choice tasks, where individuals make decisions based on personal preferences over lotteries. Two opposing forces may drive delegation: the desire for autonomy versus the burden of choice overload. To isolate intrinsic preferences, we equalize error rates across all treatments. Results from a preregistered study show no significant difference in willingness to delegate between human and algorithmic decision-makers, suggesting that people are not generally averse to algorithmic decision-making.

2025-09-18 at 12:15h

Olivier Caron (Dauphine-PSL - DRM / Chaire Gouvernance et Régulation)

Tester le modèle d’amplification sociale des risques sur un corpus social

Abstract: La prochaine présentation porte sur l’utilisation du Natural Language Processing (NLP) pour analyser les contenus générés par les utilisateurs. Nous présenterons notre approche pour deux tâches de classification binaire : la détection d’événements indésirables médicamenteux en contexte multilingue (Task 1) et l’identification sur Reddit de témoignages personnels d’effets secondaires liés au vaccin du zona (Task 6). Ces travaux ont été réalisés dans le cadre du workshop Social Media Mining for Health (SMM4H) and Health Real-World Data (HeaRD) de la conférence ICWSM 2025.

2025-09-11 at 12:15h

Guillaume Valicon et Guillaume Hochard (Airpanel Co-founders & CEOs)

Air Panel - vers des enquêtes synthétiques ?

Abstract: Présentation du projet de panels de consommateurs simulés par IA

2025-06-12 at 12:15h

Gabriel Benevides (Dauphine-PSL/ACSS)

Immigrant Narratives: Evidence from Facebook Expat Groups

Abstract: "This project uses text data from Facebook groups composed of expatriates in France to explore immigrants’ own narratives of integration, vulnerability, and adaptation. In contrast to traditional survey-based approaches, we focus on unstructured posts within social support communities. We combine traditional text analysis techniques with large language models to analyze over 20,000 posts from more than 60 expatriate Facebook groups, identifying country-specific lexical patterns, extracting implicit signals, and classifying narratives."

2025-06-05 at 12:15h

Clara Baignères (CPES-PSL "Sciences des données, Arts et Cultures")

Les embeddings convergent-ils ?

Abstract: Comparaison des résultats de plusieurs modèles "zéro shot" de classification NLI, sur une base d'incidents critiques liés à l'IA.

2025-05-22 at 12:15h

Adrien Louÿs (Dauphine-PSL/Master 2 Iren - Industries, Réseaux et Économie Numérique) et Ye Liu (Ecole des Chartes - PSL/Master 1 Humanités numériques)

Deux expériences d'étudiants

Abstract: Adrien LOUYS : Etude de positionnement des marques de parfums : Une approche NLP Le but est de réaliser une cartographie des marques de parfums en s’appuyant sur des techniques de traitement du langage naturel (NLP). L’étude repose sur la collecte et l’analyse de descriptions textuelles générées à partir d’images de publicités de parfums. Un modèle NLP léger est exploité pour extraire les dépendances syntaxiques et structurer les relations entre les mots. L'algorithme t-SNE est appliqué pour visualiser les proximités du message publicitaires des marques. Ye LIU : Identification de stratégie de self présentation dans le corpus Airbnb. Basée sur la théorie du management d’impression de Goffman, mon étude analyse comment les hôtes se présentent sur Airbnb. En mobilisant un modèle de classification zero-shot, j’identifie cinq tactiques de présentation de soi dans leurs descriptions personnelles. J’explore ensuite leur influence potentielle sur le taux de réservation, ainsi que l'interaction avec le statut de Superhôte.

2025-03-27 at 12:15h

Michael Hodara (Société Kuli)

Analyse IA des vidéos de contenu publicitaire développée par la société Kuli

Abstract: Démonstration de la solution d'évaluation de contenu vidéo développée par la société Kuli et manière dont elle a mené ce projet.

2025-03-20 at 12:15h

William Aboucaya et Dastan Jasim (Dauphine-PSL/ACSS), et Si Hao Li (Dauphine-PSL/Master Iren)

Autour de these.fr

Abstract: Topic modeling (STM) et un jeu de données autour duquel plusieurs projets ici, et ailleurs, se dessinent, celui de these.fr.

2025-03-13 at 12:15h

William Aboucaya (Dauphine-PSL/ACSS) et Oana Balalau (Inria Saclay/Equipe CEDAR)

Améliorer la qualité du débat public grâce à l'IA

Abstract: Every day, we are exposed to an abundance of data, which we need to filter and assimilate to make informed decisions in our lives. In particular, concerning public debates, both average citizens and journalists struggle to make sense of the complex world in which we live. Oana Balalau’s team works on several tools designed to assist journalists via AI and data management. She will present these tools: automatic argumentation extraction with applications to propaganda and greenwashing detection, statistical fact-checking, and automatic extraction of conflict of interest between scientists and companies from scientific publications.

2025-03-06 at 12:15h

Romain Boulet, Jean-Fabrice Lebraty, et Ludovic Pailler (Université Lyon 3)

L'application du droit international privé par les juridictions du fond - vers l’analyse d’un corpus de 200 000 décisions de justice

Abstract: Présentation dans le cadre du projet de recherche de l’Institut des Études et de la Recherche sur le Droit et la Justice. Ce projet est mené par Romain Boulet, Jean-Fabrice Lebraty et Ludovic Pailler au sein du Centre de Recherche sur le Droit International Privé (EDIEC - EA4185) et de l’Institut MAGELLAN de l’Université Jean Moulin Lyon 3. Sur la base d'un corpus de plus de 200 000 décisions de justice, il s'agit d'évaluer dans quelle mesure les juridictions du fond évitent parfois d’appliquer ou appliquent mal le droit international privé, et pourquoi.

2025-02-20 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

A propos de LLM , Rag et autre fine tuning pour les sciences sociales

Abstract: Séance de discussion ouverte autour des nouvelles perspectives offertes par les LLM, le fine-tuning et les RAG pour la recherche en Sciences Sociales, ainsi que des expérimentations à mettre en œuvre. Comment fine-tuner les modèles ? Quels modèles (grands ou petits) utiliser ? Comment constituer des jeux de données pour le réentraînement ? Quels protocoles de mesure adopter ? Comment valider les mesures ? Autant de questions ouvertes.

2025-02-13 at 12:15h

Vincent Favarin (Toulouse School of Management)

Some NLP tools for AI-Powered Services Adoption

Abstract: Une analyse de commentaires YouTube : cas d'application aux objets connectés et assistants IA. Ce projet explore les données issues de YouTube sur les maisons connectées et les assistants IA (2012-2024) en utilisant une approche top-down basée sur le traitement du langage naturel. Les thématiques d'intérêt (connectivité, interaction, personnalisation, confidentialité) sont mesurées grâce aux commentaires des utilisateurs à l’aide d’analyses de similarité sémantique et de classification de sentiments.

2025-01-30 at 12:15h

Theo Delemazure (Dauphine-PSL/Lamsade)

À propos de l’étude du Cepremap "La fièvre parlementaire", des questions de méthode

Abstract: Analyse critique de la note du Cepremap "La Fièvre parlementaire : ce monde où l’on catche ! Colère, polarisation et politique TikTok à l’Assemblée nationale", note n°1 de l'Observatoire du Bien être (janvier 2025), et une discussion sur le data set.

2024-12-12 at 12:15h

Vladimir Avetian (Dauphine-PSL/ Chaire Gouvernance et Régulation

The Anatomy of Censorship and Propaganda: Evidence from Russian Wikipedias

Abstract: Dictators use censorship and propaganda to shape public opinion. As censored content is unobserved and propaganda can be subtle, uncov- ering the priorities of dictators is difficult. We address this challenge by comparing two online encyclopedias in Russian: Wikipedia, a crowd- sourced platform with independent editors, and Ruwiki, a Russian plat- form created by cloning Wikipedia and selectively editing content to serve the regime’s objectives. Patterns of editing activity suggest that, unlike Wikipedia, Ruwiki is edited by professionals rather than by vol- unteers. Ruwiki has far fewer contributors who make more edits per person and are active primarily on working days and during working hours. Regarding content, the main differences between the two ency- clopedias concern three broad topics: (1) Russia’s foreign policy, (2) Russia’s domestic politics, and (3) culture. Ruwiki portrays the country as a liberator rather than an invader in both current and past conflicts. It censors pages about the opposition and domestic human rights viola- tions while promoting a benign view of the current political elites. On the cultural dimension, Ruwiki censors articles about LGBTQIA+, sex, and pornography and promotes traditional gender roles, emphasizing the role of Russia as a defender of traditional values in contrast to the perceived Western moral decline.

2024-12-05 at 12:15h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle) et Hakim Benchabane (Créateur d'Uberzone)

Mesurer l'agentivité des chauffeurs VTC. Une approche NLP

Abstract: Mathilde Abel viendra avec Hakim Benchabane, le créateur d'Uberzone, forum de VTC dont elle a utilisé les données comme corpus. Elle présentera notamment comment elle a construit un classificateur de l'agentivité des VTC.

2024-11-21 at 12:15h

Camille Lacan (Perpignan University)

Multimodal LLMs to measure coherence between text and images in crowdfunding campaign success

2024-11-07 at 12:15h

Benjamin Levy (Dauphine-PSL/DRM )

Sentiments et émotions à l'épreuve des avis des usagers des services publics et des méthodes de mesure

2024-10-24 at 12:15h

Sophie Balech (Université d'Amiens) et Catherine Aussilhou (Université de Nice)

Ré-entraînement(s) de CamemBERT pour catégoriser la nature des posts des marques sur les réseaux sociaux

2024-10-17 at 12:15h

Olivier Caron (Dauphine-PSL/DRM)

Named Entity Recognition (NER) - A Focus on the Gliner Model Using Twitter Data during Covid-19

Abstract: Olivier Caron va nous présenter une implémentation de Gliner, un modèle de NER libre de catégories a priori, sur des données Twitter et la détection des vaccins, de leurs labos et de caractères associés tels que les effets secondaires.

2024-10-03 at 12:15h

Yinglei Han (Dauphine-PSL/Lamsade)

Massive Data Analysis of Careers in the Corporations

Abstract: Careers trajectories analysis of executives in large corporations based on publicly available data (i.e. LinkedIn) with sequence analysis methods and ML methods

2024-09-19 at 12:15h

Haeji Yun (Dauphine-PSL/Executive Master Big Data et IA)

Développement d’un dashboard pour l’analyse du sentiment (bert) et l’extraction des facettes évoquée dans un corpus d’avis Airbnb

2024-09-12 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Une approche “psychométrique” des annotations obtenues par Zero Shot Classification. Application à un corpus publicitaire pour identifier les registres de communication

2024-07-04 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Quelques projets d'application industrielle de l'IA générative

2024-06-20 at 12:15h

Evgenia Passari (Dauphine-PSL/DRM)

Commodities on Business News

Abstract: Evgenia Passari will present how she has built an index, which entails implementing an automated narrative methodology on news articles from the international press for the study of commodity behavior, to understand for example price fluctuation. Her method is based on a dictionary approach and on a very large database (some millions of news).

2024-05-30 at 12:15h

Sophie Balech (Université d'Amiens)

TP_pets: a database for online reviews research in French

Abstract: We present a new database, made by webscraping TrustPilot site during November 2023. We describe the process used to create this database and then some preliminary results. We focus on the zero-shot classification experiment and its results.

2024-04-25 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Airbnb JO 2024

Abstract: Le projet "Airbnb JO 2024" et les enseignements des premières explorations.

2024-04-11 at 12:15h

Hughes de Mazancourt (Datapolitics)

Présentation du projet Datapolitics

2024-04-04 at 12:15h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)

Assessing the digital labor “grey zone” with computational linguistics: case study from the hail riding sector

Abstract: The project is at the centre of a thesis on the platform economy and digital work, with case studies in the hail riding sector. The research project aims to create an agentivity indicator and to measure the agentivity of VTC drivers in their relationship with platform-type digital devices. To do so, we collected data from a forum of VTC drivers and processed this data using automatic natural language processing methods. The method used combines deep learning (camemBERT) and contextual training (fine tuning) after a classification exercise.

2024-03-28 at 12:15h

Thierry Poibeau (CNRS/Lattice)

La question des coréférences

Abstract: " Au cours de cet exposé, je présenterai un projet sur l'analyse de grands corpus littéraires des 19e et 20e siècles. Les modèles tels que Bert, Llama ou Mistral ont des performances souvent bluffantes, et le TAL peut parfois sembler être un problème résolu, au moins pour certaines tâches traditionnelles. Cependant, un examen plus approfondi révèle que des tâches comme la coréférence continuent de poser problème. C'est particulièrement le cas lorsqu'on travaille sur des textes longs, comme les romans, et encore plus lorsque la langue cible n'est pas l'anglais. Je détaillerai nos résultats et quelques perspectives pour les mois à venir. En conclusion, on verra que la littérature offre un terrain de jeu naturel, et souvent plus difficile que la plupart des benchmarks utilisés publiquement. "

2024-03-14 at 12:15h

Remi Passerotti (Sciences Po Grenoble - UGA)

Analyse des discours politiques et des promesses électorales : the speeches of the 2023 presidential elections

2024-02-29 at 12:15h

Thibault Rolland (Dauphine-PSL/ACSS)

A Zero Shot Learning Trial

Abstract: Thibault Rolland will be presenting a Zero Shot Learning trial using an Airbnb data set.

2023-02-27 at 17:30h

Giovanni Visentin (ESCP Paris)

Mining Upper Echelons’ Big Five Personality Traits from Twitter

2023-01-23 at 17:30h

Patrick Paroubek (CNRS-Paris-Saclay/LISN)

Integrative approach for entities extraction

2022-12-11 at 17:30h

Christophe Benavent (Dauphine-PSL/ACSS)

Entendre du rap français: an interpretation

2022-11-28 at 17:30h

Mihai Calciu (Université de Lille)

Big Twitter Dataset - COVID-19 A Data-sourcing and ETL Exercice

Abstract: A very big data set : Covid tweets on 2 years - 5 to of data - what can we do ?

2022-11-21 at 17:30h

Theo Delemazure (Dauphine-PSL/Lamsade)

From left or right ? playing with GPT3

2022-11-14 at 07:45h

José Carlos Romero Moreno (Dauphine-PSL /ACSS)

Transformers !

2022-11-07 at 17:30h

Christophe Benavent (Dauphine-PSL/ACSS)

Playing with embeddings

2022-10-24 at 17:30h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)

More embeddings for forum data analysis

2022-10-10 at 17:30h

Camille Lacan and Olga Gonsalvez (University of Perpignan)

CNNs to capture a smile

Partners

CNRS Dauphine INSP Mines Nicod

© 2025 all rights reserved.

Contact : bruno.chavesferreira@dauphine.psl.eu