The aim of this workshop is to promote technical and practical exchanges between researchers who use NLP methods. There is no hesitation in detailing the code (r/python), sharing tips, and discovering new methods and models.

Periodicity: Every other Thursday from 12h15 to 13h30, by videoconference.

To attend, please fill the form.

Upcoming sessions

2025-05-22 at 12:15h

Jean-Philippe Galan (IAE de Bordeaux)

Une analyse comparative des IAG et de leur utilité

2025-06-12 at 12:15h

Gabriel Benevides (Dauphine-PSL/ACSS)

Les préoccupations des expats à Paris - une analyse de groupes Facebook

Past sessions

2025-04-17 at 12:15h

David Rutambuka (ICD Business School)

Analyse d’un corpus d’interview - le sport

2025-03-27 at 12:15h

Michael Hodara (Société Kuli)

Analyse IA des vidéos de contenu publicitaire développée par la société Kuli

Abstract: Démonstration de la solution d'évaluation de contenu vidéo développée par la société Kuli et manière dont elle a mené ce projet.

2025-03-20 at 12:15h

William Aboucaya et Dastan Jasim (Dauphine-PSL/ACSS), et Si Hao Li (Dauphine-PSL/Master Iren)

Autour de these.fr

Abstract: Topic modeling (STM) et un jeu de données autour duquel plusieurs projets ici, et ailleurs, se dessinent, celui de these.fr.

2025-03-13 at 12:15h

William Aboucaya (Dauphine-PSL/ACSS) et Oana Balalau (Inria Saclay/Equipe CEDAR)

Améliorer la qualité du débat public grâce à l'IA

Abstract: Every day, we are exposed to an abundance of data, which we need to filter and assimilate to make informed decisions in our lives. In particular, concerning public debates, both average citizens and journalists struggle to make sense of the complex world in which we live. Oana Balalau’s team works on several tools designed to assist journalists via AI and data management. She will present these tools: automatic argumentation extraction with applications to propaganda and greenwashing detection, statistical fact-checking, and automatic extraction of conflict of interest between scientists and companies from scientific publications.

2025-03-06 at 12:15h

Romain Boulet, Jean-Fabrice Lebraty, et Ludovic Pailler (Université Lyon 3)

L'application du droit international privé par les juridictions du fond - vers l’analyse d’un corpus de 200 000 décisions de justice

Abstract: Présentation dans le cadre du projet de recherche de l’Institut des Études et de la Recherche sur le Droit et la Justice. Ce projet est mené par Romain Boulet, Jean-Fabrice Lebraty et Ludovic Pailler au sein du Centre de Recherche sur le Droit International Privé (EDIEC - EA4185) et de l’Institut MAGELLAN de l’Université Jean Moulin Lyon 3. Sur la base d'un corpus de plus de 200 000 décisions de justice, il s'agit d'évaluer dans quelle mesure les juridictions du fond évitent parfois d’appliquer ou appliquent mal le droit international privé, et pourquoi.

2025-02-20 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

A propos de LLM , Rag et autre fine tuning pour les sciences sociales

Abstract: Séance de discussion ouverte autour des nouvelles perspectives offertes par les LLM, le fine-tuning et les RAG pour la recherche en Sciences Sociales, ainsi que des expérimentations à mettre en œuvre. Comment fine-tuner les modèles ? Quels modèles (grands ou petits) utiliser ? Comment constituer des jeux de données pour le réentraînement ? Quels protocoles de mesure adopter ? Comment valider les mesures ? Autant de questions ouvertes.

2025-02-13 at 12:15h

Vincent Favarin (Toulouse School of Management)

Some NLP tools for AI-Powered Services Adoption

Abstract: Une analyse de commentaires YouTube : cas d'application aux objets connectés et assistants IA. Ce projet explore les données issues de YouTube sur les maisons connectées et les assistants IA (2012-2024) en utilisant une approche top-down basée sur le traitement du langage naturel. Les thématiques d'intérêt (connectivité, interaction, personnalisation, confidentialité) sont mesurées grâce aux commentaires des utilisateurs à l’aide d’analyses de similarité sémantique et de classification de sentiments.

2025-01-30 at 12:15h

Theo Delemazure (Dauphine-PSL/Lamsade)

À propos de l’étude du Cepremap "La fièvre parlementaire", des questions de méthode

Abstract: Analyse critique de la note du Cepremap "La Fièvre parlementaire : ce monde où l’on catche ! Colère, polarisation et politique TikTok à l’Assemblée nationale", note n°1 de l'Observatoire du Bien être (janvier 2025), et une discussion sur le data set.

2024-12-12 at 12:15h

Vladimir Avetian (Dauphine-PSL/ Chaire Gouvernance et Régulation

The Anatomy of Censorship and Propaganda: Evidence from Russian Wikipedias

Abstract: Dictators use censorship and propaganda to shape public opinion. As censored content is unobserved and propaganda can be subtle, uncov- ering the priorities of dictators is difficult. We address this challenge by comparing two online encyclopedias in Russian: Wikipedia, a crowd- sourced platform with independent editors, and Ruwiki, a Russian plat- form created by cloning Wikipedia and selectively editing content to serve the regime’s objectives. Patterns of editing activity suggest that, unlike Wikipedia, Ruwiki is edited by professionals rather than by vol- unteers. Ruwiki has far fewer contributors who make more edits per person and are active primarily on working days and during working hours. Regarding content, the main differences between the two ency- clopedias concern three broad topics: (1) Russia’s foreign policy, (2) Russia’s domestic politics, and (3) culture. Ruwiki portrays the country as a liberator rather than an invader in both current and past conflicts. It censors pages about the opposition and domestic human rights viola- tions while promoting a benign view of the current political elites. On the cultural dimension, Ruwiki censors articles about LGBTQIA+, sex, and pornography and promotes traditional gender roles, emphasizing the role of Russia as a defender of traditional values in contrast to the perceived Western moral decline.

2024-12-05 at 12:15h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle) et Hakim Benchabane (Créateur d'Uberzone)

Mesurer l'agentivité des chauffeurs VTC. Une approche NLP

Abstract: Mathilde Abel viendra avec Hakim Benchabane, le créateur d'Uberzone, forum de VTC dont elle a utilisé les données comme corpus. Elle présentera notamment comment elle a construit un classificateur de l'agentivité des VTC.

2024-11-21 at 12:15h

Camille Lacan (Perpignan University)

Multimodal LLMs to measure coherence between text and images in crowdfunding campaign success

2024-11-07 at 12:15h

Benjamin Levy (Dauphine-PSL/DRM )

Sentiments et émotions à l'épreuve des avis des usagers des services publics et des méthodes de mesure

2024-10-24 at 12:15h

Sophie Balech (Université d'Amiens) et Catherine Aussilhou (Université de Nice)

Ré-entraînement(s) de CamemBERT pour catégoriser la nature des posts des marques sur les réseaux sociaux

2024-10-17 at 12:15h

Olivier Caron (Dauphine-PSL/DRM)

Named Entity Recognition (NER) - A Focus on the Gliner Model Using Twitter Data during Covid-19

Abstract: Olivier Caron va nous présenter une implémentation de Gliner, un modèle de NER libre de catégories a priori, sur des données Twitter et la détection des vaccins, de leurs labos et de caractères associés tels que les effets secondaires.

2024-10-03 at 12:15h

Yinglei Han (Dauphine-PSL/Lamsade)

Massive Data Analysis of Careers in the Corporations

Abstract: Careers trajectories analysis of executives in large corporations based on publicly available data (i.e. LinkedIn) with sequence analysis methods and ML methods

2024-09-19 at 12:15h

Haeji Yun (Dauphine-PSL/Executive Master Big Data et IA)

Développement d’un dashboard pour l’analyse du sentiment (bert) et l’extraction des facettes évoquée dans un corpus d’avis Airbnb

2024-09-12 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Une approche “psychométrique” des annotations obtenues par Zero Shot Classification. Application à un corpus publicitaire pour identifier les registres de communication

2024-07-04 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Quelques projets d'application industrielle de l'IA générative

2024-06-20 at 12:15h

Evgenia Passari (Dauphine-PSL/DRM)

Commodities on Business News

Abstract: Evgenia Passari will present how she has built an index, which entails implementing an automated narrative methodology on news articles from the international press for the study of commodity behavior, to understand for example price fluctuation. Her method is based on a dictionary approach and on a very large database (some millions of news).

2024-05-30 at 12:15h

Sophie Balech (Université d'Amiens)

TP_pets: a database for online reviews research in French

Abstract: We present a new database, made by webscraping TrustPilot site during November 2023. We describe the process used to create this database and then some preliminary results. We focus on the zero-shot classification experiment and its results.

2024-04-25 at 12:15h

Christophe Benavent (Dauphine-PSL/ACSS)

Airbnb JO 2024

Abstract: Le projet "Airbnb JO 2024" et les enseignements des premières explorations.

2024-04-11 at 12:15h

Hughes de Mazancourt (Datapolitics)

Présentation du projet Datapolitics

2024-04-04 at 12:15h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)

Assessing the digital labor “grey zone” with computational linguistics: case study from the hail riding sector

Abstract: The project is at the centre of a thesis on the platform economy and digital work, with case studies in the hail riding sector. The research project aims to create an agentivity indicator and to measure the agentivity of VTC drivers in their relationship with platform-type digital devices. To do so, we collected data from a forum of VTC drivers and processed this data using automatic natural language processing methods. The method used combines deep learning (camemBERT) and contextual training (fine tuning) after a classification exercise.

2024-03-28 at 12:15h

Thierry Poibeau (CNRS/Lattice)

La question des coréférences

Abstract: " Au cours de cet exposé, je présenterai un projet sur l'analyse de grands corpus littéraires des 19e et 20e siècles. Les modèles tels que Bert, Llama ou Mistral ont des performances souvent bluffantes, et le TAL peut parfois sembler être un problème résolu, au moins pour certaines tâches traditionnelles. Cependant, un examen plus approfondi révèle que des tâches comme la coréférence continuent de poser problème. C'est particulièrement le cas lorsqu'on travaille sur des textes longs, comme les romans, et encore plus lorsque la langue cible n'est pas l'anglais. Je détaillerai nos résultats et quelques perspectives pour les mois à venir. En conclusion, on verra que la littérature offre un terrain de jeu naturel, et souvent plus difficile que la plupart des benchmarks utilisés publiquement. "

2024-03-14 at 12:15h

Remi Passerotti (Sciences Po Grenoble - UGA)

Analyse des discours politiques et des promesses électorales : the speeches of the 2023 presidential elections

2024-02-29 at 12:15h

Thibault Rolland (Dauphine-PSL/ACSS)

A Zero Shot Learning Trial

Abstract: Thibault Rolland will be presenting a Zero Shot Learning trial using an Airbnb data set.

2023-02-27 at 17:30h

Giovanni Visentin (ESCP Paris)

Mining Upper Echelons’ Big Five Personality Traits from Twitter

2023-01-23 at 17:30h

Patrick Paroubek (CNRS-Paris-Saclay/LISN)

Integrative approach for entities extraction

2022-12-11 at 17:30h

Christophe Benavent (Dauphine-PSL/ACSS)

Entendre du rap français: an interpretation

2022-11-28 at 17:30h

Mihai Calciu (Université de Lille)

Big Twitter Dataset - COVID-19 A Data-sourcing and ETL Exercice

Abstract: A very big data set : Covid tweets on 2 years - 5 to of data - what can we do ?

2022-11-21 at 17:30h

Theo Delemazure (Dauphine-PSL/Lamsade)

From left or right ? playing with GPT3

2022-11-14 at 07:45h

José Carlos Romero Moreno (Dauphine-PSL /ACSS)

Transformers !

2022-11-07 at 17:30h

Christophe Benavent (Dauphine-PSL/ACSS)

Playing with embeddings

2022-10-24 at 17:30h

Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)

More embeddings for forum data analysis

2022-10-10 at 17:30h

Camille Lacan and Olga Gonsalvez (University of Perpignan)

CNNs to capture a smile

Partenaires

CNRS Dauphine INSP Mines Nicod

© 2025 tous droits réservés.

Contact : bruno.chavesferreira@dauphine.psl.eu