The aim of this workshop is to promote technical and practical exchanges between researchers who use NLP methods. There is no hesitation in detailing the code (r/python), sharing tips, and discovering new methods and models.
Periodicity: Every other Thursday from 12h15 to 13h30, by videoconference.
To attend, please fill the form.2025-05-22 at 12:15h
Jean-Philippe Galan (IAE de Bordeaux)
Une analyse comparative des IAG et de leur utilité
2025-06-12 at 12:15h
Gabriel Benevides (Dauphine-PSL/ACSS)
Les préoccupations des expats à Paris - une analyse de groupes Facebook
2025-04-17 at 12:15h
David Rutambuka (ICD Business School)
Analyse d’un corpus d’interview - le sport
2025-03-27 at 12:15h
Analyse IA des vidéos de contenu publicitaire développée par la société Kuli
Abstract: Démonstration de la solution d'évaluation de contenu vidéo développée par la société Kuli et manière dont elle a mené ce projet.
2025-03-20 at 12:15h
William Aboucaya et Dastan Jasim (Dauphine-PSL/ACSS), et Si Hao Li (Dauphine-PSL/Master Iren)
Autour de these.fr
Abstract: Topic modeling (STM) et un jeu de données autour duquel plusieurs projets ici, et ailleurs, se dessinent, celui de these.fr.
2025-03-13 at 12:15h
William Aboucaya (Dauphine-PSL/ACSS) et Oana Balalau (Inria Saclay/Equipe CEDAR)
Améliorer la qualité du débat public grâce à l'IA
Abstract: Every day, we are exposed to an abundance of data, which we need to filter and assimilate to make informed decisions in our lives. In particular, concerning public debates, both average citizens and journalists struggle to make sense of the complex world in which we live. Oana Balalau’s team works on several tools designed to assist journalists via AI and data management. She will present these tools: automatic argumentation extraction with applications to propaganda and greenwashing detection, statistical fact-checking, and automatic extraction of conflict of interest between scientists and companies from scientific publications.
2025-03-06 at 12:15h
Romain Boulet, Jean-Fabrice Lebraty, et Ludovic Pailler (Université Lyon 3)
L'application du droit international privé par les juridictions du fond - vers l’analyse d’un corpus de 200 000 décisions de justice
Abstract: Présentation dans le cadre du projet de recherche de l’Institut des Études et de la Recherche sur le Droit et la Justice. Ce projet est mené par Romain Boulet, Jean-Fabrice Lebraty et Ludovic Pailler au sein du Centre de Recherche sur le Droit International Privé (EDIEC - EA4185) et de l’Institut MAGELLAN de l’Université Jean Moulin Lyon 3. Sur la base d'un corpus de plus de 200 000 décisions de justice, il s'agit d'évaluer dans quelle mesure les juridictions du fond évitent parfois d’appliquer ou appliquent mal le droit international privé, et pourquoi.
2025-02-20 at 12:15h
Christophe Benavent (Dauphine-PSL/ACSS)
A propos de LLM , Rag et autre fine tuning pour les sciences sociales
Abstract: Séance de discussion ouverte autour des nouvelles perspectives offertes par les LLM, le fine-tuning et les RAG pour la recherche en Sciences Sociales, ainsi que des expérimentations à mettre en œuvre. Comment fine-tuner les modèles ? Quels modèles (grands ou petits) utiliser ? Comment constituer des jeux de données pour le réentraînement ? Quels protocoles de mesure adopter ? Comment valider les mesures ? Autant de questions ouvertes.
2025-02-13 at 12:15h
Vincent Favarin (Toulouse School of Management)
Some NLP tools for AI-Powered Services Adoption
Abstract: Une analyse de commentaires YouTube : cas d'application aux objets connectés et assistants IA. Ce projet explore les données issues de YouTube sur les maisons connectées et les assistants IA (2012-2024) en utilisant une approche top-down basée sur le traitement du langage naturel. Les thématiques d'intérêt (connectivité, interaction, personnalisation, confidentialité) sont mesurées grâce aux commentaires des utilisateurs à l’aide d’analyses de similarité sémantique et de classification de sentiments.
2025-01-30 at 12:15h
Theo Delemazure (Dauphine-PSL/Lamsade)
À propos de l’étude du Cepremap "La fièvre parlementaire", des questions de méthode
Abstract: Analyse critique de la note du Cepremap "La Fièvre parlementaire : ce monde où l’on catche ! Colère, polarisation et politique TikTok à l’Assemblée nationale", note n°1 de l'Observatoire du Bien être (janvier 2025), et une discussion sur le data set.
2024-12-12 at 12:15h
Vladimir Avetian (Dauphine-PSL/ Chaire Gouvernance et Régulation
The Anatomy of Censorship and Propaganda: Evidence from Russian Wikipedias
Abstract: Dictators use censorship and propaganda to shape public opinion. As censored content is unobserved and propaganda can be subtle, uncov- ering the priorities of dictators is difficult. We address this challenge by comparing two online encyclopedias in Russian: Wikipedia, a crowd- sourced platform with independent editors, and Ruwiki, a Russian plat- form created by cloning Wikipedia and selectively editing content to serve the regime’s objectives. Patterns of editing activity suggest that, unlike Wikipedia, Ruwiki is edited by professionals rather than by vol- unteers. Ruwiki has far fewer contributors who make more edits per person and are active primarily on working days and during working hours. Regarding content, the main differences between the two ency- clopedias concern three broad topics: (1) Russia’s foreign policy, (2) Russia’s domestic politics, and (3) culture. Ruwiki portrays the country as a liberator rather than an invader in both current and past conflicts. It censors pages about the opposition and domestic human rights viola- tions while promoting a benign view of the current political elites. On the cultural dimension, Ruwiki censors articles about LGBTQIA+, sex, and pornography and promotes traditional gender roles, emphasizing the role of Russia as a defender of traditional values in contrast to the perceived Western moral decline.
2024-12-05 at 12:15h
Mathilde Abel (Université Paris 3 Sorbonne Nouvelle) et Hakim Benchabane (Créateur d'Uberzone)
Mesurer l'agentivité des chauffeurs VTC. Une approche NLP
Abstract: Mathilde Abel viendra avec Hakim Benchabane, le créateur d'Uberzone, forum de VTC dont elle a utilisé les données comme corpus. Elle présentera notamment comment elle a construit un classificateur de l'agentivité des VTC.
2024-11-21 at 12:15h
Camille Lacan (Perpignan University)
Multimodal LLMs to measure coherence between text and images in crowdfunding campaign success
2024-11-07 at 12:15h
Benjamin Levy (Dauphine-PSL/DRM )
Sentiments et émotions à l'épreuve des avis des usagers des services publics et des méthodes de mesure
2024-10-24 at 12:15h
Sophie Balech (Université d'Amiens) et Catherine Aussilhou (Université de Nice)
Ré-entraînement(s) de CamemBERT pour catégoriser la nature des posts des marques sur les réseaux sociaux
2024-10-17 at 12:15h
Olivier Caron (Dauphine-PSL/DRM)
Named Entity Recognition (NER) - A Focus on the Gliner Model Using Twitter Data during Covid-19
Abstract: Olivier Caron va nous présenter une implémentation de Gliner, un modèle de NER libre de catégories a priori, sur des données Twitter et la détection des vaccins, de leurs labos et de caractères associés tels que les effets secondaires.
2024-10-03 at 12:15h
Yinglei Han (Dauphine-PSL/Lamsade)
Massive Data Analysis of Careers in the Corporations
Abstract: Careers trajectories analysis of executives in large corporations based on publicly available data (i.e. LinkedIn) with sequence analysis methods and ML methods
2024-09-19 at 12:15h
Haeji Yun (Dauphine-PSL/Executive Master Big Data et IA)
Développement d’un dashboard pour l’analyse du sentiment (bert) et l’extraction des facettes évoquée dans un corpus d’avis Airbnb
2024-09-12 at 12:15h
Christophe Benavent (Dauphine-PSL/ACSS)
Une approche “psychométrique” des annotations obtenues par Zero Shot Classification. Application à un corpus publicitaire pour identifier les registres de communication
2024-07-04 at 12:15h
Christophe Benavent (Dauphine-PSL/ACSS)
Quelques projets d'application industrielle de l'IA générative
2024-06-20 at 12:15h
Evgenia Passari (Dauphine-PSL/DRM)
Commodities on Business News
Abstract: Evgenia Passari will present how she has built an index, which entails implementing an automated narrative methodology on news articles from the international press for the study of commodity behavior, to understand for example price fluctuation. Her method is based on a dictionary approach and on a very large database (some millions of news).
2024-05-30 at 12:15h
Sophie Balech (Université d'Amiens)
TP_pets: a database for online reviews research in French
Abstract: We present a new database, made by webscraping TrustPilot site during November 2023. We describe the process used to create this database and then some preliminary results. We focus on the zero-shot classification experiment and its results.
2024-04-25 at 12:15h
Christophe Benavent (Dauphine-PSL/ACSS)
Airbnb JO 2024
Abstract: Le projet "Airbnb JO 2024" et les enseignements des premières explorations.
2024-04-04 at 12:15h
Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)
Assessing the digital labor “grey zone” with computational linguistics: case study from the hail riding sector
Abstract: The project is at the centre of a thesis on the platform economy and digital work, with case studies in the hail riding sector. The research project aims to create an agentivity indicator and to measure the agentivity of VTC drivers in their relationship with platform-type digital devices. To do so, we collected data from a forum of VTC drivers and processed this data using automatic natural language processing methods. The method used combines deep learning (camemBERT) and contextual training (fine tuning) after a classification exercise.
2024-03-28 at 12:15h
Thierry Poibeau (CNRS/Lattice)
La question des coréférences
Abstract: " Au cours de cet exposé, je présenterai un projet sur l'analyse de grands corpus littéraires des 19e et 20e siècles. Les modèles tels que Bert, Llama ou Mistral ont des performances souvent bluffantes, et le TAL peut parfois sembler être un problème résolu, au moins pour certaines tâches traditionnelles. Cependant, un examen plus approfondi révèle que des tâches comme la coréférence continuent de poser problème. C'est particulièrement le cas lorsqu'on travaille sur des textes longs, comme les romans, et encore plus lorsque la langue cible n'est pas l'anglais. Je détaillerai nos résultats et quelques perspectives pour les mois à venir. En conclusion, on verra que la littérature offre un terrain de jeu naturel, et souvent plus difficile que la plupart des benchmarks utilisés publiquement. "
2024-03-14 at 12:15h
Remi Passerotti (Sciences Po Grenoble - UGA)
Analyse des discours politiques et des promesses électorales : the speeches of the 2023 presidential elections
2024-02-29 at 12:15h
Thibault Rolland (Dauphine-PSL/ACSS)
A Zero Shot Learning Trial
Abstract: Thibault Rolland will be presenting a Zero Shot Learning trial using an Airbnb data set.
2023-02-27 at 17:30h
Giovanni Visentin (ESCP Paris)
Mining Upper Echelons’ Big Five Personality Traits from Twitter
2023-01-23 at 17:30h
Patrick Paroubek (CNRS-Paris-Saclay/LISN)
Integrative approach for entities extraction
2022-12-11 at 17:30h
Christophe Benavent (Dauphine-PSL/ACSS)
Entendre du rap français: an interpretation
2022-11-28 at 17:30h
Mihai Calciu (Université de Lille)
Big Twitter Dataset - COVID-19 A Data-sourcing and ETL Exercice
Abstract: A very big data set : Covid tweets on 2 years - 5 to of data - what can we do ?
2022-10-24 at 17:30h
Mathilde Abel (Université Paris 3 Sorbonne Nouvelle)
More embeddings for forum data analysis
2022-10-10 at 17:30h
Camille Lacan and Olga Gonsalvez (University of Perpignan)
CNNs to capture a smile
© 2025 tous droits réservés.
Contact : bruno.chavesferreira@dauphine.psl.eu