Cartographie sémantique des mémoires d’architecture à Lyon

A feuilleter les interminables listes de sujets, puis à lire en diagonale quelques résumés ‘pour se faire une idée’, rien à faire, l’on se perd dans leur diversité sans même pouvoir prendre un tant soit peu de recul.
Alors, nous avons entrepris une fouille de texte numérique sur le corpus des mémoires d’architecture produits à l’ENSAL au cours de l’année 2018 pour en proposer un début de cartographie, histoire de commencer à s’y retrouver. Représenter de diverses manières le corpus, par thèmes, nuages et similarités, cela permet de dépeindre un paysage de la discipline. Ou plutôt un bref instantané de cette dernière, depuis une production extrêmement locale, tant dans le temps que dans l’espace, les trajectoires de futurs architectes prises sur le vif.

Carte sémantique

Au total, 27 Thèmes (détail des sujets ici) :

  • Patrimoine post-catastrophe
  • Reconversion du patrimoine récent
  • Reconversion des églises
  • Médina de Tunis
  • Villégiature et authenticité
  • Développement urbain et Images de la Ville
  • Espaces urbains, Lieux urbains
  • Informel
  • Concertation, transformations urbaines, profession
  • Innovation et Collaboration
  • Réseaux et management
  • Temporalité des bâtiments
  • Espaces virtuels
  • Enseignement de l’architecture
  • Projet d’architecture
  • Phénomènes d’architecture
  • Utopies culturelles
  • Durabilité et culture
  • Nature, écologies, cycles
  • Développement durable
  • Habitat
  • Lumière et Paysage
  • Matériaux et Construction
  • Divers

Abstract

Au cours de ces dernières années, l’exercice du mémoire est devenu un objet clé pour accéder à la pratique du métier d’architecte. C’est une production jeune ou en bourgeonnement, dense, souvent interdisciplinaire, difficile à cerner dûe à la diversité des thèmes abordés au sein de la discipline. Malgré tout, c’est un corpus que l’on qualifierait comme homogène car fédéré autour d’une discipline.
D’autre part, le traitement automatique du langage – ou Natural Language Processing (NLP) – a connu un essor considérable avec la démocratisation du big data et des nouveaux paradigmes d’apprentissage machine, permettant notamment une représentation du langage plus robuste et plus fine.
Nous proposons d’appliquer ces méthodes sur le corpus formé par les mémoires d’architecture produits à l’ENSAL au cours de l’année 2018, dans le but de proposer une représentation exhaustive des thèmes abordés par les étudiants, puis en faire une synthèse.

Traitement

Les résumés en anglais des 158 mémoires constituent les documents du corpus non-structuré (1) que nous allons traiter selon une méthode de fouille numérique de texte.

En calculant les similarités (2) entre tous les documents pris deux-à-deux, nous pouvons faire émerger – si ils existent – des groupes de documents réunis autour d’un ou plusieurs traits communs. En ce sens, nous avons appliqué l’algorithme d’Analyse Sémantique Latente (ASL) à ce corpus. C’est une approche purement mathématique intervenant sur la matrice des occurrences et des singularités des mots présents dans chaque document. L’ASL prend en compte le contexte de leur utilisation pour définir une contrainte mutuelle entre ces derniers, soit l’établissement d’un ensemble de concepts communs dont sera issu le calcul de similarité. Ces concepts communs agissent comme variables cachées de l’algorithme, et se manifestent en un réseau de récurrences sémantiques que l’on peut tout aussi bien nommer thèmes.
Encore faut il savoir à quel point ces thèmes sont intriqués, si ils se dissocient en des groupes discrets ou ne font qu’agglomérer une masse imprécise. Ainsi, représenter le corpus (3) en des nuages de points ou en matrices colorées par des techniques de réduction de dimension donne l’occasion de vérifier l’existence de ces groupes et d’en évaluer la consistance.
Une fois assurés de leur présence, nous les avons reconstitués par l’algorithme de clustering de Propagation d’Affinité, Affinity Propagation (4), puis définit les thèmes selon une analyse similaire à l’ASL appliquée séparément sur chaque groupe (5) pour en obtenir les mots-clefs.

Cartographie Sémantique

Cette carte sémantique permet de représenter le corpus documentaire structuré en 27 thèmes. Il y a 12 mémoires mal classés soit 7,5%. Dans cette répartition exhaustive, certains thèmes se recoupent qu’il sera possible de fusionner en appliquant un second clustering.
D’un corpus de données dense et complexe nous avons commencé à esquisser un instantané du paysage disciplinaire depuis une production théorique locale.