Aller au contenu

Reconnaissance — Modèle d'uplift FWCI EUNICoast (pipeline citation) — 2026-06-24

Reconnaissance pré-implémentation (ADR 0060) d’une réorientation du modèle métier du pipeline citation : passer des citations croisées (ADR 0029) à un modèle prédictif d’uplift de FWCI entre auteurs, restreint au réseau EUNICoast. Conduite par spike jetable (script hors dépôt) sur données OpenAlex réelles. Trace point-in-time : décrit le terrain au 2026-06-24.

  • FWCI (Field-Weighted Citation Impact) : indice d’impact d’une publication, normalisé par domaine et année — un FWCI de 1,0 = impact moyen du champ. Champ porté par chaque work du snapshot OpenAlex.
  • EUNICoast : alliance européenne de 13 universités côtières/insulaires (dont l’Université Le Havre Normandie). Identifiables par leur ROR (Research Organization Registry, identifiant ouvert d’établissement).
  • Uplift : valeur ajoutée d’une collaboration = FWCI obtenu ensemble moins le FWCI solo habituel des deux auteurs. Mesure « 1 + 1 > 2 », pas l’impact absolu.
  • Spike : exploration jetable visant à dé-risquer une décision par des faits, avant tout engagement de code (ici : un modèle ML a-t-il du signal ?).

Le modèle métier actuel du pipeline citation produit des paires de chercheurs par citations croisées (marts_collab_pairs.sql : « qui cite qui »). La nouvelle cible métier est différente : pour un auteur donné, recommander des thématiques ou des auteurs à fort potentiel de FWCI — c’est-à-dire prédire l’uplift d’une collaboration, y compris pour des paires qui n’ont jamais collaboré, sur le périmètre EUNICoast (≥ 1 auteur affilié) et récent (< 10 ans).

La reconnaissance répond à deux questions de faisabilité, dans l’ordre où elles peuvent tuer le chantier :

  1. Données : le pipeline dispose-t-il (ou peut-il disposer) du FWCI, des affiliations institutionnelles, des thématiques et des co-auteurs nécessaires ?
  2. Signal ML : l’uplift de FWCI est-il apprenable depuis une représentation thématique des auteurs (jamais leur identité), au-delà d’une baseline triviale ?
  • Axe données : inventaire de ce qui est déjà ingéré/transformé dans citation (FWCI, topics hiérarchisés, authorships, embeddings) vs ce qui manque.
  • Axe EUNICoast : liste des 13 établissements membres et résolution de leur ROR (site officiel + registre ROR, croisement multi-sources).
  • Axe accès API : le client OpenAlex existant (citation-fetch) expose-t-il les champs requis (FWCI, institutions.ror) ? Sinon, par quel chemin.
  • Spike (3 scripts jetables, hors dépôt) : fetch.py (tirage API réel), analyze.py (mesure du signal), predict.py (test d’apprenabilité). Le verdict complet et les scripts ne sont pas versionnés (exploration jetable, ADR 0060).

Déjà disponible dans le pipeline citation — l’essentiel du modèle est servi par l’existant :

Manque identifié (unique, bloquant le filtre EUNICoast) : les institutions des authorships sont explicitement exclues du staging — stg_citation_authorships.sql:2-3 (« Les institutions (double imbrication) sont HORS périmètre »). Le brut OpenAlex porte pourtant authorships[].institutions[].ror (confirmé sur données réelles au spike). Il faut projeter ce champ pour filtrer sur les ROR EUNICoast.

Référentiel EUNICoast : 13 ROR résolus (haute confiance), dont Le Havre (05v509s40) ; un alias legacy pour les Antilles (017nssj40, prédécesseur de 02ryfmr77) à inclure pour les publications anciennes.

Échantillon : Université Le Havre Normandie (ROR 05v509s40), articles ≥ 2015, tirés via l’API OpenAlex (3 104 works). Un seul établissement sur les 13.

MesureValeurLecture
FWCI absent (NULL)0,6 %le FWCI n’est pas un trou de données
FWCI (méd. / moy. / max)0,36 / 1,76 / 292longue traîne → des collaborations à fort impact à distinguer
Auteurs distincts8 117
Paires de co-auteurs109 476
Paires ≥ 2 co-publications avec FWCI15 482signal d’entraînement brut abondant
Paires entraînables (uplift)7 393les deux auteurs ont une baseline solo (≥ 3 works avec FWCI)
Subfields distincts209features thématiques denses et lisibles

Test d’apprenabilité (predict.py) : représentation d’un auteur = vecteur de subfields TF-pondéré, L2-normalisé (jamais l’author_id). Cible = uplift réel des 7 393 paires. Régression en validation croisée 5-fold contre une baseline triviale (prédire la moyenne) :

ModèleR² (validation croisée)MAE
Baseline (moyenne)−0,000,393
Régression linéaire+0,120,381
Gradient boosting+0,500,258 (−34 %)

R² = 0,50 sur les seuls subfields, sans identité d’auteur. La relation est non-linéaire (le gradient boosting dépasse largement la régression linéaire), ce qui est cohérent avec l’intuition « certaines combinaisons thématiques se complètent ». L’embedding 384, l’historique et les 13 établissements (~100 k paires) ne feront qu’enrichir ce signal.

  • Généralisation aux 13 établissements : le spike ne couvre que Le Havre. Le volume et le signal des autres membres EUNICoast restent à confirmer (le tirage prod le fera). Hypothèse raisonnable mais non prouvée ici.
  • Pouvoir prédictif réel en conditions honnêtes : le spike a fait un split aléatoire par paire et n’a pas isolé les fenêtres temporelles. Deux biais optimistes à corriger en prod, qui abaisseront le R² mesuré :
    • fuite par auteur : la validation doit grouper par auteur (un auteur ne peut être à la fois en entraînement et en test) ;
    • fuite temporelle : la baseline solo et l’uplift doivent être calculés sur des fenêtres cohérentes (ne pas utiliser le futur pour prédire le passé). Le R² de prod sera donc inférieur à 0,50 ; reste à vérifier qu’il demeure nettement positif. C’est le premier risque à lever à l’implémentation.
  • Désambiguïsation des auteurs : author_id reste imparfait (plusieurs par personne, ADR 0059) — non résolu, et hors périmètre du modèle (porte sur des profils thématiques, pas des personnes).
  • Cible = uplift (collab − solo), modèle prédictif (ML). Alternative écartée : modèle descriptif (FWCI observé des collaborations passées) — rejeté car il ne recommande que des collaborations existantes, alors que l’objectif est de proposer de nouveaux auteurs/thématiques.
  • Représentation d’un auteur = thématiques uniquement, jamais l’identité : embedding 384 (similarité fine) + vecteur de subfields (interprétabilité, recommandation de thématiques). C’est ce qui rend la prédiction généralisable aux paires inédites (raisonner sur des thématiques, pas des personnes) et limite le risque RGPD.
  • Périmètre : works avec ≥ 1 auteur affilié EUNICoast (13 ROR) ∩ publication_year ≥ (année courante − 10). Tous les auteurs des works retenus sont profilés (pas seulement les EUNICoast).
  • Filtre EUNICoast par ROR (liste figée en seed), pas par nom. Alternative écartée : match par nom d’établissement — rejeté (variantes de noms, moins précis) puisqu’une liste ROR fiable existe.
  • Démarrage par spike avant tout engagement de code. Alternative écartée : écrire l’ADR + le plan directement — rejeté pour ne pas s’engager sur un modèle au pouvoir prédictif non démontré.

GO. Les deux questions de faisabilité sont levées par des faits : (1) les données nécessaires sont disponibles ou récupérables (seul ajout d’ingestion : projeter authorships[].institutions[].ror) ; (2) l’uplift de FWCI est apprenable depuis les thématiques seules (R² = 0,50 en validation croisée, sur un seul établissement, sans identité d’auteur). Le risque ML principal — un modèle sans pouvoir prédictif — est écarté.

Suite : une décision structurante (réorienter le modèle métier de citation, amender l’ADR 0029) → ADR avant le code ; un plan de mise en œuvre (docs/plans/) ; et les findings actionnables en issues (extraction des affiliations ; seed ROR EUNICoast ; validation anti-fuite du pouvoir prédictif avant d’investir dans le modèle élaboré).