Recherches récentes : ce qui fonctionne, ce qui bloque encore

Périmètre. Cette page complète l'état de l'art historique. Elle se concentre sur les travaux récents (2022–2026) concernant la détection acoustique des fuites d'eau, leur usage de l'apprentissage automatique et les difficultés qui empêchent encore un déploiement autonome.

Le déplacement du problème depuis 2022

La recherche récente ne se limite plus à montrer qu'une fuite produit un signal différent. Elle cherche à savoir si un système entraîné dans un laboratoire, sur une conduite ou dans une ville reste fiable ailleurs.

La synthèse de Fan, Tariq et Zayed (2022) organise les approches acoustiques pour les conduites d'eau. La même année, Fares et al. étudient explicitement l'émission acoustique et l'apprentissage automatique sur de vrais réseaux de distribution. Ce passage au terrain est essentiel : les conditions urbaines ajoutent les usages nocturnes, pompes, vannes, trafic, variations de pression et différences de matériau que les bancs d'essai contrôlent mal.

Les travaux de 2024–2026 se déplacent vers quatre fronts : apprendre avec peu d'étiquettes, transférer entre réseaux, expliquer les décisions et améliorer les capteurs. Aucun de ces fronts ne supprime encore le besoin d'une vérité terrain solide.

Carte des approches récentes

Axe récent	Ce que les chercheurs ont réalisé	Difficulté qui demeure
Validation sur réseau réel	entraînement et test sur des signaux acquis en exploitation	peu de fuites indépendantes et sélection des sites déjà suspects
Imagerie acoustique + deep learning	transformation du signal en représentation spatiale ou temps–fréquence exploitable par CNN	matériel, débit de données et performances hors banc d'essai
Apprentissage contrastif	utilisation des grandes quantités d'audio non étiqueté avec peu d'exemples de fuite	augmentations réalistes et transfert vers une autre conduite ou ville
Fusion multi-capteurs	combinaison de l'acoustique avec pression, débit ou plusieurs capteurs	synchronisation, capteurs manquants et coût de déploiement
Capteurs distribués	multiplication des points d'observation pour améliorer la localisation	volume de données, installation et interprétation des chemins multiples
Interprétabilité	identification des bandes ou portions du signal qui déclenchent le modèle	une explication plausible n'est pas une preuve physique de fuite
Transfert de domaine	adaptation d'un modèle entraîné sur un réseau vers un autre	chute de performance lorsque matériau, pression et bruit changent
Capteurs vectoriels robotisés	mesure plus riche de la direction du champ acoustique	solution invasive et coûteuse, encore différente des loggers fixes

1. Réseaux réels : le progrès le plus important

Fares et al. (2022) ciblent la détection dans de vrais réseaux plutôt qu'une conduite expérimentale isolée. Bykerk et Valls Miro (2022) rapportent également une validation de terrain. Ces études rendent les résultats plus proches de l'exploitation, mais ne résolvent pas trois biais :

les conduites instrumentées ne représentent pas nécessairement tout le réseau ;
une longue acquisition peut contenir très peu de fuites physiques indépendantes ;
les sites inspectés sont souvent ceux que le système précédent jugeait déjà suspects.

Le dernier point est critique. Un appareil non visité n'est pas un négatif fiable. Sans visites d'audit tirées hors des alarmes, le rappel réel sur tout le réseau reste inconnu.

2. Deep learning : de meilleurs signaux, pas automatiquement une meilleure preuve

Ahmad et al. (2022) combinent imagerie acoustique et deep learning pour détecter les fuites de conduite. Cette famille de méthodes peut apprendre des motifs difficiles à résumer manuellement. Elle suppose toutefois un signal riche : audio brut, spectrogramme ou image acoustique.

Deux problèmes reviennent dans cette littérature :

découper quelques enregistrements en milliers de fenêtres gonfle artificiellement la taille du jeu de données ;
répartir des fenêtres d'un même enregistrement entre apprentissage et test permet au modèle de reconnaître le site, le capteur ou le bruit de fond.

La séparation correcte doit se faire par fuite physique, conduite, capteur ou campagne. Un score obtenu sur des fenêtres aléatoires ne prouve pas la généralisation à une nouvelle fuite.

Pour les données de ce projet, une CNN audio n'est pas encore justifiée : l'export principal fournit Minimal, Frequency et Spread, mais pas un corpus audio brut associé aux 344 visites.

3. Peu d'étiquettes : contrastif, semi-supervisé et anomalies

Le travail de Liu et al. (2024) applique l'apprentissage contrastif au contexte de faibles étiquettes. Le principe est adapté aux réseaux d'eau : apprendre d'abord une représentation à partir d'un grand volume de signaux non étiquetés, puis utiliser un petit nombre de fuites confirmées.

La difficulté se déplace vers la définition des exemples « similaires » et « différents ». Une augmentation audio peut préserver la fuite, la masquer ou créer une signature physiquement impossible. De plus, un modèle auto-supervisé peut apprendre l'identité du capteur, la conduite ou la saison plutôt que le phénomène de fuite.

La détection d'anomalie évite d'étiqueter tous les négatifs en apprenant la normale propre à un appareil. Elle détecte néanmoins toute rupture persistante : fuite, vanne, pompe, consommation inhabituelle ou défaut du capteur. Elle produit donc un candidat à inspecter, pas une confirmation.

4. Localisation et capteurs distribués

Hooper, Kalkowski et Muggleton (2024) étudient l'amélioration de la localisation acoustique par détection distribuée. Plus de points de mesure peuvent contraindre la position de la source, mais introduisent synchronisation, volume de données et chemins de propagation multiples.

La thèse de Uchendu (2024) examine des méthodes stationnaires et transitoires. La distinction compte : une méthode efficace sur un bruit de fuite stable ne traite pas nécessairement un événement transitoire, et inversement.

La thèse de Watts (2026) pousse plus loin la mesure avec des capteurs acoustiques vectoriels embarqués. Elle montre une direction matérielle prometteuse pour les conduites plastiques, mais son coût et son mode d'inspection ne correspondent pas encore à un parc de loggers fixes et bas débit.

5. Le problème actuellement central : généraliser

Les études récentes sur l'interprétabilité des modèles acoustiques (2025) et le transfert entre réseaux (2025) attaquent deux limites directement liées.

Un modèle peut être précis dans son domaine d'entraînement et échouer lorsque changent :

matériau, diamètre ou profondeur de la conduite ;
pression, débit et taille de fuite ;
distance et couplage entre fuite et capteur ;
type de capteur, gain ou fréquence d'échantillonnage ;
saison, trafic et habitudes de consommation.

L'interprétabilité aide à détecter qu'un modèle utilise un artefact, mais elle ne garantit pas le transfert. La preuve utile reste une évaluation externe : nouveau capteur, nouvelle zone, nouvelle période ou autre réseau.

6. Les difficultés non résolues en 2026

Vérité terrain rare et imparfaite

Une « absence de fuite observée » peut signifier qu'aucune fuite n'existe, qu'elle est trop petite, que la visite a eu lieu trop tard ou que l'inspection l'a manquée. Peu d'études disposent de mesures avant et après réparation au même emplacement.

Confusion entre volume de données et diversité

Des millions d'échantillons issus de dix fuites restent dix événements indépendants. Les intervalles de confiance et les séparations doivent être calculés au niveau de la fuite, pas de la fenêtre.

Domaine physique variable

L'atténuation et la propagation dépendent de l'infrastructure. Les conduites plastiques, les longues distances et les faibles pressions restent particulièrement difficiles. Ajouter un réseau neuronal ne retire pas cette dépendance physique.

Faux positifs opérationnels

Une classification statistiquement forte peut rester inutilisable si elle génère trop de visites. Les articles rapportent souvent accuracy ou F1 ; l'exploitant a besoin de fuites trouvées par journée de terrain, de visites évitées à rappel fixé et d'un score calibré.

Reproductibilité et comparaison

Les jeux de données publics représentatifs sont rares. Protocoles, capteurs, classes et séparations diffèrent, ce qui rend les classements entre articles fragiles. La publication du niveau événement, des métadonnées et de la règle de split est aussi importante que celle du modèle.

7. Ce que cette recherche implique pour Fès

Le constat local corrigé — 35,8 % des alarmes critical visitées confirmées comme fuites — place le projet exactement sur le problème actuel : réduire les faux positifs sans perdre les fuites observées dans les niveaux alarming ou normal.

La phase de modélisation devrait donc tester, dans cet ordre :

un changement robuste par rapport à la normale propre de chaque appareil ;
un modèle tabulaire simple sur les tendances de Minimal, Frequency et Spread ;
une validation future et par appareil, jamais une séparation aléatoire par mesure ;
une sortie calibrée avec abstention : fuite probable, non-fuite probable, visite requise ;
le semi-supervisé seulement après validation de la référence simple ;
le deep learning acoustique seulement lorsqu'un corpus audio brut relié aux visites existe.

La contribution scientifique la plus défendable n'est donc pas « appliquer un CNN ». Elle consiste à mesurer la généralisation sous rareté des confirmations, biais de sélection par alarme et changement de domaine entre appareils.