Vers un modèle fiable : données disponibles et données à collecter
En bref. Le système actuel peut aider à classer les alarmes critiques pour savoir lesquelles inspecter en premier. Il ne peut pas encore affirmer qu'un appareil contient une fuite réelle ni détecter correctement les fuites sur tout le réseau.
Ce que nous avons aujourd'hui
| Donnée | Volume | Utilité |
|---|---|---|
| Appareils | 443 | Réseau surveillé |
| Mesures acoustiques | 262 910 | Historique de Minimal, Frequency et Spread |
| Visites de techniciens | 344 | Résultats observés sur le terrain |
| Fuites confirmées | 105 | Exemples positifs disponibles |
| Visites utilisables par les modèles | 320 | Appareil relié et mesure du matin disponible |
| Fuites utilisables par les modèles | 99 | Positifs réellement exploitables |
| Non-fuites utilisables | 221 | Exemples négatifs vérifiés parmi les visites |
| Campagnes | 40 | Groupes indépendants pour la validation |
Les 262 910 mesures sont nombreuses, mais elles ne représentent pas 262 910 fuites connues. Les étiquettes proviennent des visites : nous disposons de 99 fuites exploitables pour apprendre après correction de l'étiquette métier BRT.
Les appareils écoutent-ils réellement le son ?
Oui. Les appareils captent une activité acoustique. Cependant, l'export utilisé actuellement contient surtout trois résumés calculés à partir du signal :
Minimal: niveau acoustique minimal ;Frequency: information fréquentielle résumée ;Spread: dispersion du signal.
Nous ne disposons pas encore d'un corpus d'enregistrements audio bruts reliés aux visites. Le modèle actuel apprend donc le comportement des résumés acoustiques dans le temps, pas directement le son complet.
Pourquoi les fuites confirmées ne suffisent pas
Le modèle doit apprendre deux choses :
- à quoi ressemble une fuite confirmée ;
- à quoi ressemble un bruit suspect qui n'est pas une fuite.
Les non-fuites vérifiées sont indispensables : pompe, vanne, trafic, consommation normale, fontaine, bruit mécanique ou défaut du capteur. Sans ces contre-exemples, le système classerait facilement tout bruit inhabituel comme une fuite.
Un appareil jamais visité reste inconnu. Il ne doit pas être automatiquement étiqueté « pas de fuite ».
Le biais créé par la méthode actuelle
Les techniciens se déplacent principalement après une alarme critique. Les données disponibles répondent donc surtout à cette question :
Parmi les alarmes critiques déjà sélectionnées, lesquelles ont le plus de chances de correspondre à une fuite ?
Elles ne permettent pas encore de répondre correctement à cette question plus large :
Parmi les 443 appareils du réseau, où se trouvent toutes les fuites, y compris celles qui ne déclenchent pas d'alarme critique ?
C'est un biais de sélection. Aucun algorithme ne peut apprendre les résultats des appareils que personne ne vérifie.
Ce que fait le classement actuel
La meilleure combinaison observée dans le benchmark est :
Anomalie propre à l'appareil + Extra Trees + Random Forest
Elle combine :
- le changement par rapport au comportement habituel du même appareil ;
- des interactions non linéaires entre niveaux, tendances et persistance ;
- une forêt construite sur plusieurs sous-échantillons pour vérifier la stabilité des règles.
Le résultat est une priorité relative d'inspection, pas une probabilité certaine de fuite. Le classement indique « inspecter cet appareil avant celui-là ». Le technicien confirme ensuite la cause réelle.
Combien de données supplémentaires faut-il ?
Il n'existe pas de nombre magique. Les volumes suivants sont des objectifs pratiques ; la décision finale devra dépendre des performances sur de nouvelles campagnes jamais utilisées pendant l'entraînement.
Pour un classement solide parmi les alarmes critiques
| Objectif | Disponible | Reste approximatif | |
|---|---|---|---|
| Fuites confirmées indépendantes | 150 à 200 | 99 | 51 à 101 |
| Non-fuites confirmées | 800 à 1 200 | 221 | 579 à 979 |
Ce niveau peut permettre un outil fiable d'aide à la priorisation, à condition que les nouvelles données couvrent plusieurs appareils, campagnes, périodes et conditions de terrain.
Les 99 positifs disponibles sont des visites étiquetées, pas encore 99 événements physiques indépendants. Les colonnes « reste » sont donc optimistes tant qu'un identifiant unique de fuite ne permet pas de regrouper les visites liées à la même fuite.
Pour détecter sur l'ensemble du réseau
| Objectif | Disponible | Reste approximatif | |
|---|---|---|---|
| Fuites confirmées indépendantes | 200 à 500 | 99 | 101 à 401 |
| Non-fuites représentatives | 1 000 à 3 000 | 221 | 779 à 2 779 |
Les non-fuites devront alors inclure des audits d'appareils normal et alarming, pas uniquement des appareils déjà critiques.
Le nombre important est celui des événements physiques indépendants. Mille mesures provenant de la même fuite ne remplacent pas mille fuites différentes.
Données à enregistrer lors de chaque visite
- résultat structuré : fuite / pas de fuite / incertain ;
- cause du bruit lorsqu'il ne s'agit pas d'une fuite ;
- type et emplacement de la fuite lorsqu'elle est confirmée ;
- identifiant unique de l'événement physique ;
- matériau et diamètre de conduite, pression et distance approximative du capteur ;
- mesure avant réparation et mesure après réparation ;
- niveau de confiance du technicien ;
- audio brut, s'il peut être exporté et relié à la visite.
Politique de collecte recommandée
Pour chaque campagne :
- inspecter les sept premières alarmes classées ;
- ajouter une visite d'audit aléatoire en dehors de cette sélection ;
- enregistrer le résultat avec les mêmes champs structurés ;
- comparer les recommandations aux résultats réels ;
- réentraîner et revalider périodiquement le benchmark.
Si une visite hors alarme est impossible pour le moment, le système peut quand même améliorer l'ordre des alarmes critiques. Il faudra simplement présenter clairement sa portée : classement des alarmes, pas détection complète du réseau.
Étapes vers la production
| Étape | Utilisation | Condition de passage |
|---|---|---|
| Mode observation | Le classement fonctionne sans modifier les décisions des techniciens | Vérifier les résultats sur de nouvelles campagnes |
| Pilote assisté | Sept visites classées + une visite d'audit | Gain stable, erreurs comprises et résultats bien enregistrés |
| Aide à la décision en production | Le classement organise réellement les tournées | Validation temporelle et géographique suffisante |
| Classification élargie | Estimation fuite / non-fuite au-delà des alarmes critiques | Audits représentatifs sur tous les statuts |
Le meilleur objectif à court terme n'est pas de remplacer le technicien. Il est de lui donner un meilleur ordre de visite tout en collectant les données nécessaires à un futur système plus fiable.