Méthodologie de recherche

Question étudiée

Le système cherche à mieux ordonner les appareils que les techniciens doivent inspecter. Il ne cherche pas encore à supprimer la confirmation terrain. Les fuites étant rares, l'évaluation porte principalement sur la précision-rappel et le rendement des visites, et non sur l'accuracy.

Sources utilisées

Devices.csv et DeviceTypes.csv : identité technique et type des appareils.
Measurements.csv et MeasurementValues.csv : historique acoustique.
DeviceReports.csv : batterie, tension, signal et température.
données prélocs.xlsx : sélections et confirmations terrain.
ui data.csv : contrôle indépendant de la reconstruction des valeurs affichées.

Les tables utilisateurs, mots de passe, clients, cartes SIM, téléphones et SMS ne sont jamais chargées par le pipeline.

Reconstruction de l'interface

Les contrôles sur les lignes possédant un horodatage exact établissent les conversions suivantes :

Minimal Level = round(ValueA / 16.081)
Frequency     = round(ValueB / 16.081)
Spread        = round(ValueC / 16.081)
Minimal %     = Minimal Level / 30

Les statuts sont normal jusqu'à 5 %, alarming entre 5 et 10 %, puis critical au-delà de 10 %. La batterie correspond à BattCap et la qualité radio à Sensitivity.

Construction des étiquettes

Une observation est positive si elle contient une fuite interne/intérieure ou l'un des codes RPC, RCE, CDT, EXT, VANNE, RPEC ou BRT. Toute autre observation, y compris une cellule vide, est négative, conformément à la règle métier fournie pour cette étude. Le champ « à voir » représente la sélection initiale et non le résultat terrain.

Les identifiants terminés par HY sont reliés au type SePem 300 Hy. Les autres identifiants sont reliés au SePem 300 standard. Les identifiants corrompus sont rejetés et documentés.

Prévention des fuites d'information

Le point de prédiction est fixé à 04:00 le jour de l'alarme. Seuls le rapport de 03:00, la mesure acoustique de 03:30 et l'historique antérieur sont utilisables. Les résumés Eval*, Trend, le statut de traitement de l'interface, l'adresse et l'identité de l'appareil ne sont pas des variables du modèle.

Le jeu principal exige une mesure du jour. Les événements sans cette mesure sont conservés dans le rapport qualité mais exclus de l'entraînement principal.

Variables

Pour Minimal Level, Frequency et Spread, le pipeline calcule sur 3, 7, 14 et 30 jours la moyenne, médiane, dispersion, minimum, maximum, étendue, pente et variation. Il ajoute la persistance des jours critiques, l'écart normalisé par rapport aux 30 jours de l'appareil, la batterie, la tension, le signal, la température et la fraîcheur des données.

Modèles et validation

Trois références sont comparées : le seuil fournisseur, une régression logistique pondérée et un XGBoost peu profond pondéré. Aucun sur-échantillonnage synthétique ni réseau profond n'est utilisé.

La validation principale entraîne sur les premières campagnes et teste sur les campagnes les plus récentes. Une validation GroupKFold par appareil mesure la généralisation à d'autres appareils. Chaque expérience conserve les prédictions, métriques, intervalles bootstrap, importances, paramètres, empreintes des sources, versions logicielles et modèle sérialisé.

Politique pilote

À chaque ronde, sept appareils sont choisis par score décroissant. Le huitième est échantillonné hors du top 7, avec stratification sur le statut fournisseur disponible. Cette inspection d'audit sert à découvrir les fuites manquées et à corriger progressivement le biais de sélection.

Un remplacement autonome ne doit pas être envisagé avant au moins 150 fuites indépendantes et une borne inférieure de l'intervalle de confiance à 95 % du rappel d'au moins 90 %, vérifiée dans le temps, par type d'appareil et par saison.