- Recherche,
ROMDHANI Senda
Evaluation de la fiabilité des services de flux données en se basant sur la qualité de données et la performance du service
Publié le 22 août 2022 – Mis à jour le 29 novembre 2022
Thèse en Informatique, soutenue le 10 mai 2022.
Ces dernières années ont été marquées par une croissance exponentielle de services de données en flux continu, issues du monde physique, ce qui a accru la difficulté de leur sélection en réponse à des requêtes complexes, en adéquation avec les attentes et les conditions qualitatives des consommateurs. En effet, lesdits services permettent l’accès et le recueil de données en temps réel souvent collectées dans différentes conditions (fraîcheur, provenance, sécurité, performance du service).
En outre, les données obtenues via ces services sont utilisées pour prendre des décisions critiques, exigeant de ce fait la sélection de services fiables, de confiance. Un service de flux de données est dit fiable dès lors qu’il est conforme aux conditions QoS promises par son fournisseur et donne accès à des données actualisées. Cependant, les services sont fournis et déployés dans divers environnements en adoptant le modèle de la boîte noire. Ce dernier modèle crée des obstacles supplémentaires dans la mesure où ces services n’exposent ni n’exportent de (méta)-données sur les conditions dans lesquelles ils recueillent des données, ni sur leur qualité.
Partant de ce constat, l’objectif de la présente thèse est de proposer une solution au défi de la sélection de services de flux de données fiables. Plus précisément, étant donnée une requête utilisateur, cette solution doit permettre de (1) calculer la fiabilité des services de flux de données en utilisant leur performance et la qualité des données qu’ils fournissent et (2) classer les services en fonction de leur niveau de fiabilité.
A cette fin, nos travaux de recherche se sont focalisés sur trois problématiques complémentaires à savoir : (1) la définition d’un modèle d’évaluation de la qualité des données pour les services de flux de données, (2) compte tenu du caractère boîte noire, la proposition de protocoles et de stratégies pour le recueil des informations pour l'évaluation, et la façon dont elles sont utilisées pour cette évaluation, et (3) la définition d’un modèle d’évaluation de la fiabilité pour les services de données de type « boîte noire » alliant performance de services et qualité des données.
En réponse à ces problématiques, nous avons proposé dans un premier lieu un modèle d’évaluation de la qualité des données pour les services de flux de données axé sur la fraîcheur des données. La fraîcheur des données est évaluée via deux métriques d'actualité à savoir l'actualité des données et celle de la base de données. L’actualité des données révèle à quel point les données recueillies sont à jour. L’actualité de la base de données révèle à quel point la base de données du service est à jour. Ensuite, nous avons proposé TUTOR, un protocole d’observabilité de qualité de données pour les services de données boîtes noires, afin de recueillir les preuves nécessaires à l’aide de techniques d’échantillonnage pour le calcul des métriques d’actualité et donc, le niveau de fraîcheur des données. Les services sont ainsi étiquetés avec un niveau de qualité des données à jour. Dans un second lieu, nous avons proposé un modèle d’évaluation de la fiabilité pour les services de flux de données reposant simultanément sur les aspects fonctionnels et non fonctionnels du service. Autrement dit, sur les aspects techniques du service et les aspects qualité des données fournies. Une série d'étapes a été suivie pour définir ce modèle d'évaluation de la fiabilité : premièrement, la définition des métriques pour l’évaluation des performances des services, y compris la disponibilité, l’efficacité du temps et le taux de réussite des tâches. Deuxièmement, la définition d'une méthode alliant qualité des données et performance pour calculer la fiabilité desdits services de données. Les services sont ainsi étiquetés avec un niveau de confiance à jour. Ces propositions ont été déployées et validées dans le domaine médical dans le cadre du projet SUMMIT financé par la région Auvergne Rhône Alpes.
En outre, les données obtenues via ces services sont utilisées pour prendre des décisions critiques, exigeant de ce fait la sélection de services fiables, de confiance. Un service de flux de données est dit fiable dès lors qu’il est conforme aux conditions QoS promises par son fournisseur et donne accès à des données actualisées. Cependant, les services sont fournis et déployés dans divers environnements en adoptant le modèle de la boîte noire. Ce dernier modèle crée des obstacles supplémentaires dans la mesure où ces services n’exposent ni n’exportent de (méta)-données sur les conditions dans lesquelles ils recueillent des données, ni sur leur qualité.
Partant de ce constat, l’objectif de la présente thèse est de proposer une solution au défi de la sélection de services de flux de données fiables. Plus précisément, étant donnée une requête utilisateur, cette solution doit permettre de (1) calculer la fiabilité des services de flux de données en utilisant leur performance et la qualité des données qu’ils fournissent et (2) classer les services en fonction de leur niveau de fiabilité.
A cette fin, nos travaux de recherche se sont focalisés sur trois problématiques complémentaires à savoir : (1) la définition d’un modèle d’évaluation de la qualité des données pour les services de flux de données, (2) compte tenu du caractère boîte noire, la proposition de protocoles et de stratégies pour le recueil des informations pour l'évaluation, et la façon dont elles sont utilisées pour cette évaluation, et (3) la définition d’un modèle d’évaluation de la fiabilité pour les services de données de type « boîte noire » alliant performance de services et qualité des données.
En réponse à ces problématiques, nous avons proposé dans un premier lieu un modèle d’évaluation de la qualité des données pour les services de flux de données axé sur la fraîcheur des données. La fraîcheur des données est évaluée via deux métriques d'actualité à savoir l'actualité des données et celle de la base de données. L’actualité des données révèle à quel point les données recueillies sont à jour. L’actualité de la base de données révèle à quel point la base de données du service est à jour. Ensuite, nous avons proposé TUTOR, un protocole d’observabilité de qualité de données pour les services de données boîtes noires, afin de recueillir les preuves nécessaires à l’aide de techniques d’échantillonnage pour le calcul des métriques d’actualité et donc, le niveau de fraîcheur des données. Les services sont ainsi étiquetés avec un niveau de qualité des données à jour. Dans un second lieu, nous avons proposé un modèle d’évaluation de la fiabilité pour les services de flux de données reposant simultanément sur les aspects fonctionnels et non fonctionnels du service. Autrement dit, sur les aspects techniques du service et les aspects qualité des données fournies. Une série d'étapes a été suivie pour définir ce modèle d'évaluation de la fiabilité : premièrement, la définition des métriques pour l’évaluation des performances des services, y compris la disponibilité, l’efficacité du temps et le taux de réussite des tâches. Deuxièmement, la définition d'une méthode alliant qualité des données et performance pour calculer la fiabilité desdits services de données. Les services sont ainsi étiquetés avec un niveau de confiance à jour. Ces propositions ont été déployées et validées dans le domaine médical dans le cadre du projet SUMMIT financé par la région Auvergne Rhône Alpes.
Mots-clés : Fiabilité, services de flux de données, performance, qualité de données.
In recent years, the number of stream data services that can capture real-time data from the physical world has been increasing tremendously. Therefore, selecting a data service that corresponds to users quality requirements and conditions given a request is challenging. Particularly because stream data services provide data under different conditions (data freshness, provenance, security, service performance etc.).
Moreover, data that are accessed using these services are generally used for important (critical) decision making. Therefore, the selected services must be trustworthy. A trustworthy stream data service respects the QoS terms as promised by its provider and provides access to up-to-date data. However, services are deployed in different service environments under the black box model (black box data services). This black box model creates blind spots since services neither export (meta)-data about conditions in which they collect data, nor the quality of data they deliver.
This thesis proposes a solution for the trustworthy stream data service selection challenge. This solution consists of (1) evaluating the trustworthiness of stream data services using performance and data quality as trust factors and (2) ranking services according to their trust levels given a request. Our research focused on three issues, mainly (1) the definition of an evaluation model for data quality for stream data services, (2) considering the black box, the proposal of protocols and strategies for collecting the necessary evidence, and how they are used for this evaluation, and (3) the definition of a trust evaluation model for black box stream data services that combines performance and data quality.
To address these issues, this thesis contributes to two axes. First, we proposed a data quality evaluation model for stream data services focusing on data freshness. Data freshness is evaluated using two timeliness metrics including data timeliness and database timeliness. Data timeliness indicates the extent to which the captured data are up to date. Database timeliness indicates the extent to which the service's database is up-to-date. Then, we proposed TUTOR, a daTa qUaliTy Observability pRotocol for black box stream data services, that helps capture the necessary evidence using sampling techniques for the computation of the timeliness metrics and thus, data freshness level. As a result, services are tagged with an up-to-date data quality level. Second, we proposed a trust evaluation model for black box stream data services which is based simultaneously on the functional and non-functional aspects of the service. In other words, on the technical aspects of the service and the quality aspects of the delivered data. In order to define this trust evaluation model, we followed a series of steps: first, the definition of the QoS metrics used for service performance evaluation including availability, time efficiency, and task success ratio. Second, defining a way for composing data quality and service performance in order to compute data service trust. As a result, services are tagged with an up-to-date trust level. Finally, we provided a proof of concept of the proposals and validated them in the context of medical data services related to sleep apnea in the context of the SUMMIT project.
Keywords : Trust, Stream data services, Performance, Data quality.
Directeur(trice) de thèse : Chririne GHEDIRA GUEGAN
Membres du jury :
- Mme GHEDIRA GUEGAN Chirine, Directrice de thèse, Professeure des Universités, Université Jean Moulin Lyon 3, France,
- Mme GRIGORI Daniela, Rapporteure, Professeure des universités, Université Paris Dauphine PSL, France,
- M. HADJALI Allel, Rapporteur, Professeur des universités, ISAE-ENSMA, Poitiers, France,
- Mme BENNANI Nadia, Maître de conférence, INSA, Villeurbanne, France,
- M. CHASSOT Christophe, Professeur des universités, INSA, Toulouse, France,
- Mme SELLAMI Sana, Maître de Conférences, Aix Marseille Université, Marseille, France,
- Mme VARGAS SOLAR Genoveva, Chargée de recherche habilitée à diriger des recherches, CNRS, Villeurbanne, France,
- M. ZOUARI Belhassen, Professeur, Ecole Supérieure de Communication, Tunis, Tunisie.
Président(e) du jury : Christophe CHASSOT
Je consulte le magazine de l’actualité partenariale et des relations entreprises de l’iaelyon
Mise à jour : 29 novembre 2022