My PhD Thesis (ma thèse)
Change management for semi-structured data on the Web
The purpose of this thesis is to investigate the management of data changes on the Web. More precisely, we focus on semi-structured data such as XML. Our main motivation is that changes are often useful information to users. First, we consider changes at a 'microscopic' scale, such as an XML document. We propose an algorithm to detect changes, and a formalism to represent these changes. We use the tree structure of XML in order to find results with richer semantics. We also present a comparative study of algorithms and tools in this area. In the second part, we consider changes at a 'macroscopic' scale, the scale of the graph of the Web. We propose an on-line adaptive algorithm to compute page importance. We also present joint research with the French national library in the context of web archiving. All works presented in this thesis have been implemented and are freely available and/or used in the industry.
Gestion des changements pour les données semi-structurées du Web
Dans cette thèse, nous nous intéressons aux données et connaissances disponibles sur le Web, notamment sous une forme semi structurée comme XML. Plus précisément, nous étudions les changements des données, car ils ont eux-mêmes porteurs d'information. Dans un premier temps nous étudions les changements à l'échelle `microscopique', celle du XML. Nous proposons un algorithme de détection des changements et un formalisme pour les représenter, exploitant la structure en arbre de XML. Nous menons aussi une étude comparative des différentes propositions dans ce domaine. Dans un deuxième temps, nous étudions les changements à l'échelle macroscopique, celle du graphe des pages Web. Nous proposons un algorithme permettant de calculer dynamiquement l'importance des pages, et une application à l'archivage du Web avec la bibliothèque nationale de France. L'ensemble des travaux de cette thèse ont été implantés dans des programmes qui sont disponibles librement et/ou valorisés dans l'industrie.
Download the thesis
Change Management of semi-structured data on the Web
PhD thesis,
Ecole Doctorale de l'Ecole Polytechnique
Back to homepage