Unité Mixte de Recherche
Heuristique et Diagnostic
des Systèmes Complexes

                  







Rechercher

Sur ce site




Accueil du site > Séminaires > Séminaires 2007 > Using Logic Programming and XML Technologies for Data Extraction from Web Pages

ICI : Information, Connaissance, Interaction

Séminaires 2007


Using Logic Programming and XML Technologies for Data Extraction from Web Pages

 Costin Badica
Professeur en informatique à l’Université de Craiova en Roumanie (porteur du projet eDalgo)
Elvira Popescu
Assistante d’informatique à l’Université de Craiova en Roumanie et doctorante en co-tutelle à Heudiasyc et à l’université de Craiova

Using Logic Programming and XML Technologies for Data Extraction from Web Pages
 
 
Mardi 20 novembre de 14h00 à 15h30 dans l’amphi N104 à Pierre Guillaumat II
 
 
Résumé :
 
Le Web est beaucoup utilisé pour la diffusion de l’information pour les êtres humains et les affaires. A cette fin, les technologies Web sont utilisées pour convertir les données qui sont en formats internes, généralement spécifiques aux systèmes de gestion de base de données, en présentations appropriées pour attirer les utilisateurs humains. Cependant, l’intérêt a rapidement changé vers mettre l’information à la disposition des machines, se rendant compte que les données Web peuvent être réutilisées pour la résolution de problèmes variés.
 
Dans cette présentation on propose une nouvelle classe enveloppante (L-wrappers, c’est-à-dire logic wrappers) qui mélangent fructueusement le paradigme de programmation logique avec les technologies XML et les approches liées pour l’extraction de données du Web. Ensuite on parle des approches relationnelles et hiérarchiques pour la conceptualisation des pages Web pour l’extraction des données. On continue avec une définition concise des L-wrappers, qui couvre à la fois leurs représentations textuelles et visuelles. Ensuite on examine des algorithmes efficaces pour la construction semi-automatique des L-wrappers et on présente une approche pour l’implémentation des L-wrappers en utilisant le langage de transformation XSLT.
 
 
Abstract :
 
The Web is extensively used for information dissemination to humans and businesses. For this purpose Web technologies are used to convert data from internal formats, usually specific to data base management systems, to suitable presentations for attracting human users. However, the interest has rapidly shifted to make that information available for machine consumption by realizing that Web data can be reused for various problem solving purposes.
 
In this paper we propose a novel class of wrappers – L-wrappers (i.e. logic wrappers) that fruitfully combine logic programming paradigm with efficient XML processing technologies for data extraction from HTML. We start with a brief review of logic programming, XML technologies and related approaches to Web data extraction. Then we discuss flat relational and hierarchical approaches to Web pages conceptualization for data extraction. We follow with a concise definition of L-wrappers covering both their textual and visual representations. Then we discuss efficient algorithms for semi-automatic construction of L-wrappers and we present an approach for implementing L-wrappers using XSLT transformation language.