Chapitre 01 - Points à retenir

Site: Campus Virtuel - Université de Jijel
Cours: Données semi-structurées DS
Livre: Chapitre 01 - Points à retenir
Imprimé par: Visiteur anonyme
Date: samedi 6 juillet 2024, 04:32

Description

Les points les plus importants traités dans le chapitre 01.

1. Types des organisations des données

  • Après la définition de l'organisation conceptuelle des données, il faut choisir une organisation physique,
  • Cette organisation définit comment les données vont être structurées et sauvegardées sur le disque,
  • Cette organisation est transparente pour l'utilisateur,
  • Nous pouvons définir trois organisations :
    • Données Structurées (ou les bases de données),
    • Données Non-Structurées (ou les fichiers au format libre, fichiers textes),
    • Données Semi-Structurées (qui seront l'objet de ce module).
  • Chaque organisation répond à des besoins spécifiques ; il faut choisir la bonne organisation pour chaque cas d'utilisation.

2. Données Structurées

  • Il s'agit, généralement, de bases de données.
  • Une Base de données est un gros ensemble d’informations structurées mémorisées sur un support permanent.


2.1. Présentation

  • Les données ont une structure bien défnine,
  • Dans le cas des bases de données :
  • Les données sont organisées en tables,
  • Chaque table compte plusieurs colonnes,
  • La table contient des enregistrement ; ces enregistrements on, tous, la meêm structure (même nombre, types et ordre des colonnes).
  • Le SGBD vérifie la conformité des données avant de les insérer.

2.2. Avantages des données structurées

  • Données entralisées : pas de redondance,
  • Données cohérentes : application des contraintes,
  • Peuvent supporter des grandes quantités des données,
  • Opérations de haut niveau.

2.3. Inconvénients des données structurées

  • Fomat binaire propre au SGBD,
  • Difficle à lire par les humain dans leur format natif,
  • Difficle à lire en utilisant un autre SGBD,
  • Difficle à échanger,

3. Données Non Structurées

  • Par données non-structurées, nous faisons référence aux fichiers textes.
  • Il s'agit de type le plus élémentaire des données.

3.1. Présentation

  • Il s'agti d'une suite de caractères sans une structure claire,
  • Ces fichiers sont édités en utilisant les éditeurs de texte comme Bloc note.
  • Attention : si un logiciel de traitement de texte (comme Microsoft Word) est utilisé pour éditer un fichier texte, il faut préciser "explicitement" son type comme "Fichier Texte" au moement de la sauvegarde. Autrement, Microsoft Word utilisera son propre format (avec l'extension .docx) qui est unformat binaire.


3.2. Avantages des données non-structurées

  • Simples,
  • Faciles à éditer,
  • Faciles à lire par les humains,
  • Faciles à échanger.

3.3. Inconvénients des données snon-structurées

  • Manipulation par des opération de base niveau (comme oucrir, et fermer),
  • Difficles à utiliser dans des traitement automatisés : l'absence de structure rend l'écriture des algorithmes pour les traiter très difficle.

4. Données Semi-Structurées

  • Visent à répondre aux nouveaux besoins requis dans le contexte web :
    • Le besoin d'échange des données : qui nécessite des données "ouvertes" et non pas des formats binaires propriétaires,
    • Le besoin d'avoir une structure des données échangées : pour pouvoir les traiter et les afficher d'une façon correcte à l'utilisateur.