• English
Méthodoc
Logo Bibenligne
• le 14-09-2007 :
• Une histoire de format
• le 27-08-2008 :
• Emotaix
• le 31-12-1969 :
• Stages Urfist en Paca
[Fermer]

Crévilles


Bienvenue sur Crévilles

 

Crévilles est à votre disposition, n'hésitez pas Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir de vos propositions, commentaires et critiques.

 

Dans le cadre de la création en 2005 du nouveau centre de documentation qui est issu du regroupement des fonds des différents laboratoires qui composent la Maison des Sciences de l'Homme Val de Loire à Tours, la question du passage au format électronique des ressources documentaires nous est apparue primordiale.

Un premier état des lieux des ressources documentaires disponibles actuellement via Internet nous ayant fait constater un éparpillement qui complique fortement les recherches dans le domaine des sciences sociales et, plus encore, celui des études urbaines, il a été décidé de créer un centre de ressources électroniques sur les villes, Crévilles.

Le premier objectif de ce projet est donc de faciliter les recherches à l’intersection des sciences sociales et des études urbaines en regroupant l’accès aux ressources documentaires électroniques à travers un site internet qui propose toute une palette d’outils de recherche accessibles à tous via le web.

Le second est de constituer un fonds électronique disponible via ce site en utilisant les ressources propres à la MSH Val de Loire pour participer à notre échelle au gigantesque mouvement de construction d’une bibliothèque numérique universelle (et donc d’accès libre pour tous), en collaboration avec les grands projets de ce type et en s'associant avec toutes institutions intéressées par cette thématique tant pour l’alimenter en contenu que pour créer de nouveaux projets d'ordre documentaire en coopération.

La construction intellectuelle et ergonomique de ce centre de ressources électroniques sous la forme d’un site web se fait en plusieurs étapes avec une intégration progressive des outils d’aide à la recherche documentaire et des ressources propres à la MSH Val de Loire.

Crévilles est édité par la Maison des Sciences de l'Homme Val de Loire, unité mixte de service (USR 3501) du CNRS et de l'Université de Tours.

Crévilles est fabriqué, alimenté et entretenu par Pascal Garret et Jean-Philippe Corbellini, sous la direction de Marie-Luce Demonet, Directrice de la MSH Val de Loire.
 
Sylvette Denèfle, Stéphane Loret, Marie-Christine Lyaet, Thomas Lallier, Joanna Greenland et Maud Bouillon ont également longuement et pleinement participé à cette aventure.

 

Si vous souhaitez recevoir l'affiche de Crévilles ou des plaquettes de présentation, n'hésitez pas Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir . Nous vous les ferons parvenir par courrier.

 

Mentions légales


Mentions légales concernant le site Crévilles

Crédits :
Conception, réalisation et contenu : © MSH Val de Loire

Identification :

Ce site internet est édité par la MSH Val de Loire de Tours
33, allée Ferdinand de Lesseps
37204 Tours Cedex 03

Directrice de publication :
Mme Marie-Luce Demonet, Directrice de la MSH Val de Loire

Le projet Crévilles à été initié en 2005 sous la direction de Mme Sylvette Denèfle, Directrice de la MSH de Tours jusqu'en décembre 2011.

Droits d'auteurs et copyright :
L'ensemble de ce site relève de la législation française et internationale sur le droit d'auteur et la propriété intellectuelle. Tous les droits de reproduction et de diffusion sont réservés, y compris pour les représentations iconographiques et photographiques.
La reproduction de tout ou partie de ce site sur un support quel qu'il soit, est formellement interdite sauf autorisation expresse du directeur de la publication.

Droit d'accès et de rectification :
Articles 38 à 43, Loi 78-17 du 6 janvier 1978 : "Toute personne dont le nom apparaît dans ce serveur peut à tout moment demander la suppression ou la modification des informations la concernant en contactant le Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir du site."

 

 

N'hésitez pas Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir de toutes anomalies qui pourraient figurer dans Crévilles afin que nous puissions les rectifier dans les meilleurs délais

 

Partenaires


Crévilles travaille en collaboration avec

 

 

Vous souhaitez devenir partenaire de Crévilles ? Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir .

Nous contacter

Nous contacter

Nom : Crévilles
Maison des Sciences de l'Homme Val de Loire, Tours
Adresse : : 33, allée Ferdinand de Lesseps
37000 TOURS
E-mail : Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir
Téléphone : 02 47 36 14 82
{nomultithumb}

mystiCform Module

 
 
 

 caractères restants
 

• La reconnaissance optique de caractère : Océriser un texte avec Abbyy FineReader le 02-03-2010 Convertir en PDF Version imprimable Suggérer par mail

Le contenu de ce tutoriel est placé sous copyright de ses auteurs et sous contrat Creative Commons
 
FineReader est une marque déposée propriété de la société ABBYY
 
L’OCR (Optical Character Recognition), ou reconnaissance optique de caractère, est un procédé informatique qui permet de reconnaître, dans une image, les lettres composant un texte. Ceci permet donc de transformer un fichier image en fichier texte.
 
Le principal intérêt de cette technique est de pouvoir ensuite effectuer une recherche dans un texte, ainsi que de sélectionner des mots ou des phrases de ce même texte.
 
tuto
Télécharger ce tutoriel sous le format : pdf

 

L’océrisation peut s’avérer utile, par exemple, après avoir numérisé un texte disponible uniquement en version papier. Elle permet de profiter pleinement de la version électronique du document.

Ce tutoriel propose de montrer comment "océriser" un texte en utilisant le logiciel Abbyy FineReader™.

Il existe plusieurs versions d’Abbyy FineReader. Celle utilisée dans ce tutoriel est la version 10 complète, qui n’existe à l’heure actuelle que pour Windows (les utilisateurs Mac peuvent utiliser la version Express.)

Préparer son fichier

Le fichier contenant le texte à océriser peut être de différents formats : pdf, jpeg, gif, png, tiff, etc...

Afin que le logiciel Abbyy FineReader puisse traiter le texte le mieux possible, il est préférable que ce dernier soit clairement lisible. Si le fichier numérisé est légèrement effacé ou si le contraste est faible, il peut être nécessaire de préalablement le traiter à l’aide d’un logiciel de traitement d’image (augmenter le contraste, resserrer les niveaux...)

Le logiciel permet de créer un fichier texte brut, d’exporter en différents formats, de garder l’image d’origine dans le fichier, etc. Dans l’exemple qui va suivre, nous avons choisi le cas le plus courant : nous allons créer un fichier au format pdf dont la forme sera identique au fichier numérisé d’origine mais qui contiendra, caché derrière l’image, le texte "océrisé".

Ouverture du fichier

Le logiciel FineReader travaille en deux temps : dans un premier temps, il analyse le document, c’est à dire qu’il répère le type de données contenues dans une page (texte, image, tableaux, etc..), dans un second temps, il lit la page et crée un fichier texte correspondant.

Une boite de dialogue vous permet de choisir les actions à effectuer à l’ouverture du fichier (Menu Outils / options, onglet "Numériser/ouvrir"). Il existe trois possibilités :

• Analyser et lire les données ("Lire automatiquement les images de la page acquise")
• Analyser les données mais ne pas les lire ("analyser automatiquement les images de la page acquise")
• Ouvrir le document sans l'analyser ni le lire ("ne pas lire et analyser automatiquement les images de la page acquise")

 

Chacune de ces possibilités dépend de votre fichier d’origine :

• Si votre fichier n’est qu’un simple texte, vous pouvez choisir d’analyser et lire directement sans risque d’erreur.
• Si votre fichier contient des images, des textes, des légendes insérées dans des images, etc., il peut être préférable de seulement analyser le document à l’ouverture, la lecture se fera plus tard, une fois que vous serez sûr que l’analyse ne contient pas d’erreur.
• Si le fichier doit être nettoyé avant océrisation (traces de massicot sur le côté des pages, annotations dans la marges, taches de photocopies, etc.), il faut alors simplement ouvrir le fichier et ne pas lancer d’analyse, les corrections apportées pour nettoyer le fichier annulant toutes les analyses précédentes.

L’analyse et la lecture prennent du temps, et si vous êtes amené, par la suite, à modifier ces données (corriger une analyse qui n’a pas pris en compte une légende dans une image, par exemple), le processus devra être recommencé.

Dans l’exemple ci-après, nous allons nous contenter d’analyser le document, afin de détailler la procédure.

Nous avons donc sélectionné "analyser automatiquement les images de la page acquise" dans la boite de dialogue précédente, puis nous avons ouvert notre document :

Une fois le document ouvert et analysé par le logiciel, trois fenêtres sont disponibles.

- La première contient les vignettes des pages formant le document (1)

- La seconde présente la page en cours du document et les différentes zones qui ont été repérées lors de l’analyse (vert : zones de texte, rouge : images, bleu : tableaux) (2)

- La troisième affiche le résultat de l’océrisation (fichier texte créé à partir des images) (3)

Dans notre exemple, nous avons choisi de ne pas lire le document pour l’instant, la troisième fenêtre est donc vide.

 

Il existe trois grandes catégories de données reconnues par Abbyy Fine Reader : le texte, les images, et les tableaux.

Les parties de la page sélectionnées comme texte vont être lues. Les parties images ne vont pas être lues et reproduites telles quelles. Les parties tableaux vont être lues et mises en forme.

Nettoyage

Il est possible que le document ait besoin d’être nettoyé avant d’être analysé. S’il contient des traces ou des annotations par exemple.

Dans l’exemple ci-dessous, la page doit être nettoyée à deux endroits : les annotations dans la marge à droite, et la trace de massicot à gauche.

Cliquer sur "Modifier l’image" :

La page apparait à présent dans une nouvelle fenêtre :

Depuis cette fenêtre, vous pouvez apporter des modifications à votre document : recadrer les pages, les redresser, gommer certaines parties, pivoter, etc.

Attention : une fois vos pages ouvertes à l’intérieur de la fenêtre "modifier", l’analyse et la lecture du document sont effacées, et il vous faudra recommencer ces processus.

Les annotaions manuscrites dans la marge droite étant ponctuelles et uniquement présentes sur la première page, nous allons utiliser la gomme.

Il suffit de cliquer sur "gomme" dans le menu de droite, et ensuite de sélectionner la partie de l’image à effacer :

La trace de massicot, quant à elle, est présente sur toutes les pages du document, au même endroit. Pour l’effacer, nous allons donc détourer les pages.

Pour cela, cliquer sur "détourer", et appliquer le cadre de sélection à la partie de l’image que vous souhaitez garder. Vous pouvez choisir d’appliquer cette action à toutes les pages du document :

Une fois les pages nettoyées, le logiciel pourra lire le document sans risque d’erreur, et le fichier océrisé final ne contiendra plus de trace.

Si vous préférez, vous pouvez nettoyer les documents préalablement à leur import dans Abbyy Fine Reader en utilisant un logiciel de traitement d’image (en utilisant des scripts par exemple).

Analyse et zones de données

Il existe trois types de données reconnues puis analysées par Abbyy Fine Reader : le texte, les images, et les tableaux. Afin que ces derniers soient reconnus il vous faut, si cela n’a pas été fait automatiquement à l’ouverture ou si vous avez entre temps modifié les pages, cliquer sur le bouton "Analyser".

Une fois l’analyse terminée, les différentes types de données ont été reconnues : zone de texte en vert, zone d’image en rouge, zone de tableau en bleu :

Vous pouvez modifier ces zones si elles ne correspondent pas à votre document :
• soit agrandir ou rétrécir une zone
• soit tracer une nouvelle zone (texte, image, tableau) en plus ou en remplacement d’une existante, en utilisant les outils de la barre "Image" :

 

Océrisation du texte

Une fois votre document prêt, vous pouvez lancer l’océrisation. Le logiciel va alors lire les données contenues dans les zones "textes" et "tableaux" et les interpréter afin de les transformer en fichier texte.

Pour lancer la procédure, cliquez sur "Lire" :

L’océrisation peut prendre du temps en fonction de la taille de votre document.

Une fois votre document océrisé, le fichier texte issu de la procédure apparait dans la fenêtre de droite :

Vous pouvez modifier ce texte à votre guise : corriger des fautes, changer la police, la taille, etc.

Ce texte est celui qui servira à effectuer des recherches et à sélectionner des parties du document.

Ensuite, il ne vous reste plus qu’à exporter le résultat final.

Exporter le document

Il existe plusieurs possibilités d’export :

Différents formats sont disponibles (.pdf, .doc, .rtf, .htm, .xls, .pptx, etc...).
Différentes options sont disponibles pour chacun de ces formats.

Dans notre exemple, le but est de ne pas toucher à la mise en page du document : ce dernier doit être identique à l’original. Pour cela, nous allons l’exporter en .pdf, et nous allons insérer le fichier OCR créé sous l’image du document d’origine. Ainsi, la partie visible du document sera l’image d’origine, mais le fichier texte océrisé sera bel et bien présent, invisible mais tout à fait opérationnel.

Pour choisir le format d’export, cliquez sur "enregistrer" :

Puis, dans la fenêtre d’enregistrement, choisissez le format souhaité (ici pdf) :

Une fois le format pdf sélectionné, allez dans "options" :

Dans les options vous pouvez choisir :

• Le format du document (A3, A4, etc...)
• Le mode d’enregistrement (texte océrisé seul, sous l’image, etc...). Dans notre exemple, nous choisissons de "cacher" le texte sous l’image du document.
• Option "Utiliser le contenu tramé mixte" : cette option permet de réduire la taille du document sans altérer sa qualité. Attention, certains lecteurs Pdf n’arrivent pas à lire le document exporté si cette option est cochée ("Aperçu" sous Mac, "Sumatra" sous Windows par exemple).
• Paramètres de l’image : Vous pouvez choisir les paramètres. Plus la qualité sera élevée, plus la taille du document sera grande (un document de 250 pages contenant plusieurs illustrations peut rapidement, en fonction des paramètres, atteindre 100 Mo). Vous pouvez choisir basse qualité, qualité moyenne ou haute qualité, ou bien définir vous-même les paramètres (ppp et compression jpeg).

Une fois tous ces réglages effectués, vous n’avez plus qu’à enregistrer votre fichier.

Résultat : le fichier créé est donc visuellement identique au fichier original, mais le texte placé sous l’image permet les sélections et les recherches :

Bon courage,

N’hésitez pas à nous faire part de vos remarques : Cet e-mail est protégé contre les robots collecteurs de mails, votre navigateur doit accepter le Javascript pour le voir

 

Rechercher
Recherche libre

Recherche par mots-clefs
 
Recherche par méthodologie
 
Pour proposer du contenu dans l'une ou l'autre des catégories, il vous faut ouvrir un compte dans Crévilles.org et vous connecter comme utilisateur.
Se connecter




Lettre d'information
Nom:
Email:
 

Crévilles.org ? | Mentions légales | Partenaires |   Index des flux | Nous contacter | Accès réservé