Numérisation et création de pdf

Un petit article pour consigner la manière avec laquelle je procède pour numériser les livres/livrets/catalogues afin de générer des fichiers PDF légers et lisibles.

Voici donc les principales étapes, réalisées sous Linux et en grande partie depuis un terminal.

Génération du fichier PDF noir et blanc

  1. Numérisation :
    • photocopieur,
    • avec les options suivantes : 300dpi, niveaux de gris, format au moins aussi grand que la/les page(s) à numériser, niveau de compression faible;
  2. Extraction des images de chaque page :
    • pdfimages -all fichier_numerise.pdf img
    • on obtient ainsi une suite de fichiers .jpg numérotés (img-000.jpg, img-001.jpg, etc.);
  3. Préparation du recadrage :
    • en général, la page scannée est plus grande que la page réelle, il est donc nécessaire de recadrer afin de retrouver le format original,
    • ouverture d’un des fichiers image (img-009.jpg par exemple) avec Gwenview
    • un recadrage manuel (crop), en utilisant les options avancées, permet d’afficher les dimensions du recadrage (position et taille). Les noter;
  4. Recadrage, seuillage, compression :
    • utilisation de la commande convert d’ImageMagick,
    • (ou encore mieux car bien plus rapide, les commandes identiques fournies par  GraphicsMagick),
    • recadrage avec les dimensions notées précédemment : option -crop 3675×2528+593+98 +repage,
    • conversion en noir et blanc (il faut ajuster le seuil en fonction du fond de page): option -threshold 40%,
    • compression efficace : option -compress group4,
    • ce qui donne, en une ligne et pour traiter tous les fichiers im*.jpg :
      • convert img*.jpg -crop 3598×2675+662+29 +repage -threshold 45% -compress group4 bw%02d.tif
      • ce qui donne finalement les fichiers bw00.tif, bw01.tif, bw02.tif, etc.
      • si on a plus de 100 pages, utiliser %03d dans le nom de fichier à écrire à la place de %02d;
  5. Génération du fichier PDF :
    • convert bw*.tif nom_fichier.pdf

Ajout de la table des matières au fichier PDF :

À ce stade, ajouter une table des matières (bookmarks) dans le fichier PDF peut permettre de faciliter la navigation dans l’ouvrage numérisé. Il reste donc encore quelques opérations :

  1. écrire la table des matières :
    • à la main,
    • ou à partir d’une OCR du PDF;
  2. convertir la table des matières en « bookmars » PDF :
    •  à la main (*),
    • ou à l’aide d’un script (*);
  3. extraire les métadonnées du fichier PDF  dans un fichier texte meta.txt :
    • pdftk file.pdf dump_data > meta.txt
  4. intégrer les « bookmarks » dans le fichier de métadonnées :
    • juste à après la ligne commençant par NumberOfPages ;
  5. créer le fichier PDF avec « bookmarks » :
    • pdftk file.pdf update_info meta.txt output file_with_bookmarks.pdf

Et voilà !

(*) Chaque entrée de la table des matières prend la forme suivante :

BookmarkBegin
BookmarkTitle: Introduction
BookmarkLevel: 1
BookmarkPageNumber: 6

Cet article a été publié dans Uncategorized. Ajoutez ce permalien à vos favoris.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s