Da PDF (o doc, o rtf…) a XHTML senza soffrire troppo

Che dobbiate realizzare un sito o preparare i testi per un epub, poco cambia: è necessario ricavare del codice XHTML di qualità e pulito da un altro formato. Quasi tutti i programmi di impaginazione e word processing dispongono di una opzione “Salva in HTML”, ma se ci avete provato avete già visto i risultati: un file html che tenta di riprodurre l’impaginato (vai a sapere perché), pieno di classi, div span e codice di formattazione. Un programma vale l’altro, tutti producono codice “sporco”.

Con tanta pazienza ci si mette all’opera per le necessarie pulizie, chi con Blocco Note chi con altri editor più sofisticati, Trova e Sostituisci e per i più arditi Grep. Comunque, può essere un’impresa decisamente penosa.

Scrivo questo post per condividere una caratteristica di Dreamweaver che ho trovato molto utile in questa situazione. Vediamo un tipico esempio: ho solo il PDF e devo ricavarne il codice XHTML.

Apro il file in Acrobat Pro, provo ad esportarlo come XHTML, utilizzando le opzioni disponibili a secondo del caso.

Salvataggio del file in xhtml a partire da PDF

Vediamo che è successo.

L’orrendo codice prodotto: e ora chi lo pulisce?

Bè, ok, non è un gran risultato pensando che tutto il codice presentazionale è superfluo e va eliminato. Un lavoro lungo e noioso. Però forse no, un momento, apro il file in Dreamweaver.

Osservando il codice, è evidente che la spazzatura è generata da un’enorme quantità di attributi style, class ed elementi span.

IDEA!

Il Trova e Sostituisci di Dremaweaver fa ovviamente questo lavoro, ma anche altro. Fra le varie opzioni, permette anche di cercare uno specifico tag e rimuoverne gli atttibuti. Nel nostro caso, tutti i tag con attributo style.

Rimozione di tutti gli attributi style e relative definizioni in un colpo solo.

Ripeto la stessa operazione per class, seleziono Commands > Apply Source Formatting così metto anche in bella vista il codice, e… ok, fa proprio un’altra impressione. In pochi minuti di lavoro.

Il codice ripulito.

Probabilmente sarà necessario qualche altro ritocco, ma certo è un’altra cosa.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...