Re: Corpora: PDF format

Oliver Mason (oliver@clg.bham.ac.uk)
Fri, 13 Aug 1999 17:11:24 +0100

> Meine Computer-Kollegen haben mir erklaert, dass PDF (Portable Ducument
> Format) schon ein Endprodukt ist und als solches nicht konvertiert werden
> kann. Es geht, allerdings, umgekehrt: von SGML/HTML to PDF - aber dass hilft
> dir wahrscheinlich wenig. Tut mir Leid.

Senta,

that's not quite right. You can quite easily extract the text from PDF
files, provided you don't require the proper formatting. And it does not
work if the text is `drawn', ie stored as an image. There are tools
available to access the content of a PDF file, at www.pdfzone.com.

Oliver

-- 
//\\ computer officer | corpus research | department of english | school of  -
//\\ humanities | university of birmingham | edgbaston | birmingham b15 2tt  -
\\// united kingdom | phone +44-(0)121-414-6206 | fax +44-(0)121-414-5668/\  -
\\// mobile 07050 104504 | http://www-clg.bham.ac.uk | o.mason@bham.ac.uk\/  -