Corpora: Fwd: Suchmaschinen-Datenbestand abzugeben/database offer

From: Dorothee Graf (graf@bibl.uni-essen.de)
Date: Thu Jan 10 2002 - 10:12:25 MET

  • Next message: Eckhard Bick: "Corpora: Portuguese treebank"

    Dear readers of the corpora list,

    please allow me to forward a mail from a librarian mailing list
    (Inetbib) to you. It offers a fulltext index of about 1 mio web pages
    that has been used for testing full text searches in web pages and which
    is considered to good to be simply deleted. Since the offer is in
    German, I include a short summary in English; anyone interested should
    contact Daniel Roedding directly.

    He suggests the database, which comes as either a complete computer (19"
    rack) or as two hard disks with two 60 and two 45 GB each, could be used
    by computer linguists and for statistical purposes or as an offline
    search machine. He can provide anyone interested with details on
    possibilities of use and on interfaces. There is no commercial interest,
    but the hardware needs to be paid; the revenue is intended for supplying
    material for a new test run.

    Yours sincerely,
    Dorothee Graf

    ---
    Universitätsbibliothek Essen
    Fachreferentin für Anglistik,
    Germanistik und Romanistik.
    Ansprechpartnerin für Miless,
    die Essener Digitale Bibliothek:
    http://miless.uni-essen.de
    Tel: 0201-183 3721
    

    Daniel Roedding schrieb: > > Hallo, > > vielleicht erinnert sich der ein oder andere noch an die Thematik > "Volltextsuche im Web". Wir basteln hier neben dem Alltagsgeschäft > weiter fleißig an diesem Thema herum, und im Moment wird auch gerade > mal wieder ein größerer Datenbestand test-indexiert. > > Der Testlauf wird mit ca. 1 Mio volltextindexierter WWW-Seiten enden. > Danach wird der Datenbestand wieder gebügelt und ein neuer Lauf > mit anderer Parametrierung gestartet. > > Jetzt die dumme Frage: > > Hat jemand hier Interesse an so einem Volltext-Index? > > Mögliche Verwendungszwecke: > > - Spielzeug für Statistiker und Computerlinguisten (Material ohne Grenzen) > - Offline-Suchmaschine (sehr sinnvoll :-) > > Der Datenbestand wird in Form von zwei 60- und zwei 45-GB-Platten > vorliegen, auf denen sich ein lauffähiges Linux-System befindet. > Oder alternativ als Komplettsystem (großes 19"-Rack). > > Hintergrund der Anfrage: wir haben jetzt hier schon gigabyteweise > Datenmüll erzeugt und irgendwie tut es weh, immer mit "mke2fs" wieder > drüberzubügeln (neues Filesystem anlegen - im DOS-Jargon "formatieren" - > geht halt schneller als abräumen). Da es Leute draußen gibt, die > solche Daten gern hätten, hier einfach mal eine "Verdachtsanfrage", die > auch gern in andere (geschlossene) Listen weitergeleitet werden kann. > > Details zu Auswertemöglichkeiten und Schnittstellen kann ich gern per > Mail geben. Für mitgelieferte Software von uns gibt's eine maschinen- > gebundene Nutzungslizenz, ansonsten ist nur freie Software drauf (Linux). > Über den Abgabepreis müssen wir uns abstimmen (ganzer Rechner oder > nur Platten?). Der Abgabepreis sollte die Neuanschaffungskosten für > den nächsten Testlauf abdecken, über eine "Traffic-Spende" würde ich > mich auch freuen, ansonsten besteht keine Gewinnerzielungsabsicht... > Ich möchte möchte halt nur unschuldige Daten vor dem ansonsten unwei- > gerlich anstehenden Exitus retten und denke, daß die Daten hier in der > Runde ggfs. besser aufgehoben sind als auf ebay... :-) > > Viele Grüße, > Daniel Rödding > > -- > Daniel Roedding phone: +49 5252 9838 0 > daniel@roedding.de fax: +49 5252 9838 20



    This archive was generated by hypermail 2b29 : Thu Jan 10 2002 - 10:31:54 MET