Oft möcht man auch als Entwickler auf eine Sammlung von Wörtern zugreifen. Sei es um ein eigenes Kreuzworträtselprogramm zu schreiben, eine Rechtschreibprüfung zu entwickeln o.a. Leider gibt es im Internet keine gute Liste mit Wörtern. Einige habe ich gefunden, jedoch waren diese unbrauchbar. Es wurde Groß-/ Kleinschreibung nicht beachet, Umlaute waren falsch oder nur in Großschrift. Es gibt Firmen, die bieten Listen gegen Bezahlung an. Das wollte ich nun auch nicht. Daher kann die Idee, sich Wörter auf Internetseiten zu suchen. Also Internetseiten suchen, die Wörter extrahieren und in eine Datenbank speichern. Bloß weil die Wörter nun auf einer Internetseite stehen ist es noch keine Garantie, dass diese richtig geschrieben sind. Daher gliedert sich das Programm in drei Teile:
Es besteht also die Möglichkeit gefundene Wörter zu exportieren, dann bsp. nach WORD zu importieren und dort eine Rechtschreibprüfung vornehmen zu lassen. Die dann richtigen Wörter wieder in das Programm zu importieren und diese in einer Datenbank abzulegen und bei Bedarf zu extrtahieren.
Da hierfür eine Datenbank benötigt wird, ist diese vorher zu installieren. Die Wahl fiel auf MySQL. Das ist eine für private Zwecke kostenlose Datenbank. Im unteren Download wird die Datenbank nicht mitgeliefert. Dies ist von http://dev.mysql.com/ downzuloaden. Benötigt wird folgendes:
Zunächst wird die Datenbank installiert, dann der ODBC Treiber, dann die Admin-Oberfläche. Normalerweise startet der Datenbankserver automatisch; tut er dies nicht, ist das Programm ....\MYSQL\bin\mysqld-nt.exe zu starten. Dann kann die Admin-Oberfläche gestartet werden:

Hat man bei der Installation die Standardwerte genommen. kann man sich so einloggen. Über Catalog-> Create New Schema wird eine neue Datenbank mit einem beliebigen Namen angelegt.

Soll der Zugriff nicht über die Root-Kennung erfolgen, kann über die Userverwaltung ein eigener User zu diesem neuen Schema angelegt werden:

Es besteht kein Zwang ein Passwort vorzugeben
Das war es dann auch schon. Wer Fragen hat, kann gerne mailen.
Zunächst sind die Verbindungsdaten zur Datenbank und dem User anzugeben:

Konnte eine Verbindung hergestellt werden, startet das Programm:

Zunächst ist ein neues Profil anzulegen. Dann können die URL's, die durchsucht werden sollen angegeben werden. Liegt ein "htaccess" Schutz auf der URL können die Zugangsparameter angegeben werden.
Die Wortanzahl bestimmt, nach wievielen Wörtern ein Abbruch der Suche erfolgt. Hierbei handelt es sich um einen ungefähren Wert, da die Suche mit mehreren Threads erfolgt und doppelte Wörte nach dem Ende der Suche aussortiert werden.
Ist "Links verfolgen" aktiviert, werden Links in der Seite verfolgt und die daraus resultierenden Seiten ebenfalls geladen. Ist "Externe Links verfolgen" aktiviert, werden auch Seiten verfolgt, die nciht zu der ursprünglichen Domain gehören.
Wird ein Proxy benutzt, können die entprechenden Parameter vorgegeben werden.
Sind alle Daten vorgegeben kann der Spider aktiviert werden:

Zunächst kann angegeben werden, wieviele Threads zum Suchen benutzt werden. Günstig hat sich die Zahl 4-5 erwiesen.
Auf der linken Seite sind die gefundenen Wörter zu sehen. Doppelte werden aus zeitgründen nach dem Ende der Suche aussortiert
Oben rechts werden die URL's aufgelistet, die schon durchsucht wurden (mit Häckchen) bzw. noch durchsucht werden (ohne Häckchen). Einzelne Threads warten eine kleine Zeitspanne, wenn keine URL's in dieser Liste sind, ob u.U. andere laufende Threads diese mit gefundenen URL's füllt.
Unten rechts werden Ausgaben des Programmes protokolliert.
Nach dem Ende der Suche kann die Auswertung erfolgen:

Mit dem ersten Button (Wort(e) übernehmen) können einzelne Wörter in die Datenbank übernommen werden
Mit dem zweiten Button (Wort(e) alle übernehmen) können alle Wörter in die Datenbank übernommen werden.
Mit dem dritten Button (Wort(e) ändern & übernehmen) kann das Wort vor der Übernahme geändert (korrigiert) werden.
Mit dem vierten Button (Wort(e) löschen) werden die Worte aus der Liste gelöscht.
Mit dem fünftem Button (Mit DB abgleichen) werden alle Wörter die schon in der Datenbank sind aus der Liste gelöscht.
Mit dem sechstem Button (Liste speichern) wird die Liste als Textdatei gespeichert. Das kann dazu genutzt werden, um die Worte beispielsweise extern zu prüfen.
Mit dem siebentem Button (Liste laden) kann eine Wortliste wieder geladen werden; bsp. nach einer externen Prüfung
Mit dem siebentem Button (Liste löschen) wird die komplette Liste gelöscht.
Sind alle Wörter in die Datenbank importiert worden kann die Datenbank direkt ausgewertet werden:

Mit der unteren Navigationsleise kann durch die Datensätze navigiert werden, neue hinzugefügt werden, bestehende geändert werden.
In der Datenbank wird das Wort und die Wortlänge gespeichert. Mittels der Einstellungen auf der rechten Seite können die Wörter mit verschiedenen Optionen als Textdatei gespeichert werden.
Wer ein gut gefülltes WORD-Dictionary hat kann die Wortliste exportieren und die Rechtschreibprüfung von WORD nutzen um die Wörter zu prüfen. Dazu wird die Textdatei in WORD importiert und folgendes Macro programmiert (Danke an die Wordprofis aus dem Spotlight Word-Forum):
Sub DeleteMisspelledWords()
Dim SpellingErr As Range
For Each SpellingErr In ActiveDocument.SpellingErrors
SpellingErr.Delete
Next SpellingErr
End Sub
Dieses löscht gnadenlos alle nicht bekannten Wörter aus der Liste. Sonst müsste ja jedes Wort per Hand bestätigt werden.
Da ich im Internet keinen geeigneten HTML-Parser gefunden habe, musste ich auch diesen selbst schreiben. Er kann HTML und XHTML-Seiten parsen, ist aber ziemlich pingelig, was HTML-Fehler angeht. Fehlende schließende Tags und andere Nachlässigkeiten mag er nicht. Die Seite wird dann als fehlerhaft behandelt
Download |
||
| Wortspider | Version : 1.7.0.35 | 1055 KB |
| ZipFile enthält EXE und DLL's. Alles in einen Ordner | ||
| 1.7.0.35 | Ersterstellung |