Jump to content
Dein Geheimtipp für perfekte Typografie – Jetzt 40% Rabatt sichern!

[kyrillisch] Gesucht: Font für OCR-Training

Empfohlene Beiträge

Geschrieben

Werte Kenner!

Um Tesseract für einen größeren Einsatz zu trainieren, benötige ich eine dem Input möglichst ähnliche Vorlage. Im Anhang findet sich ein mit Markierungen versehener Auszug. Die Probleme sind, soweit bisher ersichtlich, sind:

  • Das idiosynkratische „д“, welches oben spitz zuläuft und mit einer verhältnismäßig langen Serife nach links versehen ist (rote Markierungen);
  • das sehr schmale „л“, das zum Teil bloß über das linke Tröpfchen erkennbar ist (grün);
  • das niedrige „ѣ“ (blau).

Zudem stammen die Texte aus der Zeit vor 1917 (das Beispiel ist von 1846), weshalb zumindest das Jat und „і“, wenn möglich auch „ѳ“ und „ѵ“ vorhanden sein sollten.

Ich habe bereits alle mir verfügbaren Kandidaten dagegengeworfen, mit geringem Erfolg. Damit ich mich auf das Resultat verlassen kann, hätte ich angesichts der streckenweise äußerst unscharfen Vorlage aber gern eine möglichst passende Schriftart. (Am Original zu trainieren ist dann doch etwas zu haarig …)

Danke für alle Hinweise & Anregungen!

post-19215-1355407744,9556_thumb.png

Geschrieben

Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

Geschrieben
Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:

Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.

Exakt.

Geschrieben
Schau mal, ob hier was dabei ist: http://www.thessalonica.org.ru/en/fonts.html

Old Standard und Tempora? Hatte ich bereits getestet, sie erfüllen die Kriterien nicht oder nur teilweise.

Mein erster Trainingsdurchgang mit Paratype Serif war übrigens eine Niete: selbst die im Prinzip ungeeigneten Defaults für Ukrainisch liefern noch brauchbarere Ergebnisse … sieht so aus, als müßte ich doch Hand anlegen und am Original trainieren.

Geschrieben

Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

Geschrieben
Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.

2pzkah0.gif

Danke für den Nachtrag. Ich bin mittlerweile beim zweiten Trainingsdurchlauf mit zusammengeklaubten Textschnipseln aus dem Zieltext. Etwas Aufwand wird mir vomCowboxer[1] abgenommen, insgesamt ist diese Art „Reverse Typographie“ aber recht mühselig.

Die Scotch ist in der Tat eine Überraschung, vor allem in Sachen Unicode-Abdeckung, wo sie fast mit CM-Unicode mithalten kann. Prächtige Schrift, wird beim nächsten Lottogewinn als erste gekauft werden … danke für den Link!

[1] http://code.google.com/p/cowboxer/

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Einloggen

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden

Unser Typografie-Netzwerk

FDI Type Foundry besuchen
Die besten Typografie-Neuigkeiten aus aller Welt bequem per E-Mail erhalten.
Typography.guru – der englischsprachige Ableger von Typografie.info.
Die Datenbank der Schriftmuster der Welt.
Elfen-Fraktur: Eine Schnurzug-Fraktur.
×
×
  • Neu erstellen...

🍪 Hinweis:

Wir benutzen funktionale Cookies.