Philipp Gesang Geschrieben Juni 27, 2011 Geschrieben Juni 27, 2011 Werte Kenner! Um Tesseract für einen größeren Einsatz zu trainieren, benötige ich eine dem Input möglichst ähnliche Vorlage. Im Anhang findet sich ein mit Markierungen versehener Auszug. Die Probleme sind, soweit bisher ersichtlich, sind: Das idiosynkratische „д“, welches oben spitz zuläuft und mit einer verhältnismäßig langen Serife nach links versehen ist (rote Markierungen); das sehr schmale „л“, das zum Teil bloß über das linke Tröpfchen erkennbar ist (grün); das niedrige „ѣ“ (blau). Zudem stammen die Texte aus der Zeit vor 1917 (das Beispiel ist von 1846), weshalb zumindest das Jat und „і“, wenn möglich auch „ѳ“ und „ѵ“ vorhanden sein sollten. Ich habe bereits alle mir verfügbaren Kandidaten dagegengeworfen, mit geringem Erfolg. Damit ich mich auf das Resultat verlassen kann, hätte ich angesichts der streckenweise äußerst unscharfen Vorlage aber gern eine möglichst passende Schriftart. (Am Original zu trainieren ist dann doch etwas zu haarig …) Danke für alle Hinweise & Anregungen!
Cajon Geschrieben Juni 27, 2011 Geschrieben Juni 27, 2011 Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch: Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren.
Philipp Gesang Geschrieben Juni 27, 2011 Themen-Ersteller Geschrieben Juni 27, 2011 Ich hab zwar keine Ahnung von kyrillischen Texten, aber als Klarstellung für eventuelle Kenner wäre eine Bestätigung meiner Vermutung ganz praktisch:Falls ich das jetzt richtig verstanden hab, suchst du eine Schriftart, die möglichst alle erwähnten Zeichen hat und der aus deiner Abbildung möglichst ähnlich ist. Damit willst du dann die Texte in besserer Qualität setzen, um daraus generierte Bilder einem OCR-Programm als Training vorzusetzen. Endziel ist dann vermutlich, die alten Dokumente zu digitalisieren. Exakt.
Joshua K. Geschrieben Juni 28, 2011 Geschrieben Juni 28, 2011 Schau mal, ob hier was dabei ist: http://www.thessalonica.org.ru/en/fonts.html
Philipp Gesang Geschrieben Juni 28, 2011 Themen-Ersteller Geschrieben Juni 28, 2011 Schau mal, ob hier was dabei ist: http://www.thessalonica.org.ru/en/fonts.html Old Standard und Tempora? Hatte ich bereits getestet, sie erfüllen die Kriterien nicht oder nur teilweise. Mein erster Trainingsdurchgang mit Paratype Serif war übrigens eine Niete: selbst die im Prinzip ungeeigneten Defaults für Ukrainisch liefern noch brauchbarere Ergebnisse … sieht so aus, als müßte ich doch Hand anlegen und am Original trainieren.
Georg Duffner Geschrieben Juni 28, 2011 Geschrieben Juni 28, 2011 zumindest unter freien fonts wüsste ich nichts geeignetes. du könntest aber den font des originals digitalisieren ;) da könnten dann eventuell auch andere davon profitieren ;)
Joshua K. Geschrieben Juni 30, 2011 Geschrieben Juni 30, 2011 Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift.
Philipp Gesang Geschrieben Juli 1, 2011 Themen-Ersteller Geschrieben Juli 1, 2011 Die Scotch Modern entspricht dem Stil Deines Beispiels und enthält auch kyrillische Zeichen, ist aber eine freie Neuschöpfung, also keine genaue Digitalisierung einer Bleisatzschrift. Danke für den Nachtrag. Ich bin mittlerweile beim zweiten Trainingsdurchlauf mit zusammengeklaubten Textschnipseln aus dem Zieltext. Etwas Aufwand wird mir vomCowboxer[1] abgenommen, insgesamt ist diese Art „Reverse Typographie“ aber recht mühselig. Die Scotch ist in der Tat eine Überraschung, vor allem in Sachen Unicode-Abdeckung, wo sie fast mit CM-Unicode mithalten kann. Prächtige Schrift, wird beim nächsten Lottogewinn als erste gekauft werden … danke für den Link! [1] http://code.google.com/p/cowboxer/
Empfohlene Beiträge
Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren
Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können
Benutzerkonto erstellen
Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!
Neues Benutzerkonto erstellenEinloggen
Du hast bereits ein Benutzerkonto? Melde dich hier an.
Jetzt anmelden