Attribut:تصحیح
De Semantic MediaWiki - Sandbox
Des mises à jour pour la propagation des changements sont en attente (263 tâches estimées) et il est recommandé d’attendre que le processus soit terminé avant de modifier une propriété, afin d’éviter des interruptions intermédiaires ou des spécifications contradictoires.
Balise : Éditeur de wikicode 2017 |
Balise : Éditeur de wikicode 2017 |
||
Ligne 1 : | Ligne 1 : | ||
[[Has type::Text]] | [[Has type::Text]] | ||
− |
Version du 24 avril 2020 à 17:19
م
برای دستیابی به متن بی غلط از طریق بهبود سیستمهای OCR مسیر سختی وجود دارد و هزینه اصلاح دستی خروجی OCR نیز بالا است. همچنین غلطیابها هم در متون با موضوعات مختلف یا متون تخصصی ضعیف عمل میکنند، در حالی که اگر بتوان در متون خروجی فقط خطاهای موجود در خروجی OCR را به صورت خودکار شناسایی کرد و با روشهای دیگر اصلاح نمود، علاوه بر دستیابی به دیتای تقریباً بدون غلط، میتوان هزینه فرآیندهای ماشینخوان کردن متون چاپی را نیز به مراتب کاهش داد. +
امروزه در کتابخانهها و مراکز آرشیو در سراسر جهان تلاشهای زیادی برای رقومیسازی در حجم بالا انجام میشود، در کشور نیز نهادهای متعددی از قبیل کتابخانهها، انتشارات، دانشگاهها و مراکز آرشیو در حوزه رقومیسازی متون چاپی فعال هستند. این نهادها، سالانه هزینه زیادی بابت مجموعه فرآیندهای رقومیسازی، تصحیح و بهبود کیفیت متون مورد نظر پرداخت میکنند. همچنین برخی موسسات حجم زیادی از محتوا را اسکن کرده و به دلیل هزینه بالا قادر به ماشینخوان کردن آن نیستند. بالا بودن این هزینهها و کیفیت پایین متون نهایی ما را بر آن داشت تا با بکارگیری هوشمندانه روشهای پردازش تصویر و تکنیکهای متنکاوی، با صرف زمان بسیار اندک به متن تقریباً بدون غلط دست یابیم. +