مرور

De Semantic MediaWiki - Sandbox

امروزه در کتابخانه‌ها و مراکز آرشیو در سراسر جهان تلاش‌های زیادی برای رقومی‌سازی در حجم بالا انجام می‌شود، در کشور نیز نهادهای متعددی از قبیل کتابخانه‌ها، انتشارات، دانشگاه‌ها و مراکز آرشیو در حوزه رقومی‌سازی متون چاپی فعال هستند. این نهادها، سالانه هزینه زیادی بابت مجموعه فرآیندهای رقومی‌سازی، تصحیح و بهبود کیفیت متون مورد نظر پرداخت می‌کنند. همچنین برخی موسسات حجم زیادی از محتوا را اسکن کرده و به دلیل هزینه بالا قادر به ماشین‏خوان کردن آن نیستند. بالا بودن این هزینه‌ها و کیفیت پایین متون نهایی ما را بر آن داشت تا با بکارگیری هوشمندانه روش‌های پردازش تصویر و تکنیک‌های متن‌کاوی، با صرف زمان بسیار اندک به متن تقریباً بدون غلط دست یابیم.



برای دستیابی به متن بی غلط از طریق بهبود سیستم‌های OCR مسیر سختی وجود دارد و هزینه اصلاح دستی خروجی OCR نیز بالا است. همچنین غلط‌یاب‌ها هم در متون با موضوعات مختلف یا متون تخصصی ضعیف عمل می‌کنند، در حالی که اگر بتوان در متون خروجی فقط خطاهای موجود در خروجی OCR را به صورت خودکار شناسایی کرد و با روش‌های دیگر اصلاح نمود، علاوه بر دستیابی به دیتای تقریباً بدون غلط، می‌توان هزینه فرآیندهای ماشین‎خوان کردن متون چاپی را نیز به مراتب کاهش داد.



نمایه


 تصحیحنمایه
مروربرای دستیابی به متن بی غلط از طریق بهبود سیستمهای OCR مسیر سختی وجود دارد و هزینه اصلاح دستی خروجی OCR نیز بالا است. همچنین غلطیابها هم در متون با موضوعات مختلف یا متون تخصصی ضعیف عمل میکنند، در حالی که اگر بتوان در متون خروجی فقط خطاهای موجود در خروجی OCR را به صورت خودکار شناسایی کرد و با روشهای دیگر اصلاح نمود، علاوه بر دستیابی به دیتای تقریباً بدون غلط، میتوان هزینه فرآیندهای ماشینخوان کردن متون چاپی را نیز به مراتب کاهش داد.
مرورامروزه در کتابخانهها و مراکز آرشیو در سراسر جهان تلاشهای زیادی برای رقومیسازی در حجم بالا انجام میشود، در کشور نیز نهادهای متعددی از قبیل کتابخانهها، انتشارات، دانشگاهها و مراکز آرشیو در حوزه رقومیسازی متون چاپی فعال هستند. این نهادها، سالانه هزینه زیادی بابت مجموعه فرآیندهای رقومیسازی، تصحیح و بهبود کیفیت متون مورد نظر پرداخت میکنند. همچنین برخی موسسات حجم زیادی از محتوا را اسکن کرده و به دلیل هزینه بالا قادر به ماشینخوان کردن آن نیستند. بالا بودن این هزینهها و کیفیت پایین متون نهایی ما را بر آن داشت تا با بکارگیری هوشمندانه روشهای پردازش تصویر و تکنیکهای متنکاوی، با صرف زمان بسیار اندک به متن تقریباً بدون غلط دست یابیم.

 نمایه
مرورhttps://sandbox.semantic-mediawiki.org/wiki/Attribut:بهبود کیفیت
مرورhttps://sandbox.semantic-mediawiki.org/wiki/Attribut:رقومی سازی
مرورhttps://sandbox.semantic-mediawiki.org/wiki/Attribut:تصحیح
مرورhttps://sandbox.semantic-mediawiki.org/wiki/Attribut:پردازش تصویر
Les cookies nous aident à fournir nos services. En utilisant nos services, vous acceptez notre utilisation de cookies.