OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।

 
Written By Sanjir Habib On Aug-30th, 2016

OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।

এখানে আছে। প্রায় ২০০ পেইজ।
http://habibur.com/kitab/bidaya1/

জাঙ্ক যেগুলো আসছে সেগুলো হলো বাংলা লিখার মাঝে মাঝে আরবীগুলোর জন্য। এগুলো মেনুয়েলি ডিলিট করে দিতে হবে।

বাকি বাংলার কোয়ালিটি মেনুয়ালি কারেকশনের আগে খুব একটা খারাপ না।
মেনুয়াল কারেকশন লাগবে। তবে এটা অপারেটর দিয়ে সবকিছু টাইপ করে ঢুকানোর থেকে অনেক ভালো।

hadithbd ভলেন্টিয়ারলি যেগুলো টাইপ করে ঢুকিয়েছে, সেগুলোতেও কিন্তু ভুল আছে অনেক। তাই মেনুয়ালি ঢুকালে যে এটা ঠিক হবে তাও না।

এই রেটে চললে আশা করছি ইনশাল্লাহ সামনের তিন দিনে ১০ খন্ড দিয়ে দিতে পারবো। এর পর কারেকশন।

একটা পুরানো লেপটপ লাগিয়ে দিয়েছি PDF থেকে একটা একটা পেইজ এক্সট্রাক্ট করে OCR করতে। প্রতি পেইজ ২ মিনিটের মত লাগে। ৭০০০ পেইজ আছে। দুটা প্রসেশ পেরালাল চলছে, যেহেতু প্রসেস প্রতি ১টা core ইউজ করে। কোয়াড কোর প্রসেসরে চারটা পর্যন্ত চালানো যাবে ইনশাল্লাহ।

OCR use করছি Tesseract ওপেন সোর্স ফ্রি টা।
https://github.com/tesseract-ocr/tesseract