ပိုကောင်းလာတဲ့ OCR နည်းပညာ

3 min readMay 21, 2024

Old man doing OCR in his little room. p.s He looks like my Dad :)

ကျွန်တော် ပြီးခဲ့တဲ့ တစ်နှစ်အတွင်းမှာ တော်တော်လေးကို digital tool တွေ ဖန်တီးဖြစ်ခဲ့ပါတယ်။

Python နဲ့ရေးတာ ,Google Script နဲ့ရေးတာ အစုံပါပဲ။ တော်တော်များများက automation tool တွေများတယ်။ အချို့ဟာတွေက ကိုယ့်အလုပ်အတွက်ပါသလို၊ အချို့တွေက ကိုယ့်ရဲ့ community အတွက်အဆင်ပြေဖို့အတွက် ရေးခဲ့တဲ့ tool မျိုးတွေပါ။

အဓိက AI ပိုအဆင့်မြင့်လာတာကြောင့် အရင်က Google မှာရှာဖတ် stackoverflow မှာမွှေနှောက်ရတဲ့အဖြေတွေကို အခု လွယ်လွယ်ကူကူရပြီး ရှေ့ဆက်တိုးလာနိုင်တာကြောင့်လည်းပါပါလိမ့်မယ်။

လူတွေကို သူတို့လုပ်ချင်တာတွေလုပ်လို့ရဖို့ ပိုလွယ်ကူတဲ့နည်းပညာတွေသာလက်ထဲထည်ပေးရင် innovative ပိုဖြစ်နိုင်တယ်ဆိုတာ လက်တွေ့ပါပဲ။

ကျွန်တော်တင် မကပါဘူး။ တခြားသူတွေတော်တော်များများလည်း tool အသစ်တွေ ဖန်တီးလာနိုင်ကြတာ မျက်မြင် ပဲ။

ဥပမာ ပေးရရင် ကျနော်တို့က တိုက်ဆောက်ချင်တယ်ဆိုတာနဲ့ အုတ်တွေကို ကိုယ်တိုင်ဖုတ်နေရတာမျိုး၊ ဘိလပ်မြေရဖို့ ကိုယ်တိုင် ကျောက်တူးနေရတာ၊ သံတွေကိုယ်တိုင်ကွေးနေရတာမျိုးက မဖြစ်သင့်တော့ဘူးလေ။

အဲလိုပဲ robot တွေတည်ဆောက်ဖို့ chipset ကအစ ကိုယ်တိုင်စရေးနေရတာဟာ innovative ဖြစ်လာဖို့နှောင့်နှေးစေတယ်။

AI တွေ ဟာ quality ကောင်းတဲ့ကုဒ်တွေကို မြန်မြန်ဆန်ဆန်ထုတ်ပေးလာနိုင်တော့၊ ကိုယ်လိုချင်တဲ့ စိတ်ကူးတွေကိုပေါင်းစပ်ဖို့ပိုလွယ်ကူလာပါတယ်။

အဲဒီဟာတွေ အကြောင်းရေးရင်တော့အများကြီးဖြစ်ပါလိမ့်မယ်။ အခု ပြောချင်တဲ့အကြောင်းကတော့ လက်ရှိလုပ်ပြီးတဲ့ OCR နည်းပညာသုံး tool လေးတစ်ခုအကြောင်းပါ။

OCR ဆိုတာ Optical Character Recognition လို့ခေါ်ပါတယ်။ ကျွန်တော်ကတော့ OCR ဖတ်တို့လို့ပဲ မြန်မာမှု ပြုလိုက်ပါတယ်။ သူကတော့ ဓာတ်ပုံတွေ ထဲက စာတွေကို ကွန်ပျူတာ စာလုံးအဖြစ်ပြောင်းလဲ ပေးတာပါ။ တကယ်ကောင်းတဲ့ OCR တွေဟာ လက်ရေးနဲ့ရေးထားတဲ့စာတွေကိုလည်း ကွန်ပျူတာ စာလုံး ပြောင်းလဲနိုင်ပါတယ်။

ရှေးကထွက်ခဲ့တဲ့စာအုပ်တွေ၊သတင်းစာ၊ဂျာနယ် စာတာတွေကို PDF File, Image ဖိုင်တွေကနေပြီးတော့ text file တွေအဖြစ်ကို ပြောင်းလဲနိုင်ပါတယ်။

ဘာလို့အဲဒီလို ပြောင်းလဲလို့ရဖို့အရေးကြီးသလဲဆိုတော့ ၊ text file တွေဖြစ်သွားခဲ့ရင်

ဒီစာတွေထဲက နေ အကြောင်းအရာကို ရှာဖွေဖို့ ပိုလွယ်ကူသွားပြီ။
ကိုယ်လိုချင်တဲ့အပိုင်းကို ကူးထုတ်ပြီး တခြားနေရာမှာပြန်သုံးလို့ရတယ်။
AI တွေက ဒီစာသားကို နားလည်ပြီး စာပြန်နိုင်ပြီ။
ဒီစာတွေကို AI က အသံထွက်ဖတ်ပေးဖို့ ဖြစ်နိုင်ပြီ။

စသဖြင့်ပေါ့။

ယခင်ကတော့ မြန်မာစာမှာ ဇော်ဂျီသုံးတာကြောင့် အထက်မှာ ပြခဲ့တာတွေ လုပ်ဖို့မဖြစ်နိုင်ဘူး။ ဒါကြောင် ့ယူနီကုဒ်သုံးဖို့လိုပါတယ်ဆိုပြီး ပြောခဲ့ကြတယ်။ ယူနီကုဒ်သုံးလာမှ အင်တာနက်ပေါ်မှာရှိတဲ့ မြန်မာစာက ပိုပြီးလူရာဝင်လာမှာလို့ပြောခဲ့တယ်။

အခုယူနီကုဒ် ပြောင်းလဲလာပြီး ၅နှစ်လောက်ကြာတဲ့အခါ ကျွန်တော်တို ့မျှော်လင့်ခဲ့သလိုပဲ မြန်မာလို သုံးလို့ရတဲ့ tool တွေပိုများလာတယ်။ AI တွေမှာလည်း မြန်မာစာ၊ဘာသာစကားကို ထောက်ပံ့နိုင်တာတွေ ပိုတွေ့လာရပါပြီ။

OCR အနေနဲ့ပြောရမယ်ဆိုရင်တော့ လက်ရှိမှာ မြန်မာစာကိုထောက်ပံ့တဲ့ OCR အများကြီးရှိပါတယ်။ အသုံးများဆုံးကတော့ Google OCR နဲ့ Tesseract OCR ပါပဲ။

Tesseract OCR က Opensource ဆိုတော့ ဝင်ပြီး ကူညီမယ့်သူမရှိရင် တိုးတက်မှုနှေးပါတယ်။ မြန်မာစာနဲ့ပတ်သက်လို့ သိပ်ပြီး သိသိသာသာတိုးတက်တာမတွေ့ရသေးပါဘူး။

Google OCR ကတော့ အခုနှစ်ပိုင်းအတွင်းမှာ မြန်မာစာနဲ့ ပတ်သက်လို့ အရမ်းကို Quality ကောင်းလာပါတယ်။

Google OCR ကို ကျွန်တော်တို့ Google DRive ထဲမှာ Google Lens ထဲမှာ တိုက်ရိုက်သုံးလို့ရပါတယ်။ ဒါပေမယ့် တစ်ကိုယ်ရေသုံးဆိုလို့ ရှိရင် အများကြီးသုံးလို့တော့မရပါဘူး။ အရင်ဆုံးဖိုင်ကို Google Drive မှာဖွင့်လိုက်ရတယ်ဆိုတာမျိုးကို တော့ လုပ်ရပါတယ်။ပြီးတော့ စာအုပ်တစ်အုပ်လုံးကို OCR ဖတ်ဖို့ကလည်းအချိန်တော်တော်ယူပါတယ်။ စာမျက်နှာများရင်လည်းမရပါဘူး။

ယခု ကျွန်တော်က အဲဒီ Tessearct ကော Google OCR ကောကို အသုံးပြုပြီး တော့ OCR ဖတ်လို့ရတဲ့ Tool တစ်ခုပြုလုပ်ထားပါတယ်။

သူ့မှာ

ဘယ် OCR engine ကိုသုံးမလဲဆိုတာရွေးလို့ရတယ်။
စာမျက်နှာ ၂၀ အများဆုံး ဖတ်လို့ရတယ်။
အကယ်၍ စာအုပ်က စာမျက်နှာ၂ခု ကပ်လျက် two column scan ထားတာမျိုးဆိုရင် အရင် အဲဒါကို တခုစီ ပိုင်းဖြတ်ပြီးမှ OCR ဖတ်တာမျိုးလုပ်ပေးတယ်။
ကိုယ့်မှာ ရှိခဲ့တဲ့ Zawgyi text file တွေကိုလည်း Unicode ပြောင်းတာမျိုးလုပ်ပေးတယ်။

ရည်ရွယ်ချက်ကတော့ ရိုးရှင်းပါတယ်။

မြန်မာစာအုပ်တွေ စာတွေကို Digitize လုပ်ချင်ကြတဲ့သူတွေ အများကြီးရှိပါတယ်။

အချို့ကတော့ ဝါသနာ အရ Ebook ပြုလုပ်လိုကြတာ။ အချို့ကတော့ စီးပွားရေးအတွက်ပေါ့။

ဘယ်လိုမျိုးကြောင့်ပဲဖြစ်စေ၊ အချို့တွေ က လုပ်ချင်စိတ်ရှိတယ်။ လုပ်အားစိုက်နိုင်ပေမယ့် သူတို့လက်ထဲမှာ လွယ်လွယ်ကူကူ လုပ်လို့ရမယ့် Tool မရှိနေဘူး။

ကျွန်တော်က အဲဒီ လိုနေတဲ့ tool ကို ပြုလုပ်ပေးချင်ပါတယ်။

ကိုယ်တိုင်လည်း အဲဒီလို မရှိရှိတဲ့ နည်းလေးတွေနဲ့ စာအုပ်တွေကိုdigitize လုပ်ခဲ့ဖူးသူဆိုတော့ ဘယ်လောက်ထိ ပင်ပန်းလဲ၊ အချိန်ယူရလဲသိတယ်။

ကိုယ်ကသာ ဒီအတွက် လိုနေတဲ့ tool တစ်ခုပေးလိုက်နိုင်ရင် သူတို့တွေ ဒီအတွက် ကုန်မယ့်အချိန်အများကြီးကို လျော့ချပေးလိုက်သလိုပါပဲ။

တခြားနေရာတွေမှာ အာရုံစိုက်ဖို့ အချိန်ပိုတွေထွက်လာတာဟာ မင်္ဂလာတစ်ပါးမဟုတ်လား။

ဒါမှမဟုတ်လည်း အရင်က တစ်အုပ်ပြီးမယ့် အချိန်မှာ အခု ဆယ်အုပ် ပြီးမယ်ဆိုရင်လည်း ထုတ်လုပ်မှု တက်လာတာပဲလေ။

ကျွန်တော့်အတွက်က ဒီ tool ကိုဖန်တီးဖို့ အချိန်ပေးလိုက်ရရင်လည်း အလွန်ဆုံး ၃ရက်ပေါ့ ။ တစ်ဖက်မှာတော့ အများကြီးအကျိုးရှိနိုင်တယ်။

ဒီလိုမျိုးလုပ်ထားတဲ့ tool တွေ ကျွန်တော့်မှာ အများကြီးရှိပါသေးတယ်။ ကိုယ့်မြန်မာပြည်မှာ မနေရပေမယ့် ကိုယ် လုပ်ပေးနိုင်တာတွေကို ဆက်လုပ်ပေးမယ်လို့ လည်းစဉ်းစားထားလို့ပါတယ်။ အရင်ကတော့ နိုင်ငံရေးကြောင့်၊ စစ်တွေကြောင့် စိတ်ဓာတ်ကျတယ်။

ဒါပေမယ့် အဲဒါတွေကို ခေါင်းထဲက ဖျောက်ထားလိုက်တော့တယ်။ စကားလေးတစ်ခုရှိတယ်။

ကိုယ်ထိန်းချုပ်နိုင်တဲ့အရာတွေပေါ်မှာပဲ အာရုံပြုထားဖို့။
ကိုယ်မထိန်းချုပ်နိုင်တဲ့ ကိစ္စတွေပေါ်မှာ အရမ်းကြီး မခံစားမိစေဖို့ ဆိုပြီးတော့လေ။

အခုလို ဘာမှမရေရာတဲ့ခေတ်ထဲမှာ အဲဒီလိုစိတ်ကို ထားရှိဖို့ ပိုအရေးကြီးပါတယ်။

ဖြစ်နိုင်ရင်တော့ public domain ထဲရောက်နေတဲ့ သုတ၊ရသ မြန်မာစာတွေကို OCR ဖတ်ပြီး text file အနေနဲ့ဖြစ်ဖြစ် github မှာတင်ထားချင်တယ်။ ဒါမှ AI ကို train ပေးမယ့်သူတွေလည်းပိုအဆင်ပြေမယ်ပေါ့။

ဒါကိုအရင်က Funding သုံးပြီး လုပ်ကြတဲ့ project မျိုးတွေလည်းတွေ့ဖူးတယ်။ အခွင့်သင့်လာရင်တော့ ဖြစ်ကောင်းဖြစ်လာမှာပါ။ ကျန်တာအားလုံးက ရှုပ်ရှုပ်ထွေးထွေးမရှိဘူး။

အဓိက ကတော့ public domain ထဲကစာတွေဖြစ်ဖို့ပဲ။ မြန်မာပြည်မှာ မူပိုင်ခွင့်ဥပဒေက ဘယ်လိုမှန်းလဲမသိတော့ သုံးလို့ရမရ ဆိုတာက လည်း ဝေဝေဝါးဝါး။တခြားနိုင်ငံတွေမှာတော့ ဖန်တီးသူကွယ်လွန်လို့ ဘယ်လောက်ကြာရင် အများပိုင် public domain ထဲရောက်သွားတယ်ဆိုတဲ့ ဥပဒေမျိုးရှိကြတယ်။

အဲဒါမျိုးရှိခဲ့ရင်လည်းကောင်းမှာ။ ရှင်းရှင်းလင်းလင်းရှိတာပေါ့။

အခုမှာတော့ ဒီ tool ကို https://myanocr.streamlit.app မှာ သုံးလို့ရပါတယ်။

Hosting က streamlit မှာပဲထားတော့ အခကြေးငွေမကုန်ဘူး။ Google OCR သုံးရင်တော့ API ဖိုးကုန်တာပေါ့။ ဒါပေမယ့် သိပ်အများကြီးမဟုတ်ရင် ကျွန်တော် အိတ်စိုက်နိုင်ပါသေးတယ်။

တခြားဆိုရင်တော့

https://downsub.streamlit.app ( Facebook.Live video တွေကနေ မြန်မာ Subtitle တွေဆွဲထုတ်တာ)