ပိုကောင်းလာတဲ့ OCR နည်းပညာ

Nyein Chan Ko Ko
3 min readMay 21, 2024
Old man doing OCR in his little room. p.s He looks like my Dad :)

ကျွန်တော် ပြီးခဲ့တဲ့ တစ်နှစ်အတွင်းမှာ တော်တော်လေးကို digital tool တွေ ဖန်တီးဖြစ်ခဲ့ပါတယ်။

Python နဲ့ရေးတာ ,Google Script နဲ့ရေးတာ အစုံပါပဲ။ တော်တော်များများက automation tool တွေများတယ်။ အချို့ဟာတွေက ကိုယ့်အလုပ်အတွက်ပါသလို၊ အချို့တွေက ကိုယ့်ရဲ့ community အတွက်အဆင်ပြေဖို့အတွက် ရေးခဲ့တဲ့ tool မျိုးတွေပါ။

အဓိက AI ပိုအဆင့်မြင့်လာတာကြောင့် အရင်က Google မှာရှာဖတ်​ stackoverflow မှာမွှေနှောက်ရတဲ့အဖြေတွေကို အခု လွယ်လွယ်ကူကူရပြီး ရှေ့ဆက်တိုးလာနိုင်တာကြောင့်လည်းပါပါလိမ့်မယ်။

လူတွေကို သူတို့လုပ်ချင်တာတွေလုပ်လို့ရဖို့ ပိုလွယ်ကူတဲ့နည်းပညာတွေသာလက်ထဲထည်ပေးရင် innovative ပိုဖြစ်နိုင်တယ်ဆိုတာ လက်တွေ့ပါပဲ။

ကျွန်တော်တင် မကပါဘူး။ တခြားသူတွေတော်တော်များများလည်း tool အသစ်တွေ ဖန်တီးလာနိုင်ကြတာ မျက်မြင် ပဲ။

ဥပမာ ပေးရရင် ကျနော်တို့က တိုက်ဆောက်ချင်တယ်ဆိုတာနဲ့ အုတ်တွေကို ကိုယ်တိုင်ဖုတ်နေရတာမျိုး၊ ဘိလပ်မြေရဖို့ ကိုယ်တိုင် ကျောက်တူးနေရတာ၊ သံတွေကိုယ်တိုင်ကွေးနေရတာမျိုးက မဖြစ်သင့်တော့ဘူးလေ။

အဲလိုပဲ robot တွေတည်ဆောက်ဖို့ chipset ကအစ ကိုယ်တိုင်စရေးနေရတာဟာ innovative ဖြစ်လာဖို့နှောင့်နှေးစေတယ်။

AI တွေ ဟာ quality ကောင်းတဲ့ကုဒ်တွေကို မြန်မြန်ဆန်ဆန်ထုတ်ပေးလာနိုင်တော့၊ ကိုယ်လိုချင်တဲ့ စိတ်ကူးတွေကိုပေါင်းစပ်ဖို့ပိုလွယ်ကူလာပါတယ်။

အဲဒီဟာတွေ အကြောင်းရေးရင်တော့အများကြီးဖြစ်ပါလိမ့်မယ်။ အခု ပြောချင်တဲ့အကြောင်းကတော့ လက်ရှိလုပ်ပြီးတဲ့ OCR နည်းပညာသုံး tool လေးတစ်ခုအကြောင်းပါ။

OCR ဆိုတာ Optical Character Recognition လို့ခေါ်ပါတယ်။ ကျွန်တော်ကတော့ OCR ဖတ်တို့လို့ပဲ မြန်မာမှု ပြုလိုက်ပါတယ်။ သူကတော့ ဓာတ်ပုံတွေ ထဲက စာတွေကို ကွန်ပျူတာ စာလုံးအဖြစ်ပြောင်းလဲ ပေးတာပါ။ တကယ်ကောင်းတဲ့ OCR တွေဟာ လက်ရေးနဲ့ရေးထားတဲ့စာတွေကိုလည်း ကွန်ပျူတာ စာလုံး ပြောင်းလဲနိုင်ပါတယ်။

ရှေးကထွက်ခဲ့တဲ့စာအုပ်တွေ၊သတင်းစာ၊ဂျာနယ် စာတာတွေကို PDF File, Image ဖိုင်တွေကနေပြီးတော့ text file တွေအဖြစ်ကို ပြောင်းလဲနိုင်ပါတယ်။

ဘာလို့အဲဒီလို ပြောင်းလဲလို့ရဖို့အရေးကြီးသလဲဆိုတော့ ၊​ text file တွေဖြစ်သွားခဲ့ရင်

  • ဒီစာတွေထဲက နေ အကြောင်းအရာကို ရှာဖွေဖို့ ပိုလွယ်ကူသွားပြီ။
  • ကိုယ်လိုချင်တဲ့အပိုင်းကို ကူးထုတ်ပြီး တခြားနေရာမှာပြန်သုံးလို့ရတယ်။
  • AI တွေက ဒီစာသားကို နားလည်ပြီး စာပြန်နိုင်ပြီ။
  • ဒီစာတွေကို AI က အသံထွက်ဖတ်ပေးဖို့ ဖြစ်နိုင်ပြီ။

စသဖြင့်ပေါ့။

ယခင်ကတော့ မြန်မာစာမှာ ဇော်ဂျီသုံးတာကြောင့် အထက်မှာ ပြခဲ့တာတွေ လုပ်ဖို့မဖြစ်နိုင်ဘူး။ ဒါကြောင် ့ယူနီကုဒ်သုံးဖို့လိုပါတယ်ဆိုပြီး ပြောခဲ့ကြတယ်။ ယူနီကုဒ်သုံးလာမှ အင်တာနက်ပေါ်မှာရှိတဲ့ မြန်မာစာက ပိုပြီးလူရာဝင်လာမှာလို့ပြောခဲ့တယ်။

အခုယူနီကုဒ် ပြောင်းလဲလာပြီး ၅နှစ်လောက်ကြာတဲ့အခါ ကျွန်တော်တို ့မျှော်လင့်ခဲ့သလိုပဲ​ မြန်မာလို သုံးလို့ရတဲ့ tool တွေပိုများလာတယ်။ AI တွေမှာလည်း မြန်မာစာ၊ဘာသာစကားကို ထောက်ပံ့နိုင်တာတွေ ပိုတွေ့လာရပါပြီ။

OCR အနေနဲ့ပြောရမယ်ဆိုရင်တော့ လက်ရှိမှာ မြန်မာစာကိုထောက်ပံ့တဲ့ OCR အများကြီးရှိပါတယ်။ အသုံးများဆုံးကတော့ Google OCR နဲ့ Tesseract OCR ပါပဲ။

Tesseract OCR က Opensource ဆိုတော့ ဝင်ပြီး ကူညီမယ့်သူမရှိရင် တိုးတက်မှုနှေးပါတယ်။ မြန်မာစာနဲ့ပတ်သက်လို့ သိပ်ပြီး သိသိသာသာတိုးတက်တာမတွေ့ရသေးပါဘူး။

Google OCR ကတော့ အခုနှစ်ပိုင်းအတွင်းမှာ မြန်မာစာနဲ့ ပတ်သက်လို့ အရမ်းကို Quality ကောင်းလာပါတယ်။

Google OCR ကို ကျွန်တော်တို့ Google DRive ထဲမှာ Google Lens ထဲမှာ တိုက်ရိုက်သုံးလို့ရပါတယ်။ ဒါပေမယ့် တစ်ကိုယ်ရေသုံးဆိုလို့ ရှိရင် အများကြီးသုံးလို့တော့မရပါဘူး။ အရင်ဆုံးဖိုင်ကို Google Drive မှာဖွင့်လိုက်ရတယ်ဆိုတာမျိုးကို တော့ လုပ်ရပါတယ်။ပြီးတော့ စာအုပ်တစ်အုပ်လုံးကို OCR ဖတ်ဖို့ကလည်းအချိန်တော်တော်ယူပါတယ်။ စာမျက်နှာများရင်လည်းမရပါဘူး။

ယခု ကျွန်တော်က အဲဒီ Tessearct ကော Google OCR ကောကို အသုံးပြုပြီး တော့ OCR ဖတ်လို့ရတဲ့ Tool တစ်ခုပြုလုပ်ထားပါတယ်။

သူ့မှာ

  • ဘယ် OCR engine ကိုသုံးမလဲဆိုတာရွေးလို့ရတယ်။
  • စာမျက်နှာ ၂၀ အများဆုံး ဖတ်လို့ရတယ်။
  • အကယ်၍ စာအုပ်က စာမျက်နှာ၂ခု ကပ်လျက် two column scan ထားတာမျိုးဆိုရင် အရင် အဲဒါကို တခုစီ ပိုင်းဖြတ်ပြီးမှ OCR ဖတ်တာမျိုးလုပ်ပေးတယ်။
  • ကိုယ့်မှာ ရှိခဲ့တဲ့ Zawgyi text file တွေကိုလည်း Unicode ပြောင်းတာမျိုးလုပ်ပေးတယ်။

ရည်ရွယ်ချက်ကတော့ ရိုးရှင်းပါတယ်။

မြန်မာစာအုပ်တွေ စာတွေကို Digitize လုပ်ချင်ကြတဲ့သူတွေ အများကြီးရှိပါတယ်။

အချို့ကတော့ ဝါသနာ အရ Ebook ပြုလုပ်လိုကြတာ။ အချို့ကတော့ စီးပွားရေးအတွက်ပေါ့။

ဘယ်လိုမျိုးကြောင့်ပဲဖြစ်စေ၊ အချို့တွေ က လုပ်ချင်စိတ်ရှိတယ်။ လုပ်အားစိုက်နိုင်ပေမယ့် သူတို့လက်ထဲမှာ လွယ်လွယ်ကူကူ လုပ်လို့ရမယ့် Tool မရှိနေဘူး။

ကျွန်တော်က အဲဒီ လိုနေတဲ့ tool ကို ပြုလုပ်ပေးချင်ပါတယ်။

ကိုယ်တိုင်လည်း အဲဒီလို မရှိရှိတဲ့ နည်းလေးတွေနဲ့ စာအုပ်တွေကိုdigitize လုပ်ခဲ့ဖူးသူဆိုတော့ ဘယ်လောက်ထိ ပင်ပန်းလဲ၊​ အချိန်ယူရလဲသိတယ်။

ကိုယ်ကသာ ဒီအတွက် လိုနေတဲ့ tool တစ်ခုပေးလိုက်နိုင်ရင် သူတို့တွေ ဒီအတွက် ကုန်မယ့်အချိန်အများကြီးကို လျော့ချပေးလိုက်သလိုပါပဲ။

တခြားနေရာတွေမှာ အာရုံစိုက်ဖို့ အချိန်ပိုတွေထွက်လာတာဟာ မင်္ဂလာတစ်ပါးမဟုတ်လား။

ဒါမှမဟုတ်လည်း အရင်က တစ်အုပ်ပြီးမယ့် အချိန်မှာ အခု ဆယ်အုပ် ပြီးမယ်ဆိုရင်လည်း ထုတ်လုပ်မှု တက်လာတာပဲလေ။

ကျွန်တော့်အတွက်က ဒီ tool ကိုဖန်တီးဖို့ အချိန်ပေးလိုက်ရရင်လည်း အလွန်ဆုံး ၃ရက်ပေါ့ ။ တစ်ဖက်မှာတော့ အများကြီးအကျိုးရှိနိုင်တယ်။

ဒီလိုမျိုးလုပ်ထားတဲ့ tool တွေ ကျွန်တော့်မှာ အများကြီးရှိပါသေးတယ်။ ကိုယ့်မြန်မာပြည်မှာ မနေရပေမယ့် ကိုယ် လုပ်ပေးနိုင်တာတွေကို ဆက်လုပ်ပေးမယ်လို့ လည်းစဉ်းစားထားလို့ပါတယ်။ အရင်ကတော့ နိုင်ငံရေးကြောင့်၊ စစ်တွေကြောင့် စိတ်ဓာတ်ကျတယ်။

ဒါပေမယ့် အဲဒါတွေကို ခေါင်းထဲက ဖျောက်ထားလိုက်တော့တယ်။ စကားလေးတစ်ခုရှိတယ်။

ကိုယ်ထိန်းချုပ်နိုင်တဲ့အရာတွေပေါ်မှာပဲ အာရုံပြုထားဖို့။

ကိုယ်မထိန်းချုပ်နိုင်တဲ့ ကိစ္စတွေပေါ်မှာ အရမ်းကြီး မခံစားမိစေဖို့ ဆိုပြီးတော့လေ။

အခုလို ဘာမှမရေရာတဲ့ခေတ်ထဲမှာ အဲဒီလိုစိတ်ကို ထားရှိဖို့ ပိုအရေးကြီးပါတယ်။

ဖြစ်နိုင်ရင်တော့ public domain ထဲရောက်နေတဲ့ သုတ၊ရသ မြန်မာစာတွေကို OCR ဖတ်ပြီး text file အနေနဲ့ဖြစ်ဖြစ် github မှာတင်ထားချင်တယ်။ ဒါမှ AI ကို train ပေးမယ့်သူတွေလည်းပိုအဆင်ပြေမယ်ပေါ့။

ဒါကိုအရင်က Funding သုံးပြီး လုပ်ကြတဲ့ project မျိုးတွေလည်းတွေ့ဖူးတယ်။ အခွင့်သင့်လာရင်တော့ ဖြစ်ကောင်းဖြစ်လာမှာပါ။ ကျန်တာအားလုံးက ရှုပ်ရှုပ်ထွေးထွေးမရှိဘူး။

အဓိက ကတော့ public domain ထဲကစာတွေဖြစ်ဖို့ပဲ။ မြန်မာပြည်မှာ မူပိုင်ခွင့်ဥပဒေက ဘယ်လိုမှန်းလဲမသိတော့ သုံးလို့ရမရ ဆိုတာက လည်း ဝေဝေဝါးဝါး။တခြားနိုင်ငံတွေမှာတော့ ဖန်တီးသူကွယ်လွန်လို့ ဘယ်လောက်ကြာရင် အများပိုင် public domain ထဲရောက်သွားတယ်ဆိုတဲ့ ဥပဒေမျိုးရှိကြတယ်။

အဲဒါမျိုးရှိခဲ့ရင်လည်းကောင်းမှာ။ ရှင်းရှင်းလင်းလင်းရှိတာပေါ့။

အခုမှာတော့ ဒီ tool ကို https://myanocr.streamlit.app မှာ သုံးလို့ရပါတယ်။

https://myanocr.streamlit.app

Hosting က streamlit မှာပဲထားတော့ အခကြေးငွေမကုန်ဘူး။ Google OCR သုံးရင်တော့ API ဖိုးကုန်တာပေါ့။ ဒါပေမယ့် သိပ်အများကြီးမဟုတ်ရင် ကျွန်တော် အိတ်စိုက်နိုင်ပါသေးတယ်။

တခြားဆိုရင်တော့

https://downsub.streamlit.app ( Facebook.Live video တွေကနေ မြန်မာ Subtitle တွေဆွဲထုတ်တာ)

https://downsub.streamlit.app

https://mechat.streamlit.app ( မြန်မာလိုပြောလို့ရတဲ့ AI chat site)

https://mechat.streamlit.app

https://stocklyzer.streamlit.app ( စတော့မားကတ်ဒေတာတွေ analyze လုပ်တာ စာတာတွေရှိပါသေးတယ်)

https://stocklyzer.streamlit.app

ကုဒ်တွေကတော့ private repo မှာပဲရှိသေးတယ်။ တချို့ credential တွေဖယ်လိုက်ပြီးရင်တော့ public ထုတ်ပေးနိုင်ပါတယ်။

Nyein Chan Ko Ko

May 21 2024

Milwaukee, USA

--

--

Nyein Chan Ko Ko

Medical doctor ,Seasoned programmer, Data enthusiast . Interested in AI, blockchain, politics , health. MB,.BS, MSc Healthcare Informatics