ပိုကောင်းလာတဲ့ OCR နည်းပညာ
ကျွန်တော် ပြီးခဲ့တဲ့ တစ်နှစ်အတွင်းမှာ တော်တော်လေးကို digital tool တွေ ဖန်တီးဖြစ်ခဲ့ပါတယ်။
Python နဲ့ရေးတာ ,Google Script နဲ့ရေးတာ အစုံပါပဲ။ တော်တော်များများက automation tool တွေများတယ်။ အချို့ဟာတွေက ကိုယ့်အလုပ်အတွက်ပါသလို၊ အချို့တွေက ကိုယ့်ရဲ့ community အတွက်အဆင်ပြေဖို့အတွက် ရေးခဲ့တဲ့ tool မျိုးတွေပါ။
အဓိက AI ပိုအဆင့်မြင့်လာတာကြောင့် အရင်က Google မှာရှာဖတ် stackoverflow မှာမွှေနှောက်ရတဲ့အဖြေတွေကို အခု လွယ်လွယ်ကူကူရပြီး ရှေ့ဆက်တိုးလာနိုင်တာကြောင့်လည်းပါပါလိမ့်မယ်။
လူတွေကို သူတို့လုပ်ချင်တာတွေလုပ်လို့ရဖို့ ပိုလွယ်ကူတဲ့နည်းပညာတွေသာလက်ထဲထည်ပေးရင် innovative ပိုဖြစ်နိုင်တယ်ဆိုတာ လက်တွေ့ပါပဲ။
ကျွန်တော်တင် မကပါဘူး။ တခြားသူတွေတော်တော်များများလည်း tool အသစ်တွေ ဖန်တီးလာနိုင်ကြတာ မျက်မြင် ပဲ။
ဥပမာ ပေးရရင် ကျနော်တို့က တိုက်ဆောက်ချင်တယ်ဆိုတာနဲ့ အုတ်တွေကို ကိုယ်တိုင်ဖုတ်နေရတာမျိုး၊ ဘိလပ်မြေရဖို့ ကိုယ်တိုင် ကျောက်တူးနေရတာ၊ သံတွေကိုယ်တိုင်ကွေးနေရတာမျိုးက မဖြစ်သင့်တော့ဘူးလေ။
အဲလိုပဲ robot တွေတည်ဆောက်ဖို့ chipset ကအစ ကိုယ်တိုင်စရေးနေရတာဟာ innovative ဖြစ်လာဖို့နှောင့်နှေးစေတယ်။
AI တွေ ဟာ quality ကောင်းတဲ့ကုဒ်တွေကို မြန်မြန်ဆန်ဆန်ထုတ်ပေးလာနိုင်တော့၊ ကိုယ်လိုချင်တဲ့ စိတ်ကူးတွေကိုပေါင်းစပ်ဖို့ပိုလွယ်ကူလာပါတယ်။
အဲဒီဟာတွေ အကြောင်းရေးရင်တော့အများကြီးဖြစ်ပါလိမ့်မယ်။ အခု ပြောချင်တဲ့အကြောင်းကတော့ လက်ရှိလုပ်ပြီးတဲ့ OCR နည်းပညာသုံး tool လေးတစ်ခုအကြောင်းပါ။
OCR ဆိုတာ Optical Character Recognition လို့ခေါ်ပါတယ်။ ကျွန်တော်ကတော့ OCR ဖတ်တို့လို့ပဲ မြန်မာမှု ပြုလိုက်ပါတယ်။ သူကတော့ ဓာတ်ပုံတွေ ထဲက စာတွေကို ကွန်ပျူတာ စာလုံးအဖြစ်ပြောင်းလဲ ပေးတာပါ။ တကယ်ကောင်းတဲ့ OCR တွေဟာ လက်ရေးနဲ့ရေးထားတဲ့စာတွေကိုလည်း ကွန်ပျူတာ စာလုံး ပြောင်းလဲနိုင်ပါတယ်။
ရှေးကထွက်ခဲ့တဲ့စာအုပ်တွေ၊သတင်းစာ၊ဂျာနယ် စာတာတွေကို PDF File, Image ဖိုင်တွေကနေပြီးတော့ text file တွေအဖြစ်ကို ပြောင်းလဲနိုင်ပါတယ်။
ဘာလို့အဲဒီလို ပြောင်းလဲလို့ရဖို့အရေးကြီးသလဲဆိုတော့ ၊ text file တွေဖြစ်သွားခဲ့ရင်
- ဒီစာတွေထဲက နေ အကြောင်းအရာကို ရှာဖွေဖို့ ပိုလွယ်ကူသွားပြီ။
- ကိုယ်လိုချင်တဲ့အပိုင်းကို ကူးထုတ်ပြီး တခြားနေရာမှာပြန်သုံးလို့ရတယ်။
- AI တွေက ဒီစာသားကို နားလည်ပြီး စာပြန်နိုင်ပြီ။
- ဒီစာတွေကို AI က အသံထွက်ဖတ်ပေးဖို့ ဖြစ်နိုင်ပြီ။
စသဖြင့်ပေါ့။
ယခင်ကတော့ မြန်မာစာမှာ ဇော်ဂျီသုံးတာကြောင့် အထက်မှာ ပြခဲ့တာတွေ လုပ်ဖို့မဖြစ်နိုင်ဘူး။ ဒါကြောင် ့ယူနီကုဒ်သုံးဖို့လိုပါတယ်ဆိုပြီး ပြောခဲ့ကြတယ်။ ယူနီကုဒ်သုံးလာမှ အင်တာနက်ပေါ်မှာရှိတဲ့ မြန်မာစာက ပိုပြီးလူရာဝင်လာမှာလို့ပြောခဲ့တယ်။
အခုယူနီကုဒ် ပြောင်းလဲလာပြီး ၅နှစ်လောက်ကြာတဲ့အခါ ကျွန်တော်တို ့မျှော်လင့်ခဲ့သလိုပဲ မြန်မာလို သုံးလို့ရတဲ့ tool တွေပိုများလာတယ်။ AI တွေမှာလည်း မြန်မာစာ၊ဘာသာစကားကို ထောက်ပံ့နိုင်တာတွေ ပိုတွေ့လာရပါပြီ။
OCR အနေနဲ့ပြောရမယ်ဆိုရင်တော့ လက်ရှိမှာ မြန်မာစာကိုထောက်ပံ့တဲ့ OCR အများကြီးရှိပါတယ်။ အသုံးများဆုံးကတော့ Google OCR နဲ့ Tesseract OCR ပါပဲ။
Tesseract OCR က Opensource ဆိုတော့ ဝင်ပြီး ကူညီမယ့်သူမရှိရင် တိုးတက်မှုနှေးပါတယ်။ မြန်မာစာနဲ့ပတ်သက်လို့ သိပ်ပြီး သိသိသာသာတိုးတက်တာမတွေ့ရသေးပါဘူး။
Google OCR ကတော့ အခုနှစ်ပိုင်းအတွင်းမှာ မြန်မာစာနဲ့ ပတ်သက်လို့ အရမ်းကို Quality ကောင်းလာပါတယ်။
Google OCR ကို ကျွန်တော်တို့ Google DRive ထဲမှာ Google Lens ထဲမှာ တိုက်ရိုက်သုံးလို့ရပါတယ်။ ဒါပေမယ့် တစ်ကိုယ်ရေသုံးဆိုလို့ ရှိရင် အများကြီးသုံးလို့တော့မရပါဘူး။ အရင်ဆုံးဖိုင်ကို Google Drive မှာဖွင့်လိုက်ရတယ်ဆိုတာမျိုးကို တော့ လုပ်ရပါတယ်။ပြီးတော့ စာအုပ်တစ်အုပ်လုံးကို OCR ဖတ်ဖို့ကလည်းအချိန်တော်တော်ယူပါတယ်။ စာမျက်နှာများရင်လည်းမရပါဘူး။
ယခု ကျွန်တော်က အဲဒီ Tessearct ကော Google OCR ကောကို အသုံးပြုပြီး တော့ OCR ဖတ်လို့ရတဲ့ Tool တစ်ခုပြုလုပ်ထားပါတယ်။
သူ့မှာ
- ဘယ် OCR engine ကိုသုံးမလဲဆိုတာရွေးလို့ရတယ်။
- စာမျက်နှာ ၂၀ အများဆုံး ဖတ်လို့ရတယ်။
- အကယ်၍ စာအုပ်က စာမျက်နှာ၂ခု ကပ်လျက် two column scan ထားတာမျိုးဆိုရင် အရင် အဲဒါကို တခုစီ ပိုင်းဖြတ်ပြီးမှ OCR ဖတ်တာမျိုးလုပ်ပေးတယ်။
- ကိုယ့်မှာ ရှိခဲ့တဲ့ Zawgyi text file တွေကိုလည်း Unicode ပြောင်းတာမျိုးလုပ်ပေးတယ်။
ရည်ရွယ်ချက်ကတော့ ရိုးရှင်းပါတယ်။
မြန်မာစာအုပ်တွေ စာတွေကို Digitize လုပ်ချင်ကြတဲ့သူတွေ အများကြီးရှိပါတယ်။
အချို့ကတော့ ဝါသနာ အရ Ebook ပြုလုပ်လိုကြတာ။ အချို့ကတော့ စီးပွားရေးအတွက်ပေါ့။
ဘယ်လိုမျိုးကြောင့်ပဲဖြစ်စေ၊ အချို့တွေ က လုပ်ချင်စိတ်ရှိတယ်။ လုပ်အားစိုက်နိုင်ပေမယ့် သူတို့လက်ထဲမှာ လွယ်လွယ်ကူကူ လုပ်လို့ရမယ့် Tool မရှိနေဘူး။
ကျွန်တော်က အဲဒီ လိုနေတဲ့ tool ကို ပြုလုပ်ပေးချင်ပါတယ်။
ကိုယ်တိုင်လည်း အဲဒီလို မရှိရှိတဲ့ နည်းလေးတွေနဲ့ စာအုပ်တွေကိုdigitize လုပ်ခဲ့ဖူးသူဆိုတော့ ဘယ်လောက်ထိ ပင်ပန်းလဲ၊ အချိန်ယူရလဲသိတယ်။
ကိုယ်ကသာ ဒီအတွက် လိုနေတဲ့ tool တစ်ခုပေးလိုက်နိုင်ရင် သူတို့တွေ ဒီအတွက် ကုန်မယ့်အချိန်အများကြီးကို လျော့ချပေးလိုက်သလိုပါပဲ။
တခြားနေရာတွေမှာ အာရုံစိုက်ဖို့ အချိန်ပိုတွေထွက်လာတာဟာ မင်္ဂလာတစ်ပါးမဟုတ်လား။
ဒါမှမဟုတ်လည်း အရင်က တစ်အုပ်ပြီးမယ့် အချိန်မှာ အခု ဆယ်အုပ် ပြီးမယ်ဆိုရင်လည်း ထုတ်လုပ်မှု တက်လာတာပဲလေ။
ကျွန်တော့်အတွက်က ဒီ tool ကိုဖန်တီးဖို့ အချိန်ပေးလိုက်ရရင်လည်း အလွန်ဆုံး ၃ရက်ပေါ့ ။ တစ်ဖက်မှာတော့ အများကြီးအကျိုးရှိနိုင်တယ်။
ဒီလိုမျိုးလုပ်ထားတဲ့ tool တွေ ကျွန်တော့်မှာ အများကြီးရှိပါသေးတယ်။ ကိုယ့်မြန်မာပြည်မှာ မနေရပေမယ့် ကိုယ် လုပ်ပေးနိုင်တာတွေကို ဆက်လုပ်ပေးမယ်လို့ လည်းစဉ်းစားထားလို့ပါတယ်။ အရင်ကတော့ နိုင်ငံရေးကြောင့်၊ စစ်တွေကြောင့် စိတ်ဓာတ်ကျတယ်။
ဒါပေမယ့် အဲဒါတွေကို ခေါင်းထဲက ဖျောက်ထားလိုက်တော့တယ်။ စကားလေးတစ်ခုရှိတယ်။
ကိုယ်ထိန်းချုပ်နိုင်တဲ့အရာတွေပေါ်မှာပဲ အာရုံပြုထားဖို့။
ကိုယ်မထိန်းချုပ်နိုင်တဲ့ ကိစ္စတွေပေါ်မှာ အရမ်းကြီး မခံစားမိစေဖို့ ဆိုပြီးတော့လေ။
အခုလို ဘာမှမရေရာတဲ့ခေတ်ထဲမှာ အဲဒီလိုစိတ်ကို ထားရှိဖို့ ပိုအရေးကြီးပါတယ်။
ဖြစ်နိုင်ရင်တော့ public domain ထဲရောက်နေတဲ့ သုတ၊ရသ မြန်မာစာတွေကို OCR ဖတ်ပြီး text file အနေနဲ့ဖြစ်ဖြစ် github မှာတင်ထားချင်တယ်။ ဒါမှ AI ကို train ပေးမယ့်သူတွေလည်းပိုအဆင်ပြေမယ်ပေါ့။
ဒါကိုအရင်က Funding သုံးပြီး လုပ်ကြတဲ့ project မျိုးတွေလည်းတွေ့ဖူးတယ်။ အခွင့်သင့်လာရင်တော့ ဖြစ်ကောင်းဖြစ်လာမှာပါ။ ကျန်တာအားလုံးက ရှုပ်ရှုပ်ထွေးထွေးမရှိဘူး။
အဓိက ကတော့ public domain ထဲကစာတွေဖြစ်ဖို့ပဲ။ မြန်မာပြည်မှာ မူပိုင်ခွင့်ဥပဒေက ဘယ်လိုမှန်းလဲမသိတော့ သုံးလို့ရမရ ဆိုတာက လည်း ဝေဝေဝါးဝါး။တခြားနိုင်ငံတွေမှာတော့ ဖန်တီးသူကွယ်လွန်လို့ ဘယ်လောက်ကြာရင် အများပိုင် public domain ထဲရောက်သွားတယ်ဆိုတဲ့ ဥပဒေမျိုးရှိကြတယ်။
အဲဒါမျိုးရှိခဲ့ရင်လည်းကောင်းမှာ။ ရှင်းရှင်းလင်းလင်းရှိတာပေါ့။
အခုမှာတော့ ဒီ tool ကို https://myanocr.streamlit.app မှာ သုံးလို့ရပါတယ်။
Hosting က streamlit မှာပဲထားတော့ အခကြေးငွေမကုန်ဘူး။ Google OCR သုံးရင်တော့ API ဖိုးကုန်တာပေါ့။ ဒါပေမယ့် သိပ်အများကြီးမဟုတ်ရင် ကျွန်တော် အိတ်စိုက်နိုင်ပါသေးတယ်။
တခြားဆိုရင်တော့
https://downsub.streamlit.app ( Facebook.Live video တွေကနေ မြန်မာ Subtitle တွေဆွဲထုတ်တာ)
https://mechat.streamlit.app ( မြန်မာလိုပြောလို့ရတဲ့ AI chat site)
https://stocklyzer.streamlit.app ( စတော့မားကတ်ဒေတာတွေ analyze လုပ်တာ စာတာတွေရှိပါသေးတယ်)
ကုဒ်တွေကတော့ private repo မှာပဲရှိသေးတယ်။ တချို့ credential တွေဖယ်လိုက်ပြီးရင်တော့ public ထုတ်ပေးနိုင်ပါတယ်။
Nyein Chan Ko Ko
May 21 2024
Milwaukee, USA