Don't let AI Colonize Your Data - A Push for Ethical AI

ChatGPT နဲ့ အခု GPT-4 ရောက်လာတဲ့အခါမှာတော်တော်များများက ပျော်ကြပါတယ်။ တစ်ဖက်က မရေးချင်တဲ့စာအရှည်ကြီးတွေကို ရေးခိုင်းကြသလို၊ မဖတ်ချင်တဲ့စာအရှည်ကြီးတွေကိုလဲ summarize လုပ်ခိုင်းကြတယ်။ တချို့ဆို Business Plan တွေကို copy-paste လုပ်ပြီး ကိုယ့်အလုပ်ကို Automate လုပ်ကြတာတွေမြင်ရပါတယ်။

ကိုယ့်လုပ်ငန်းရဲ့ Trade secret တွေကို data တွေဘယ်နေရာမှာသိမ်းလို့ ဘာဆက်လုပ်မှန်းမသိတဲ့ website တစ်ခုထဲကိုရိုက်ထည့်တာ ကိုယ့်ဆုံးဖြတ်ချက်နဲ့ကိုယ်ဖြစ်တာကြောင့်ပြောစရာမရှိပါ။ စည်းမျဥ်းဥပဒေတွေနဲ့ထိန်းချုပ်မှုမရှိတဲ့ AI ကိုအသုံးပြုရင်း အများနဲ့သက်ဆိုင်တဲ့ consequence တွေကိုပဲအဓိကပြောချင်ပါတယ်။

1. ဒီ Response ဘယ်ကရလာသလဲ

ဘာသာစကားဆိုင်ရာ AI (Large Language Model) တွေရဲ့ စဥ်းစားတွက်ချက်ပုံက Black Box ကြီးတစ်ခုလိုပဲ တစ်ဖက်မှာကိုယ်ပေးလိုက်တဲ့ input နဲ့ တစ်ဖက်ကထွက်လာတဲ့ output နှစ်ခုပဲရှိပါတယ်။ ကြားထဲမှာအဆင့်ဆင့် ကျိုးကြောင်းဆီလျော်ခြင်း (reason)၊ အဓိပ္ပါယ်(meaning)၊ ဆိုတာတွေကို AI က”နားလည်ခြင်း” မရှိသလို OpenAI လိုကုမ္ပဏီတွေကလဲ ရှင်းပြမှာမဟုတ်ဘူးလို့ GPT-4 Announcement မှာရေးထားပါတယ်။

အဲတော့ ကိုယ့်ဆီရောက်လာတဲ့ response သည် တခြားတစ်နေရာက တစ်ခြားသူတစ်ယောက်၊ တစ်ခြားကုမ္ပဏီတစ်ခုရဲ့ Privileged Information ဖြစ်နေမနေ၊ Licensed သို့မဟုတ် Copyrighted Idea တစ်ခုဖြစ်နေမနေကို သိရမှာလုံးဝမဟုတ်ပါ။ AI ကတစ်ဆင့်မြင်ရသိရတာတွေကို မျက်စိမှိတ်အသုံးပြုမယ့်သူတိုင်း ဒီအချက်ကိုသတိထားရမှာပါ။ OpenAI ရဲ့ API သုံးပြီး “AI-powered product” ပါဆိုပြီး မားကတ်တင်းဆင်းကြတဲ့သူတွေသိရမှာက ပြဿနာတစ်ခုခုဖြစ်ရင် “AI ရဲ့စဥ်းစားပုံက သေချာစမ်းသပ်လို့မရတဲ့ Black Box ကြီးပါ”၊ “ဒါက Third-party ရဲ့အပြစ်ပါ” ဆိုပြီး ငြင်းချက်ထုတ်လို့မရတဲ့အကြောင်း US Federal Trade Commission ကသတိပေးထားပါတယ်။

2. ဘက်လိုက်မှုရှိတာတွေကို မြင်ရမယ်။

Machine Learning model တစ်ခုကို Training အဆင့်မရောက်သေးခင်၊ ဒေတာစုဆောင်းတဲ့အဆင့်မှာတင် Bias ဆိုတဲ့ဘက်လိုက်မှုတွေရှိပါတယ်။ ဥပမာ Gen-Z တွေများတဲ့ TikTok ပေါ်သွားပြီး ဘယ် social media ကအကောင်းဆုံးလဲလို့ စစ်တမ်းသွားကောက်ပြီး 80% လောက်က TikTok ပြောရင် ဒါက demographic တစ်ခုလုံးကိုကိုယ်စားပြုမှာတဲ့လား? သဘာဝပတ်ဝန်းကျင်ကိုထိခိုက်စေတဲ့လုပ်ငန်းတွေအကြောင်းကို အဲဒီလုပ်ငန်းလုပ်တဲ့သူတွေကိုပဲမေးရင် ရလာတဲ့ ဒေတာတွေက အဲဒီပတ်ဝန်းကျင်မှာ နေထိုင်တဲ့သူတွေရဲ့အမြင်လောက်မှန်ကန်မှာလား? ဒေသတစ်ခုမှာ လူကြီး (၉၉)ယောက်နဲ့ လူငယ်(၁)ယောက်ဆီက ရလာတဲ့ဒေတာတွေကိုကြည့်ပြီး ဒီဒေသကလူတွေ ဘာကိုအများဆုံးလိုလားတယ်ဆိုတာ ပြည့်ပြည့်စုံစုံသိနိုင်မလား? Response တစ်ခုဘယ်လိုရလာတာလဲတောင်ရှင်းပြဖို့အစီအစဥ်မရှိတဲ့ AI ကုမ္ပဏီတွေကိုယ်တိုင်ကရော လူမျိုးရေး၊ နိုင်ငံရေး၊ လူမှုရေး၊ ပတ်ဝန်းကျင်အရေးတွေမှာ ဘက်လိုက်မှုတွေဖြစ်မဖြစ် ဘယ်လိုသိနိုင်မလဲ?

3. AI နဲ့ပဲအကုန်ဆုံးဖြတ်ကြမှာလား

အလုပ်ခွင်မှာ AI သုံးပြီး အလုပ်ခေါ်စာတွေရေးတယ်။ လျှောက်တဲ့သူကလဲ ChatGPT သုံးပြီးလျှောက်တယ်။ HR က ChatGPT နဲ့ summarize လုပ်တယ်၊ Candidate တစ်ယောက်ချင်းစီကို ranking လုပ်တယ်။ နှစ်ဦးနှစ်ဖက်က အဲလိုနဲ့ အရမ်းကိုလက်သွက်လာတဲ့အခါ

အဓိပ္ပါယ်ရှိတဲ့ဆုံးဖြတ်ချက်တွေကို လူကိုယ်တိုင်မလုပ်တော့ဘဲ AI ကိုပဲ အလုပ်လျှောက်လွှာတွေ scan လုပ်ခိုင်း၊ summarize လုပ်ခိုင်းတဲ့အခါ၊

လူတစ်ယောက်ရဲ့ qualification တွေကို စက်ကထုတ်ပေးတဲ့ အကျဥ်းချုပ်လေးကိုပဲ ဖတ်ပြီးအတည်ယူတဲ့အခါ၊

အကယ်၍ AI ကတစ်စုံတစ်ရာကိုမှားယွင်းပြီး ပြင်ဆင်တာဖြစ်ဖြစ်၊ ချန်ခဲ့တာပဲဖြစ်ဖြစ် အဲဒီ recruitment process တစ်ခုလုံးရဲ့ ဆုံးဖြတ်ချက်က AI အပေါ်မှာလုံးလုံးလျားလျားမူတည်နေမှာပါ။

IBM ရဲ့ဆောင်ပုဒ်ဖြစ်တဲ့ ပြဿနာတစ်ခုခုဖြစ်တဲ့အခါ ကွန်ပျူတာကို တာဝန်ခံခိုင်းလို့မရတဲ့အတွက် ကွန်ပျူတာတွေသည် စီမံခန့်ခွဲမှုဆိုင်ရာ ဆုံးဖြတ်ချက်များကို ဘယ်တော့မှမလုပ်စေရ ဆိုတဲ့စကားကိုသတိချပ်စေချင်ပါတယ်။

4. သိမ်းပိုက်ခံလိုက်ရတဲ့ကိုယ်ရေးကိုယ်တာအချက်အလက်တွေ

နည်းပညာကုမ္ပဏီတွေက အခုအချိန်မှာ စစ်အေးတိုက်ပွဲဆင်နွှဲနေတဲ့အချိန်ဖြစ်ပါတယ်။ စျေးကွက်ကိုအမြန်ဆုံးနဲ့အများဆုံးဦးဆောင်ဖို့ သုံးစွဲသူတွေကို ခွင့်တောင်းခြင်းမရှိဘဲ လူဂ္ဂိုလ်ဆိုင်ရာ အချက်အလက်တွေကို Training Dataset အနေနဲ့အသုံးချဖို့ ကိုယ်ကျင့်တရား (Ethic) ဆိုတာကို ခဏမျက်စိမှိတ်ထားကြတာကို Midjourney, Stability AI စတဲ့ကုမ္ပဏီတွေကသက်သေပြပြီးပါပြီ။ Stability ရဲ့ training data မှာ ဒစ်ဂျစ်တယ်ပန်းချီရေးဆွဲသူတွေရဲ့ မူပိုင်လက်ရာတွေအပြင် လူပုဂ္ဂိုလ်အချို့ရဲ့ ဆေးကုသမှုမှတ်တမ်းဓါတ်ပုံတွေကိုပါ တွေ့ခဲ့ရပါတယ်။ Stability အနေနဲ့ သူတို့ အွန်လိုင်းကနေစုဆောင်းရယူ (scrape) ခဲ့တဲ့ ဝက်ဘ်ဆိုဒ်စာမျက်နှာတွေမှာ Scraping ကိုခွင့်မပြုပါဘူးလို့ အတိအလင်းရေးထားတာကိုလည်း လျစ်လျူရှုခဲ့ကြတာပါ။ ဒါလဲ အခုထိတာဝန်ယူမှုဆိုတာမရှိတဲ့အတွက် US နဲ့ UK မှာ သူတို့ကို တရားစွဲဖို့လုပ်နေကြပါပြီ။ OpenAI မှာ ဒေါ်လာသန်း(၁၀၀၀)ရင်းနှီးမြှုပ်နှံလိုက်တဲ့ Microsoft မှာလဲ AI နည်းပညာဆိုင်ရာ ကိုယ်ကျင့်တရားထိန်းသိမ်းရေး (AI Ethic) အသင်းတစ်သင်းကိုအလုပ်ဖြုတ်လိုက်ပါပြီ။ နည်းပညာတိုးတက်မှုခေါင်းစဥ်အောက်မှာ လူတစ်ယောက်ချင်းရဲ့ ကိုယ်ရေးကိုယ်တာအချက်အလက်တွေကို မတရားသိမ်းယူတာ ဘာဆက်ဖြစ်မလဲဆိုတာတော့ဆက်ကြည့်ဖို့ပါပဲ။

5. လုပ်ငန်းတွေဆီရောက်လာမယ့်ပြဿနာ

Midjourney လို AI ကိုစာရေးပြီး ရုပ်ပုံတွေဖန်တီးခိုင်းတဲ့ ဝန်ဆောင်မှုတွေသည် မူပိုင်ခွင့် လုံးဝခံစားခွင့်မရှိကြောင်းကို US Copyright Office ကပြောပြီးပါပြီ။ ကိုယ့်ဘာသာ စာလုံးတွေဘယ်လိုစီလို့ ဘယ်လိုပဲအမိုက်စားပုံတွေရလာလာ အဲဒီပုံတွေကို တစ်ခြားလူတစ်ယောက်က ချက်ချင်းပဲ တံခါးမရှိဓါးမရှိသုံးခွင့်ရှိတဲ့အကြောင်းသိထားရပါမယ်။ ChatGPT သုံးပြီး ပုံပြင်တွေရေး၊ Midjourney သုံးပြီး ပုံတွေထုတ်၊ ဒီလိုနဲ့ အွန်လိုင်းမှာ Publication လုပ်တဲ့အခါမှာ မူပိုင်ခွင့်လုံးဝမရှိကြောင်းကို ထုတ်ဝေသူတွေ သိထားရမှာပါ။ ဒီအပြင် ခင်ဗျားတို့ကျွန်တော်တို့လို user တွေက တခြားသူတစ်ယောက်ရဲ့ Copyright အတည်ပြုပြီးသား ဖန်တီးမှုတစ်ခုကို ဖောက်ဖျက်(infringement)လို့ တစ်စုံတစ်ရာတရားစွဲမှုတွေဖြစ်လာရင် Midjourney ကိုယ်တိုင် ခင်ဗျားကိုတရားစွဲပြီး ကျသင့်တဲ့ဒဏ်ကြေးကိုပြန်တောင်းမယ်ဆိုတာ Terms of Service မှာရေးထားပါတယ်။

အဲဒီတော့ ဘာဆက်ဖြစ်မလဲ

Artificial Intelligence ဆိုတိုင်း အသိဥာဏ်ရှိနေတာမဟုတ်ပါ။ ChatGPT လို Large Language Model (LLM) ဆိုတာ သူ့ကိုဖန်တီးတဲ့ training dataset ထဲက စကားလုံးတွေနဲ့ ဘယ်စာလုံးပြီးရင်ဘာလာသင့်တယ်ဆိုတာကိုပဲသိတာဖြစ်ပါတယ်။ ChatGPT သည်တကယ်မရှိတဲ့၊ မသိတဲ့အချက်အလက်တွေကို လေထဲကကောက်ဆွဲပြီး ရှိသယောင်ပြောတတ်ပါတယ်။ သတင်းအချက်အလက်တိတိကျကျအတည်ပြုနိုင်တဲ့ ‘source’ တစ်ခုတော့ဖြစ်လာမှာတော့မဟုတ်ဘူး။

အဲဒီတော့ မသုံးရတော့ဘူးလား

AI နည်းပညာက ၁၉၈၀ကျော်က အင်တာနက်ပေါ်ခါစအချိန်လိုပဲ နည်းပညာက စည်းကမ်းတွေ ဥပဒေတွေလိုက်ထိန်းနိုင်တာထက်ကို တိုးတက်မှုပိုမြန်ပါတယ်။ လူတိုင်းသုံးနေတဲ့အချိန်မှာ ကိုယ်တိုင်လဲနောက်မကျဖို့လိုသလို သူ့ရဲ့တကယ်လုပ်နိုင်စွမ်းတွေရော limitation တွေရောကို အသိအမှတ်ပြုလေ့လာဖို့လိုပါတယ်။ တစ်ချိန်က ကွန်ပျူတာအခြေခံကိုလူတိုင်းသင်ကြသလိုပဲ အခုမှာလဲ AI နဲ့ Machine Learning အလုပ်လုပ်ပုံအခြေခံတွေကို လူတိုင်းသိကိုသိထားရပါမယ်။

ဘာတွေကိုသတိထားရမလဲ

(၁) Data is the new oil ဆိုသလိုပဲ တစ်ကမ္ဘာလုံးကနည်းပညာကုမ္ပဏီတွေက လူတစ်ယောက်ချင်းစီရဲ့ ဒေတာတွေကို ခွင့်ပြုပြု မပြုပြုသိမ်းယူနေတာကို သတိထားဖို့လိုနေပါပြီ။ Contract တွေမှာပဲဖြစ်ဖြစ် Privacy Policy မှာပဲဖြစ်ဖြစ် Data Collection ပုံစံတွေကိုအမြဲရှာဖတ်ဖို့လိုပါတယ်။

(၂) OpenAI ကသူတို့အရင်ကပြောခဲ့တာတွေနဲ့ဆန့်ကျင်ပြီး Architecture တွေကို open source မလုပ်တော့တာ၊ Microsoft ကသူတို့က ကျင့်ဝတ်ထိန်းသိမ်းရေးအဖွဲ့ (Ethics Team) တွေကိုအလုပ်ဖြုတ်ပစ်တာတွေကိုကြည့်ရင် AI နည်းပညာကို လက်တစ်ဆုပ်စာ ကုမ္ပဏီကြီးတွေကပဲထိန်းချုပ်ထားချင်တာကိုမြင်ရမှာပါ။ အန္တရာယ်ရှိတာက Google ကိုတစ်ခုခုသိချင်လို့သွားမေးရင် Link တွေအများကြီးထဲမှာ မတူညီတဲ့အမြင်တွေကိုရနိုင်ပေမယ့် AI ကထုတ်ပေးတဲ့ response ကတော့ တစ်ခုထဲမြင်ရမှာဖြစ်တာကြောင့် လူတွေရဲ့အမြင်၊ တွေးခေါ်ပုံတွေကိုပါ တီထွင်တဲ့ကုမ္ပဏီတွေကပဲထိန်းချုပ်နိုင်စွမ်းရှိသွားမှာပါ။

(၃) ဒီလိုအခြေအနေမှာ ကျင့်ဝတ်သိက္ခာစောင့်ထိန်းတဲ့ AI နည်းပညာတီထွင်မှု (Ethical AI Development) ဆီကိုဦးတည်ဖို့ဝိုင်းတွန်းဖို့လိုပါပြီ။ တိတိကျကျပြောရရင်

(က) AI System တိုင်းသည် Training Data ကိုပွင့်ပွင့်လင်းလင့် ချပြပြီး AI ရဲ့ response တိုင်းကို တာဝန်ခံမှုရှိစေဖို့လိုပါတယ်။ လူတွေရဲ့ ဒေတာကိုယူပြီး ဝန်ဆောင်မှုတွေဖန်တီးမယ်ဆိုရင် အဲဒီလူတွေရဲ့ တရားဝင်ခွင့်ပြုချက်နဲ့သာဖြစ်သင့်ပါတယ်။

(ခ) AI ထဲက hidden layer တွေကို မစမ်းသပ်နိုင်တာ နည်းပညာအားဖြင့်လက်ခံလို့ရပေမယ့် တစ်ခုခုပြဿနာကြုံခဲ့ရင် မသိနားမလည်ပါဘူးဆိုပြီး ဆင်ခြေထုတ်လို့မရတာကြောင့် ဆုံးဖြတ်ချက်တစ်စုံတစ်ရာချခွင့်ကို လူတွေရဲ့လက်ထဲမှာပဲ ထားရပါမယ်။

(ဂ) သာမန်လူတွေရဲ့ ပုဂ္ဂိုလ်ရေးဆိုင်ရာအချက်အလက်တွေကို သိသိသာသာရော မသိမသာပါယူပြီး AI တစ်ခု Training လုပ်တာကို ဥပဒေအရတင်းတင်းကျပ်ကျပ်အရေးယူဖို့လိုပါတယ်။

ဒါပေမယ့် ဥပဒေရေးဆွဲသူတွေက ကျိကျိတက်ချမ်းသာတဲ့ ဘီလျံနာကြီးတွေရဲ့ နည်းပညာကုမ္ပဏီကြီးတွေကိုကျော်ဖို့ဆိုတာ မျှော်လင့်လို့မရပါဘူး။ ဒါပေမယ့် OpenAI သည် တကယ်ပဲ Open ဖြစ်စေဖို့၊ လူတွေရဲ့ကံကို AI ကိုပေးပြီး မဆုံးဖြတ်ဖြစ်ဖို့ Ethical AI ဆိုတာကို ဝိုင်းတွန်းဖို့လိုပြီဆိုတာနဲ့ နိဂုံးချုပ်လိုက်ပါတယ်။