Semalt: ဝက်ဘ်ဆိုက်များကိုခြစ်ရန် Python ကိုသုံးခြင်း

၀ က်ဘ်ဒေတာထုတ်ယူခြင်းဟုလည်းသတ်မှတ်သောဝဘ်ခြစ်ခြင်းသည်ဝဘ်မှအချက်အလက်များရယူခြင်းနှင့်အချက်အလက်များကိုအသုံးဝင်သောပုံစံများသို့တင်ပို့ခြင်းလုပ်ငန်းစဉ်ဖြစ်သည်။ များသောအားဖြင့်ဤနည်းလမ်းကိုဝက်ဘ်မာစတာများကဝက်ဘ်စာမျက်နှာများမှတန်ဖိုးရှိသောအချက်အလက်အမြောက်အများကိုထုတ်ယူရန်အသုံးပြုသည်။ ၎င်းကိုခြစ်ထားသောဒေတာများကို Microsoft Excel (သို့) local ဖိုင်သို့သိမ်းဆည်းသည်။

ဝက်ဘ်ဆိုက်ကို Python နဲ့ဘယ်လိုရေးရမလဲ

အစပြုအသုံးပြုသူများအတွက် Python သည် code ဖတ်နိုင်မှုကိုအထူးအလေးပေးသောအသုံးများသောပရိုဂရမ်းမင်းဘာသာစကားတစ်ခုဖြစ်သည်။ လောလောဆယ်တွင် Python ကို Python 2 နှင့် Python 3 တို့ဖြင့်လည်ပတ်နေသည်။ ဤပရိုဂရမ်ဘာသာစကားသည်အလိုအလျောက်မှတ်ဥာဏ်စီမံခန့်ခွဲမှုနှင့်လှုပ်ရှားမှုပုံစံစနစ်ပါရှိသည်။ ယခုတွင် Python ပရိုဂရမ်းမင်းဘာသာစကားသည်လူထုအခြေပြုဖွံ့ဖြိုးတိုးတက်မှုကိုဖော်ပြသည်။

အဘယ်ကြောင့် Python ကို?

ဝင်ရောက်ရန်လိုအပ်သည့်တက်ကြွသော ၀ က်ဘ်ဆိုက်များမှအချက်အလက်များရယူခြင်းသည်ဝက်ဘ်မာစတာအတော်များများအတွက်ကြီးမားသောစိန်ခေါ်မှုတစ်ခုဖြစ်သည်။ ဒီ Scratch tutorial မှာ Python ကိုသုံးပြီး login ခွင့်ပြုချက်လိုအပ်တဲ့ site ကိုဘယ်လိုဖျက်ရမလဲဆိုတာ လေ့လာပါလိမ့်မယ်။ ဤတွင်ခြစ်ခြင်းလုပ်ငန်းကိုထိရောက်စွာပြီးမြောက်ရန်သင့်အားကူညီပေးမည့်အဆင့်ဆင့်လမ်းညွှန်တစ်ခုဖြစ်သည်။

အဆင့် ၁ - Target-Website ကိုလေ့လာခြင်း

login ခွင့်ပြုချက်လိုအပ်သော dynamic ကွန်ရက်စာမျက်နှာများမှအချက်အလက်များကိုရယူရန်သင်လိုအပ်သောအသေးစိတ်အချက်အလက်များကိုစုစည်းရန်လိုအပ်သည်။

စတင်ရန် "Username" ကို right-click နှိပ်၍ "Inspect element" option ကိုနှိပ်ပါ။ "Username" သည်သော့ဖြစ်သည်။

"Password" အိုင်ကွန်ပေါ်တွင် Right-click နှိပ်၍ 'Inspect element' ကိုရွေးချယ်ပါ။

စာမျက်နှာအရင်းအမြစ်အောက်ရှိ "authentication_token" ကိုရှာပါ။ သင်၏လျှို့ဝှက် input tag သည်သင်၏တန်ဖိုးဖြစ်ပါစေ။ သို့သော်၊ ကွဲပြားခြားနားသော ၀ ဘ်ဆိုဒ်များသည်မတူညီသောလျှို့ဝှက်ထည့်သွင်းထားသည့် input tag များကိုအသုံးပြုသည်ကိုသတိပြုရန်အရေးကြီးသည်။

အချို့ဝဘ်ဆိုက်များသည်ရိုးရှင်းသော login ပုံစံကိုသုံးပြီးအချို့ကရှုပ်ထွေးသောပုံစံများကိုအသုံးပြုကြသည်။ ရှုပ်ထွေးသောဖွဲ့စည်းတည်ဆောက်ပုံကိုအသုံးပြုသောတည်ငြိမ်သောဆိုဒ်များပေါ်တွင်သင်အလုပ်လုပ်နေပါကသင်၏ဘရောက်ဇာ၏တောင်းဆိုမှုမှတ်တမ်းကိုစစ်ဆေးပြီး ၀ က်ဘ်ဆိုက်တစ်ခုသို့ဝင်ရောက်ရန်အသုံးပြုမည့်သိသာထင်ရှားသောတန်ဖိုးများနှင့်သော့များကိုမှတ်သားပါ။

အဆင့် ၂။ သင်၏ကွန်ရက်ထဲသို့မှတ်တမ်းတင်ခြင်း

ဤအဆင့်တွင်သင်တောင်းဆိုမှုအားလုံးအရ login session ကိုဆက်လက်လုပ်ဆောင်ရန်ခွင့်ပြုမည့် session object တစ်ခုကိုဖန်တီးပါ။ ဒုတိယစဉ်းစားရမည့်အချက်မှာသင်၏ csrf token ကိုသင်၏ target-web page မှထုတ်ယူခြင်းဖြစ်သည်။ login အတွင်း token သည်သင့်ကိုကူညီပါလိမ့်မည်။ ဤကိစ္စတွင် token ကိုပြန်လည်ရယူရန် XPath နှင့် lxml ကိုအသုံးပြုပါ။ login URL ကိုတောင်းဆိုရန်ပို့ခြင်းဖြင့် login အဆင့်ကိုလုပ်ဆောင်ပါ။

အဆင့် ၃ - ဒေတာများကိုခြစ်ခြင်း

ယခုသင်သည်သင်၏ target-site မှဒေတာ extract နိုင်ပါတယ်။ XPath ကိုသုံးပြီးသင့် target element ကိုဖော်ထုတ်ပြီးရလဒ်ထွက်အောင်လုပ်ပါ။ သင့်ရဲ့ရလဒ်များကိုအတည်ပြုရန်, ရလဒ်တစ်ခုချင်းစီကိုတောင်းဆိုမှုရလဒ်များကိုပုံစံထုတ်ကုဒ်စစ်ဆေးပါ။ သို့သော်ရလဒ်များကိုစစ်ဆေးခြင်းသည် login အဆင့်သည်အောင်မြင်သည်ဟုတ်မဟုတ်ကိုညွှန်ပြသည့်အရာမဟုတ်ပါ။

ကျွမ်းကျင်သူများကိုဖျက်ပစ်ရန်အတွက် XPath အကဲဖြတ်မှု၏ပြန်လာတန်ဖိုးများသည်ကွဲပြားကြောင်းသတိပြုရန်အရေးကြီးသည်။ ရလဒ်သည်အသုံးပြုသူမှ run သော XPath အသုံးအနှုန်းပေါ်တွင်မူတည်သည်။ XPath တွင်ပုံမှန်ဖော်ပြချက်များကိုအသုံးပြုခြင်းနှင့် XPath အသုံးအနှုန်းများကိုအသုံးပြုခြင်းသည် login ခွင့်ပြုချက်ရယူရန်လိုအပ်သည့် site များမှအချက်အလက်များကိုရယူရန်သင့်အားကူညီလိမ့်မည်။

Python ကိုအသုံးပြုခြင်းအားဖြင့်သင်ဟာ back up အစီအစဉ်တစ်ခုသို့မဟုတ် hard-disk crashing ကိုစိတ်ပူစရာမလိုပါဘူး။ ပါဝင်မှုများကိုဝင်ရောက်ရန် login ခွင့်ပြုချက်လိုအပ်သည့် static နှင့် dynamic sites များမှ Python သည်ထိရောက်စွာထုတ်ယူသည်။ သင့်ကွန်ပျူတာပေါ်တွင် Python ဗားရှင်းကိုထည့်သွင်းခြင်းဖြင့်သင်၏ ဝဘ်ဖျက်ခြင်း အတွေ့အကြုံကိုနောက်အဆင့်သို့ယူဆောင်ပါ။

png