Silsiladda Mishiin Baranaya(Machine Learning) Q3

Table of contents

Assalaamu Calaykum. Ku soo dhawoow xalqada 3aad ee taxanaheenna Mishiin Baranaya. Xalaqadaan waxaan kaga hadli doonnaa mowduuca Sahminta iyo Habaynta Daatada (Data Preprocessing and Exploration) innaga oo adeegsanaynna xirmooyin softiweerkii (libraries) aan ku soo barannay xalqaddii tan ka horeysay. Waxay kamid tahay tallaabooyinka ugu horreeya ee aad qaadaysid markaad tababaraysid mishiinka.
Halkaan kala soco koodhka: Casharrada Mishiin Baranaya Google Colab Notebook
Maxay Muhiim u tahay Sahminta iyo Habaynta Daatada?
Sidaan alwalba ku soo xusay xalqaddeenii kowaad, mishiinka waxaa lagu tababbaraa daata, taas oo loo yaqaan daatada tababaridda(training data). Kawaran haddiii daatadaan ay tahay mid leh qiimeyaal maqan, qaladaad xagga taybinka ah, foormaatyo aan isku meel u socon, iwm? Waxaa jirta oraah oranaysa “garbage in, garbage out” «haddaad qashin ku tababartid mishiinka, waxaad soo saaraysaa mishiin qashin ah oo aan faaido lahayn!». Inta daatadaada ay fiicantahay oo ay tayo leedahay ayuunbuu moodalkaagu noqoqanaya mid waxtar leh. Moodal (model) waa barnaamij kombiyuutareedka aannu helaynno markaan mishiinka ku tabarabarno daatada tababbarka.
Kolkaa haddaan si kooban u iraadhdo: tallaabda habaynta daatada waxay ku shaqa leedahay in loo dooriyo daatada cayriin foormaat ku haboon tababbarista algoordamyada Mishiin Baranaya.
Bahda Mishiin Baranaya waxay isticmaalaan tibixda “dataset” baddalka “data”. Tibixda “dataset” Af Soomaali ahaan waxaan dhihi karnaa ururdaato. Tibixdaan macno wayn ayay samaynaysaa sababtoo ah waxay muujinaysaa muhiimadda ay leedahay inaad ku tababbartid moodalkaaga baro daato(data points) oo urur ah. Tan la’aanteed, uma suurto galayso moodelka inuu aqoonsado ratibaadaha (patterns) iyo xiriirrada ka dhexjira daatada.
Sidaas daraadeed, waxan u baahannahay inaan nadiifinno daatada, caadiyayanta qiimeyaasha si hal qiime oo wayn uusan saamayn badan ugu yeelan daatada, iwm.
Tusaale:
Halkaan waxaan ku haysannaa daato ka kooban 5 dhinactax(rows) iyo 3 joogutax(columns). Sida muuqata gobolka Mudug malahan qiime muujinaya dalagga ka soo go’ay gobolkaas. Sidaas awgeed waa inaan arinkaas wax ka qabannaa. Waxaan haysannaa laba doorasho: inaan isaga dhamba meesha ka saarno ama inaan booskiisa ku baddalno celceliska daatada kale( mean). Waxaan doortay inaan booskiisa ku baddalo qiimaha celceliska daatada kale. Badanaa marka aad qiimaha gabigiisaba meesha ka saaraysid waa marka uu yahay waxa loo yaqaan “outlier” ama mid ka baxsan xayndaabka ay ku jiraan baraha kale ee daatada. Isbaddalka aan samaynnay sawirka hoose ayaa muujinaya. Fadlan koodhka la soco.
Sidaad arkayso, haatan Mudug waxaan ku buuxinnay qiimaha celceliska oo noqday 400- ma ahan “outlier”. (Adiguba xisaabi oo xaqiiji celceliska).
Marka laga soo tago buuxinta qiimeyaal maqan, iyana waxaa jirta farsamo kale oo door wayn ka ciyaarta habaynta daatada. Farsamadaan waxaa loo yaqaan “normalizaton” ama caadiyayn. Micnaheedu waxaa weeye: waxaan ka dhigaynnaa daatada mid ku socota hal iskeel, tusaale ahaan: dhammaan qiimeyaashu waa iney u dhaxeeyaan faraqa 0-1. Tani waxay yaraynaysaa iney qiimeyaasha waawayni ay saamayn wayn ku yeeshaan tababbaridda moodelkeenna, taasina ay keento in moodelku uu si qaldan wax sadaaliyo, oo saxnimaddiisu ay yaraato.
Tusaale:
Dhammaan qiimeeyaasha waxaa ay u dhaxeeyaan 0 ilaa 1.
Sahminta Daata
“Library” ga Pandas wuxuu nasiinayaa dhis daateed(data structure) awood leh oo loo yaqaan «DataFrame». Koodhkeenna markaad eegtid, «DataFrame» waxaan ku naanaaysnay(alias) “df”.
“DataFrame” wuxuu leeyahay fansaarreyaal(built-in functions) loo isticmaalo sahminta daatada oo ay kamid yihiin:
.head() wuxuu ku tusayaa 5 rekoodh oo ugu horeysa ururdaata.
.tail() w*uxuu ku tusayaa 5 rekoodh oo ugu hooseysa ururdaata.*
.shape() waxay noo sheegaysa qaabdhismeedka ururdaatada isagoo na tusay tirada dhinactax iyo joogutax.
.describe() waxay qayaxaysaa faahfaahinta ururdaatada.
Tusaale:
Si aan u fahanno sahminta daatada, waxaan isticmaali doonna ururdaata ku jirta Google Colab oo lagu magacaabay “California_housing_train” xilliga aan qorayo maqaalkaan.
Ku dhufo meeshaas aan calimadiyay:
Markaad furto “folder” kaas, waxaa kuu soo baxaya:
Saddexdaa dhibcood ku dhufo, kaddib dooro “copy path” si an hadhow u isticmaalno sidaan:
daata_sahan = pd.read_csv("meeshaan ku "paste" garee "path" ka file aad soo "copy" gareysay")
.shape
17000 rows(dhinactax), 9 columns(joogutax)
.head()
5 ta rekood oo ugu horeysa urudaatada california_housing_train.
.tail()
5 ta rekood oo ugu dambeysa urudaatada california_housing_train.
.describe()
Dhammaan tallaabooyinkaan waxaa ay kaa caawinaayaan inaad wax badan ka ogaatid sida daatada ay u taallo.
Waxba yuusan qoraalku ila tagine, halkaas ayaan ku soo afmeerayaa xalqadaan iyo guud ahaan silsiladdaan oo aan ku soo barannay aasaaska Mishiin Baranaya. Haddii aad jeclaan lahayd inaan sii wadno silsiladdaan, ama aad suaal qabtid, iigu reeb fariin qaybta faallada(comments). Nabadeey.
Noolow!
Subscribe to my newsletter
Read articles from Mohamed Hassan (Hiildhaxal) directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

Mohamed Hassan (Hiildhaxal)
Mohamed Hassan (Hiildhaxal)
Founder of Hiildhaxal.online and KilimoVision, BSc. Computer Science. Nomad. Self-taught scholar. Interested in astronomy, music...