SlideShare a Scribd company logo
1 of 6
Download to read offline
“МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН
СУДАЛГАА”
М.Эрхэмбаатарa
,А.Хүдэрb
,Б.Луубаатарc
,
а
Магистрант, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс
b
Удирдагч: Доктор, дэд проф. багш, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс
c
Зөвлөх: Докторант ахлах багш, Электроникийн салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс
a
И-мэйл: erkhemee@gmail.com
b
И-мэйл: khuder@must.edu.mn
c
И-мэйл: luubaatar@must.edu.mn
Хураангуй:
Энэ өгүүллэгт компьютер хараа, машин болон гүн сургалт, хүний царайг илрүүлэх, таних суурь онол
аргачлалыг судлан, мөн шаардлагатай техник орчин, программчлалын багаж хэрэгсэлүүдийг ашиглан,
тасалгааны камер болон ухаалаг гэрийн туслах-роботын хиймэл оюун ухааныг сургах зорилгоор нэгэн гэр
бүлийн хүмүүсийг цөөн тооны зурган өгөгдөл дээр тулгуурлан царай таних туршилтыг богино хугацаанд, бага
зардлаар хэрэгжүүлсэн үр дүнг танилцуулав.
Түлхүүр үг: дүрс таних, царай таних, компьютер хараа, машин сургалт, гүн сургалт, мэдрэлийн гүн сүлжээ
Удиртгал
Дүрс болон царай таних нь компьютерийн шинжлэх ухааны компьютер хараа салбарын судлагдахуун бөгөөд уг
технологийн хэрэглээ нь хиймэл оюун ухаан, робот, жолоочгүй автомашин, анагаахын салбарт хэт авиан
оношлогоо (хавдрын эсийг илрүүлэх), олон нийтийн аюулгүй байдлын хяналт зэрэг олон салбарт хэрэглээ,
үйлдвэрлэлийн хувьд маш хурдацтай өсч хөгжиж байна. Аливаа дүрсийг ялгаж таних хүний чадвар нь ~94.9%
байдаг бол Google (95.18%), Microsoft (95.06%) компаниудын боловсруулсан аргачлал нь хүний чадавхиас давж
гарав [1]. Мөн царай таньж ялгах хүний чадвар нь дундажаар 99.5% байдаг бол Facebook компанийн DeepFace
нь 99.7% амжилтаар үүнээс давж гарсан байна [2]. Эдгээр өндөр амжилтууд нь техникийн хүчин зүйл буюу
үүлэн болон паралелль тооцоолол ашигласан суперкомпьютерын хүчин чадал сайжирсантай, мөн маш их
хэмжээний өгөгдөл цуглуулж машин сургалт, гүн сургалт хийж байгаатай холбоотой байна.
Дүрс таних, тэр дундаа хүний царайг таних технологи нь манай улсын практикт төдийлэн нэвтрээгүй байгаа
бөгөөд иргэний мэдээлэл, нийгмийн хэв журмыг хангах, олон нийтийн аюулгүй байдлыг хангах зэрэгт уг
технологийг нэвтрүүлэх шаардлага бий болоод байна. Жишээ нь:
- Гудамж болон замын уулзварын камерын хяналтыг ухаалаг болгох (intelligent surveillance),
- Иргэний бүртгэл мэдээлэл, хил гаалийн системд иргэдийг нүүр царайгаар нь таних болон хайх,
- Монгол хүмүүсийн царай төрхийн нийтлэг дундаж төрхийг тооцоолж гаргах гэх мэт.
1. Онолын судалгаа
Царайг танихын тулд эхлээд оролтын зураг болон видео дундаас царайг олж илрүүлнэ, дараа нь түүн дээр
урьдчилсан боловсруулалт хийгээд дараачийн таних үйлдэл руу шилжинэ.
Хүний нүүрийг таних, дүрс таних олон аргачлал байгаагийн дотроос хамгийн бага алдааны магадлалтайгаар
таньж буй CNN аргачлалуудыг голлон судлаж, онолыг Стэнфордын их сургуулийн “CS231n Convolutional Neural
Networks for Visual Recognition” [3] хичээлийн онлайн материалиас голчлон үзсэн ба үүнтэй холбоотойгоор
судалж буй ном сурах бичгүүд [4][5][6] ашиглан суралцав.
1.1 Мэдрэлийн гүн сүлжээ
Мэдрэлийн гүн сүлжээний нэг хувилбар болох CNN (Convolutional Neural Network) нь анх 2012 онд Алекс
Кризевский ImageNet дэх уралдаанд (Компьютер харааны олимп) зураг ангилалтын алдааг 25%-c 15% хүртэл
багасган (AlexNet) рекорд тогтоон түрүүлснээр хөгжил дэвшил нь эхлэсэн [7].
Хүн дүрсийг хүн ялгаж танихдаа, жишээ нь нохойг түүний сарвуу, нүд, арьс үс зэрэг онцлог шинжүүдээр нь
ялгаж сурдаг бол компьютер ч мөн үүнтэй адил дүрс, биетийг доод түвшины муруй, хэрчим бүхий шинж
чанаруудаас тогтсон конволушн давхаргуудыг байгуулж ялгаж таньдаг аргачлал нь CNN юм. Зураг 1-т ерөнхий
бүтэцийг дүрслэн харуулав.
CNN нь конволушнал, шугман бус, пүүл, бүрэн холбогдсон давхарга болон гаралт гэсэн үндсэн хэсгүүдээс
бүрдэнэ. Гаралт нь дан ангилал эсвэл тухайн дүрсийг хамгийн сайн тодорхойлж буй ангилалын магадлал байна.
Зураг 1. CNN ерөнхий бүтэц [8].
CNN-ын хамгийн эхний давхарга нь конволушнал байх бөгөөд жишээ нь,
уг давхаргын оролт нь 32 x 32 x 3 хэмжээст цэгүүд бүхий матриц (тухайн
зураг) байг. Уг давхаргыг ойлгомжтой, энгийнээр тайлбарлавал, тухайн
зургийн зүүн дээд хэсгээс жижиг гэрлээр тусган гүйлгэн харж байгаа
хэмээн төсөөлж болно. Уг жижиг гэрэл маань 5 x 5 хэмжээстэй тусгалтай
байг. Машин сургалтын хэллэгт уг жижиг гэрлийг шүүлтүүр (заримдаа
мэдрэлийн эс эсвэл цөм) гэж нэрлэдэг ба уг гэрэл тусч буйг хүлээн авах
талбар гэдэг. Уг шүүлтүүр нь тоон массиваас (5 x 5 x 3) тогтох бөгөөд
эдгээрийг жин эсвэл параметр гэдэг. Шүүлтүүрийг зураг дээгүүр
гүйлгэхийг шүүлтүүрдэх гэх ба, тухайн өгөгдсөн зургийн цэгүүдийг
шүүлтүүрийн цэгүүдээр харгалзан үржүүлнэ. Уг үйлдлийг шүүлтүүрийг
дахин 1 цэгээр хажуу тийш шилжүүлэн давтах зэргээр тухайн зургийг
дуустал давтсаны үр дүнд 28 x 28 x 1 хэмжээст үржвэрүүд бүхий матриц
үүсэх ба үүнийг идэвхжилтийн зураглал эсвэл шинж чанарын
зураглал гэж нэрлэнэ [8].
Зураг 2. Доод түвшинй шүүлтүүрүүдийн дүрслэл.
(Зургийг Стэнфордын их сургуулийн “CS231n: Convolutional Neural Networks for Visual Recognition” хичээлийн
материалаас авч ашиглав [3])
Шүүлтүүрийг хүрээ, өнгө, муруй гэх мэт шинж чанарын ялгагч гэж ойлгож болно. Өөрөөр хэлбэл, бүхий л
зураг дүрс бүрт байдаг хамгийн энгийн нийтлэг, шинж чанарууд байна [8]. Зураг 2-т шүүлтүүрүүдийг харуулав.
Эхний давхарга нь доод түвшний шинж чанарууд буюу муруй, хүрээ зэргийг танина. Гэхдээ тухайн эх зургийг
яг юу вэ гэдгийг нь сайн ялгахын тулд гар, чих, нүд гэх мэт онцлог шинжүүдийг таних дээд түвшний
шүүлтүүрүүд хэрэгтэй болно. 2-р давхарга дээр, жишээ нь 28 x 28 x 3 хэмжээстэй оролт дээр 5 x 5 x 3 хэмжээст
шүүлтүүр ашиглая. Уг давхаргын гаралт буюу шинж чанарын зураглал нь тал тойрог (муруй болон хүрээний
хослол) эсвэл дөрвөлжин (хэд хэдэн хүрээнүүдийн хослол) зэрэг дээд түвшний шинж чанаруудын байршилууд
гарна.
Ингээд дараа дараачийн давхарга руу гүн орох тусам шинж чанарын зураглалууд илүү түвэгтэй, нарийн
хэлбэрүүдийг дүрслэнэ. Сүлжээний төгсгөлд, аль нэгэн объект буюу дүрс бүхий шүүлтүүр идэвхжиж тодорсон
байх болно [8].
1.2 Царай илрүүлэх
Хүний нүүр царайг илрүүлэх олон аргачлалуудаас HOG (Histogram of Oriented Gradients) аргачлалыг [9]
ашигласан ба энэ нь тухайн зургийн цэг бүрийн утгыг зэргэлдээ цэгүүдтэй харьцуулж утга нь их байгаа чиглэлд
векторыг (градиент) зурна. Зургийн бүх цэгүүд дээр дээрх үйлдлийг хийсний дараа зургыг бүхэлд нь 16 x 16
харьцаатай дэд хэсгүүдэд хувааж тухайн дэд хэсэг дотор дээш, доош, зүүн, баруун, баруун-дээш, зүүн-доош
зэрэг аль чиглэлд хамгийн их вектор утгууд байгааг олж, уг векторын чиглэлээр солино. Зураг 3т жишээ өгөгдөл
дээр харуулав. Эндээс хүний нүүрний ерөнхий HOG хэв шинж (pattern) харагдаж эхлэсэн байгааг харж болно.
Бүх зургуудын HOG хэв шинжүүдийг ялган авахад хүний нүүр царайтай хэсгийн ерөнхий дундаж хэв шинж
гарч ирнэ. Өгөгдсөн зургууд дундаас уг хэв шинж бүхий хэсгийг илрүүлж, царайны байршлыг ялган авна.
Зураг 3. Нүүр царайны HOG хэв шинжийн дүрслэл
1.3 Царай танилт
Нүүр царайг таних аргачлалууд нь шинж чанарт тулгуурласан, зурагт тулгуурласан гэсэн хоёр төрөлд
ангилагдаж байгаа ба CNN нь зурагт тулгуурласан аргачлалд хамаарна.
Хүний нүүр царайг нийт 68 цэг байршуулан тэмдэглэх алгоритмыг 2014 онд Вахид Каземи, Жозепина Сулливан
нар боловсруулсан байна [10]. Зураг 4-д жишээ зураг дээр харуулав. Уг 68-н цэгийг ашиглан тухайн царайг
бусадтай харьцуулах, нүүрний төсийг илрүүлэх, насыг таамаглах зэрэгт ашиглана.
Зураг 4. Нүүрний хэсэгт 68 цэгүүдийг байршуулсан жишээ (face landmarking)
1.4 Царай танихад мэдрэлийн гүн сүлжээ ашиглах нь
Нүүр царайг 68 цэгээр илэрхийлж болдог аргачлалаас гадна хүний чадвартай зэрэгцэхүйц өндөр танилтын
чадвартай болохын тулд мэдрэлийн гүн сүлжээг ашигладаг. Эдгээрийн нэг аргачлал нь хүний царайг нийт 128-н
хэмжигдэхүүнд (шигтгэл) тулгуурлан тоон хэлбэрт хувиргах ба эдгээр нь хүний нүд үсний өнгө, хамрын өргөн
гэх мэт тухайн хүний онцлогоос хамааран яг аль хэмжигдэхүүн байх нь тухайн сургалт хийж буй өгөгдөлөөс
хамаарна. Энэ аргачлалыг 2015 онд Google компанийн судлаачид хэрэгжүүлсэн [11] ба мөн төстэй олон
аргачлалууд гарсан байна.
Уг аргачлал нь өгөгдсөн хүмүүсийн царай тус бүрээс 128 хэмжигдэхүүнүүдийг гарган авч тухайн хүний
хэмжигдэхүүнүүдийн аль утгууд нь өөр хоорондоо ойрхон буюу их хамааралтай, аль утгууд нь бусад
хүмүүсийнхээс хол буюу бага хамааралтай байгааг мэдрэлийн гүн сүлжээг ашиглан тооцоолж гаргана. Үүнийг
гүн сургалт буюу мэдрэлийн гүн сүлжээний загвар сургах гэнэ.
Их хэмжээний өгөгдөл зургууд дээр ийм гүн сургалт хийхэд нүсэр тооцоолол хийх шаардлагатай байдаг тул
GPU (Graphic Processing Unit) дээр паралелль тооцоолол ашиглах нь үр дүнд харьцангуй хурдан хугацаанд
хүрэх бололцоог олгоно. Гэсэн ч, жишээ нь NVidia Tesla K40c карт дээр уг гүн сургалтыг хийн, загвар бэлтгэж
гаргахад хэдэн 7 хоногийн хугацааг зарцуулдаг. DeepFace [2] түвшины танилтын зэрэглэлд хүрэхийн тулд өндөр
нягтралтай зургууд бүхий хэдэн сая тооны сургалтын өгөгдлийг бэлтгэж, гүн сургалт хийх шаардлагатай.
Бид туршилтандаа Брэндон Амосын боловсруулсан аргачлал, багажаар сургаж бэлтгэсэн nn4.small2.v1.t7
загварыг [12] ашигласан ба зураг 5-д уг мэдрэлийн гүн сүлжээн дэхь нэг давхарга дээр өгөгдсөн зураг хэрхэн
дүрслэгдэж буй жишээг харуулав.
Уг бэлэн загварыг ашиглан царайны зураг бүрээс 128ш хэмжигдэхүүнүүдийг богино хугацаанд гарган (царайг
кодлон) авч тэдгээрийг ангилахад ашиглана.
Хүн тус бүрийн царайг ялган ангилахад Softmax, SVM (Support Vector Machine), k-NN (k-Nearest Neighbor) зэрэг
ангилагч ашиглан машин сургалт хийх ба энд Linear SVM ангилагч ашигласан.
Зураг 5. Мэдрэлийн гүн сүлжээн дэхь 3-р давхаргын дүрслэлийн жишээ.
1.5 Хүндрэл, бэрхшээл
Хүний царай нь содон тогтвортой объект биш бөгөөд царай таних нөлөөлдөг гол хүндрэлүүд нь интринсик ба
экстринсик гэсэн хоёр үндсэн хүчин зүйлээс хамаардаг байна [5]:
1. Интринсик нь байгалийн физик хүчин зүйлсээс хамааралтай ба ажиглагч (камер) талаас үл хамаарна. Дотроо
дараах байдлаар хоёр хуваагдана:
- Интраперсональ нь тухайн хүний насжилт, үсний засалт, нүүрний хувирал, нүүр будалт болон
нүдний шил, контакт линз зэрэг эд зүйлстэй хамааралтай хүчин зүйлс байна.
- Интерперсональ нь олон хүмүүсийн нүүрний төрх байдлын ялгаа (арьсны өнгө гэх мэт), угсаатанзүй
болон хүйстэй хамааралтай хүчин зүйлс байна [5].
2. Экстринсик хүчин зүйлс нь ажиглагч тал, тухайн хүний царай хоорондох гэрлийн харилцан үйлчлэлээс
хамаарна. Эдгээрт гэрэлтэлт, байршил, хэмжээс болон зураглалын параметрүүд болох нягтрал, фокус, шуугиан
зэрэг болно [5].
Дээрх хүчин зүйлс нь нүүр царайг таних ажиллагааны үр дүн муу, алдаатай гарахад ихээхэн нөлөөлнө.
Практикт дараах 5-н үндсэн хүчин зүйлс нь ихэхдээ нөлөөлдөг байна:
 Зарим 2D аргачлал нь гэрэлтүүлгийн тодорхой хязгаарт л сайн таньдаг бөгөөд гэрлийн нөхцөл байдлаас
ажиллагааны үр дүн шууд хамаардаг талтай.
 Нүүрний дээд хэсэг дэх зүйлс (үс, алчуур, нүдний шил г.м) танилтын ажиллагаанд сөргөөр нөлөөлнө.
 Толгойн хажуу тийш хэтэрхий эргэсэн байрлал нь таних ажиллагаанд сөргөөр нөлөөлнө, учир нь
нүүрний хэв, зураглалыг хавтгайд буулгахад гажилтын алдаа үүснэ.
 Заримдаа, нүүрний зураглал нь хэвийн харах өнцөгтэй үед алдаагүй буусан (projection) байсан ч, сэтгэл
хөдлөлөөс үүдсэн нүүрний хувирал нь танилтыг амжилтгүй болгодог.
 Цаг хугацаанаас хамаарах нүүрний өөрчлөлт (насжилт, үрчлээ гэх мэт) нь хүндрэл үүсгэдэг [5].
Бодит нүүр царай эсэхийг танихад гардаг хүндрэл:
Нүүр царайг танихад тулгардаг чухал асуудлын нэг нь бодит царай мөн эсэхийг таньж илрүүлэх асуудал юм.
Хамгийн түгээмэл хууралтын арга бол нүүрний фото зургаар, видео бичлэгээр, 3D моделиор системийг хуурах
боломжтой. Тиймээс хууралтыг илрүүлэх нь нүүр царайг таних системийн бас нэг чухал бүрэлдэхүүн хэсэг
болдог байна. Зарим судлаачид нүүр-дуу хоолойг таних гэсэн хослол ашиглаж уруулын хөдөлгөөн, толгойн
хөдөлгөөнийг харьцуулах аргыг боловсруулсан байна. Мөн Фурьегийн спектрээр бодит эсэхийг тодорхойлдог
ба зураг болон бодит хүний царайнаас буусан өндөр давтамжийн бүрэлдэхүүнүүдийг нь шинжилж бодит
эсэхийг ялгаж тогтооно. Бас дулаан мэдрэгч бүхий инфра туяан камер ашигладаг байна [5].
2. Хэрэгжүүлэлт, туршилт
Компьютер хараа суурь онол, алгоримтуудыг судласны [13] үндсэн дээр “хүний нүүр болон дүрс таних”
шинэлэг, үр дүнтэй аргачлалыг туршиж, нээлттэй эх код бүхий OpenCV, Dlib, Python, Torch [14], OpenFace[12]
болон CUDA (Compute Unified Device Architecture), cuDNN [15] гэсэн программ хэрэгсэл, багажуудыг LinuxMint
17.3 64 бит систем дээр суулгаж тохируулан, туршилтыг хэрэгжүүлсэн.
Сонгосон 4 хүний 226ш сургалтын өгөгдөл зургуудаас царайг нь илрүүлэн ялган авч, өмнөх боловсруулалт хийн
бэлтгээд бэлэн загвар, Linear SVM ашиглаж царай ангилагчийг сурган гаргасан ба уг 4 хүний тус бүр 10ш зураг,
мөн өөр хүмүүсийн 10ш зургаар царай таних туршилтын үр дүнг шалгав. Зураг 6-д сургалтанд ашиглах зургийг
бэлдэж, боловсруулсан жишээг харуулав.
Туршилтанд цөөн зураг, хүн сонгосон нь сургалтыг зөвхөн бага үзүүлэлттэй процессор бүхий компьютер
(тасалгааны робот) дээр богино хугацаанд хэрэгжүүлж, царай танилтын үр дүнг шалгах зорилготой байв.
Зураг 6. Өгөгдсөн зургуудыг царай таних сургалтанд ашиглахаар бэлтгэсэн жишээ.
3. Үр дүн
Ингээд сонгогдсон 4 хүний тус бүр 10ш туршилтын зургуудыг шалгаж, танигдсан үр дүн:
Хүснэгт 1.
Туршилтын дүн, Эерэг үнэн (0.80-с бага утгыг алдаа гэж үзэв)
Өгөгдөл Утга Дундаж Алдаа
Хүүхэд, 2 нас 50ш 0.83 0.87 0.91 0.98 0.86 0.97 0.97 0.99 0.97 0.92 0.927 0
Хүүхэд, 8 нас 68ш 0.99 0.99 0.68 0.97 0.99 0.94 1.00 1.00 0.99 0.48 0.903 2
Том хүн, эр 26ш 0.92 0.95 0.90 0.78 0.90 0.93 0.87 0.97 0.96 0.93 0.911 1
Том хүн, эм 82ш 0.83 0.98 0.99 0.91 0.93 0.98 0.99 0.98 1.00 0.99 0.958 0
Нийт 226ш 0.925 3
Хүснэгт 2.
Туршилтын дүн, Сөрөг үнэн (0.50-с бага утгыг алдаа гэж үзэв)
Өгөгдөл Утга Дундаж Алдаа
Өөр хүн 10ш 0.49 0.59 0.42 0.21 0.28 0.53 0.03 0.06 0.64 0.54 0.379 6
Зурагт 7-т үзүүлсэн алдаа ихтэй зургууд нь фокус муутай, царайны хувирал, нүүрний хэсэгт өөр дүрс
халхалсан, камер руу харсан өнцөг их, мөн олон жилийн өмнөх зурагт насжилт нөлөөлсөн зэрэг интринсик ба
экстринсик шинжүүд ажиглагдав. Эдгээр нөлөөлөх хүчин зүйлсийг 1.5 хэсэгт тайлбарласан.
Зураг 7. Танилт багатай буюу 0.85-аас доош эерэг үнэн таамаглалтай гарсан зургууд.
4. Дүгнэлт
Нийт 226ш өгөгдөл зургийг ангилах машин сургалт хийж 4 хүний царайг таних судалгааны туршилт хийсэн
бөгөөд гаргаж авсан царай ангилагчийг тухайн 4 хүн тус бүрийн 10ш зураг болон өөр хүмүүсийн 10ш зурагаар
шалгахад нийт эерэг үнэн танилтын дундаж 92.5% гарав. Танилтын дундаж харьцангуй бага утгатай гарсан нь
туршилтанд ашигласан өгөгдөл цөөн тоотой, мөн олон жилийн өмнөх болон нүүрний эмоци ихтэй авахуулсан
зургуудийг сургалтын өгөгдөлд оруулаагүй нь царай танилтанд сөргөөр нөлөөлсөн (20 жилийн өмнөх зураг
0.78, нүүрний хувиралтай зургууд 0.48, 0.68) гэж дүгнэв. Танилтын чанарыг сайжруулахад сургалтын
өгөгдөлийн бааз хангалттай хэмжээтэй байх шаардлагатай нь харагдлаа.
Мөн ангилагч нь зөвхөн өгөгдсөн 4 хүний өгөгдөлд тулгуурлан ангилалт хийгдсэн тул бусад хүмүүсийн
өгөгдөлийг давхар оруулж өгөх нь туршилтын сөрөг үнэн утгуудыг ихэсгэж, царай танилтыг сайжруулах
боломжтой гэж дүгнэв.
CNN аргачлалыг ашиглан хямд зардлаар, хязгаарлагдмал тооны хүнийг (битүү системийн хүрээнд) царайгаар нь
танихад тасалгааны камер болон гэрийн туслах-роботын хиймэл оюуныг сургах онолын судалгаа, туршилтын
зорилго биелэсэн гэж үзэв.
4.1 Ирээдүйн таамаглал
Цаашид олон тооны өгөгдөл дээр туршилт хийж үр дүнг харьцуулах, GPU ашиглан CNN загвар үүсгэх гүн
сургалт хийж танилтын чанарыг сайжруулах, k-NN зэрэг хэд хэдэн ангилагчийг хослуулан ангилагч сургалт
хийж турших, тухайн камераас нүүрний зургуудыг хадгалан авч өгөгдөл олборлодог болгон автоматжуулах, мөн
хүний нүүрний хувирал, сэтгэл хөдлөлийг таньдаг болгон сайжруулах боломжтой.
Нэр томъёо
CPU Central Processing Unit
GPU Graphic Processing Unit
CNN Convolutional Neural Network
HOG Histogram of Oriented Gradient
SVM Support Vector Machine
k-NN k-Nearest Neighbor
CUDA Compute Unified Device Architecture
Конволушн давхарга Convolutional layer
Бүрэн холбогдсон давхарга Fully connected layer
Пүүл Pooling
Хүлээн авах талбар Receptive field
Шүүлтүүрдэх Convolving
Жин Weight
Идэвхжилтийн зураглал Activation map
Шинж чанарын зураглал Feature map
Шинж чанарын ялгагч Feature identifiers
Шигтгэл Embeddings
Царайг кодлох Face encoding
Эерэг үнэн True positive
Сөрөг үнэн True negative
Мэдрэлийн гүн сүлжээ Deep Neural Network
Мэдрэлийн эс Neuron
Шинж чанар Feature
Хэв шинж Pattern
Ашигласан материал:
[1] “Baidu’s Artificial-Intelligence Supercomputer Beats Google at Image Recognition”, MIT Technology Review, 2015
[2] “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”. Facebook AI Research Publication, 2014
[3] “CS231n Convolutional Neural Networks for Visual Recognition”, Stanford Vision Lab, Stanford University, 2016
[4] Stan Z. Li Anil K. Jain. “Handbook of Face Recognition”. Springer, 2004
[5] Asit Kumar Datta, Madhura Datta, Pradipta Kumar Banerjee. “Face Detection and Recognition: Theory and Practice”. Taylor & Francis, 2015
[6] Mohamed Daoudi, Anuj Srivastava, Remco Veltkamp. “3D Face Modeling, Analysis and Recognition”. Wiley, 2013
[7] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton “ImageNet Classification with Deep Convolutional Neural Networks”. ILSVRC, 2012
[8] “Machine Learning is Fun! Part 4: Modern Face Recognition with Deep Learning”, 2016
[9] Navneet Dalal, Bill Triggs. "Histograms of Oriented Gradients for Human Detection”, 2005
[10] Vahid Kazemi, Josephine Sullivan. “One Millisecond Face Alignment with an Ensemble of Regression Trees”, 2014
[11] Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, 2015
[12] Brandon Amos. OpenFace. https://cmusatyalab.github.io/openface/, 2016
[13] D. A. Forsyth and J. Ponce. "Computer Vision: A Modern Approach (2nd edition)". Prence Hall, 2011
[14] opencv.org, dlib.com, http://torch.ch
[15] CUDA, cuDNN. http://nvidia.com
Зохиогчийн тухай:
Мөнгөнгадасын Эрхэмбаатар нь 2008 онд ШУТИС-МХТСургуулийг “Мэдээллийн технологийн инженер”
мэргэжлээр суралцан бакалавр зэрэгтэй төгссөн. Одоо тус сургуулийн Компьютерийн Ухааны тэнхимд “Хиймэл
оюун ухаан ба хөдөлгөөнт төхөөрөмжийн программ хангамж” хөтөлбөрийн магистрант оюутан, Вишн
Лабораторид туслах судлаач. Удирдагч багшаар ШУТИС-МХТС-н доктор, дэд проф. А.Хүдэр, зөвлөх багшаар
ШУТИС-МХТС-н ахлах багш докторант Б.Луубаатар нар ажиллаж байна.

More Related Content

What's hot

функцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын мужфункцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын мужHorloo Ebika
 
9 р анги хичээлийн талбай хэрэглэгдэхүүн
9   р анги хичээлийн талбай хэрэглэгдэхүүн9   р анги хичээлийн талбай хэрэглэгдэхүүн
9 р анги хичээлийн талбай хэрэглэгдэхүүнsaraa79
 
гэрлийн интерференц
гэрлийн интерференцгэрлийн интерференц
гэрлийн интерференцNyamdavaa Uugandavaa
 
9 р анги цахим
9 р анги цахим9 р анги цахим
9 р анги цахимganzorig_od
 
Descriptive statistics ph d
Descriptive statistics ph dDescriptive statistics ph d
Descriptive statistics ph dzorigoo.sph
 
систем тэгшитгэл
систем тэгшитгэлсистем тэгшитгэл
систем тэгшитгэлzundarma
 
U.cs101 алгоритм программчлал-3
U.cs101   алгоритм программчлал-3U.cs101   алгоритм программчлал-3
U.cs101 алгоритм программчлал-3Badral Khurelbaatar
 
математик анализ лекц№5
математик анализ лекц№5математик анализ лекц№5
математик анализ лекц№5narangerelodon
 
социологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргуудсоциологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргуудNandia Nandia Ganbold
 
термодинамикийн Ii хууль
термодинамикийн Ii хуультермодинамикийн Ii хууль
термодинамикийн Ii хуульdavaa627
 
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГАТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГАMr Nyak
 
ньютоны хууль
ньютоны хуульньютоны хууль
ньютоны хуульUran_uka
 

What's hot (20)

хурд
хурдхурд
хурд
 
функцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын мужфункцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын муж
 
9 р анги хичээлийн талбай хэрэглэгдэхүүн
9   р анги хичээлийн талбай хэрэглэгдэхүүн9   р анги хичээлийн талбай хэрэглэгдэхүүн
9 р анги хичээлийн талбай хэрэглэгдэхүүн
 
гэрлийн интерференц
гэрлийн интерференцгэрлийн интерференц
гэрлийн интерференц
 
9 р анги цахим
9 р анги цахим9 р анги цахим
9 р анги цахим
 
Moduli 7
Moduli 7Moduli 7
Moduli 7
 
java surah bichig
java surah bichigjava surah bichig
java surah bichig
 
Descriptive statistics ph d
Descriptive statistics ph dDescriptive statistics ph d
Descriptive statistics ph d
 
MT101 Lecture 1(Mongolia)
MT101 Lecture 1(Mongolia)MT101 Lecture 1(Mongolia)
MT101 Lecture 1(Mongolia)
 
АЖҮЗБ тестийн сан
АЖҮЗБ тестийн санАЖҮЗБ тестийн сан
АЖҮЗБ тестийн сан
 
систем тэгшитгэл
систем тэгшитгэлсистем тэгшитгэл
систем тэгшитгэл
 
U.cs101 алгоритм программчлал-3
U.cs101   алгоритм программчлал-3U.cs101   алгоритм программчлал-3
U.cs101 алгоритм программчлал-3
 
загвар гэж юу вэ
загвар гэж юу вэзагвар гэж юу вэ
загвар гэж юу вэ
 
математик анализ лекц№5
математик анализ лекц№5математик анализ лекц№5
математик анализ лекц№5
 
Personal Software Process
Personal Software ProcessPersonal Software Process
Personal Software Process
 
социологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргуудсоциологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргууд
 
BST2
BST2BST2
BST2
 
термодинамикийн Ii хууль
термодинамикийн Ii хуультермодинамикийн Ii хууль
термодинамикийн Ii хууль
 
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГАТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
 
ньютоны хууль
ньютоны хуульньютоны хууль
ньютоны хууль
 

Similar to МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

Face recognition with Deep Neural Network
Face recognition with Deep Neural NetworkFace recognition with Deep Neural Network
Face recognition with Deep Neural NetworkErkhembaatar M.
 
Lecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанарLecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанарGantur Togtokh
 
machine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjfmachine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjfBolderdeneJigmed1
 
Dadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvarDadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvardagiisangir
 
мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9Khishighuu Myanganbuu
 

Similar to МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА (8)

Face recognition with Deep Neural Network
Face recognition with Deep Neural NetworkFace recognition with Deep Neural Network
Face recognition with Deep Neural Network
 
Hicheel
HicheelHicheel
Hicheel
 
Lecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанарLecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанар
 
machine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjfmachine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjf
 
Zurag tosol i-lekts-15
Zurag tosol i-lekts-15Zurag tosol i-lekts-15
Zurag tosol i-lekts-15
 
Lecture 3
Lecture 3Lecture 3
Lecture 3
 
Dadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvarDadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvar
 
мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9
 

МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

  • 1. “МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА” М.Эрхэмбаатарa ,А.Хүдэрb ,Б.Луубаатарc , а Магистрант, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс b Удирдагч: Доктор, дэд проф. багш, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс c Зөвлөх: Докторант ахлах багш, Электроникийн салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс a И-мэйл: erkhemee@gmail.com b И-мэйл: khuder@must.edu.mn c И-мэйл: luubaatar@must.edu.mn Хураангуй: Энэ өгүүллэгт компьютер хараа, машин болон гүн сургалт, хүний царайг илрүүлэх, таних суурь онол аргачлалыг судлан, мөн шаардлагатай техник орчин, программчлалын багаж хэрэгсэлүүдийг ашиглан, тасалгааны камер болон ухаалаг гэрийн туслах-роботын хиймэл оюун ухааныг сургах зорилгоор нэгэн гэр бүлийн хүмүүсийг цөөн тооны зурган өгөгдөл дээр тулгуурлан царай таних туршилтыг богино хугацаанд, бага зардлаар хэрэгжүүлсэн үр дүнг танилцуулав. Түлхүүр үг: дүрс таних, царай таних, компьютер хараа, машин сургалт, гүн сургалт, мэдрэлийн гүн сүлжээ Удиртгал Дүрс болон царай таних нь компьютерийн шинжлэх ухааны компьютер хараа салбарын судлагдахуун бөгөөд уг технологийн хэрэглээ нь хиймэл оюун ухаан, робот, жолоочгүй автомашин, анагаахын салбарт хэт авиан оношлогоо (хавдрын эсийг илрүүлэх), олон нийтийн аюулгүй байдлын хяналт зэрэг олон салбарт хэрэглээ, үйлдвэрлэлийн хувьд маш хурдацтай өсч хөгжиж байна. Аливаа дүрсийг ялгаж таних хүний чадвар нь ~94.9% байдаг бол Google (95.18%), Microsoft (95.06%) компаниудын боловсруулсан аргачлал нь хүний чадавхиас давж гарав [1]. Мөн царай таньж ялгах хүний чадвар нь дундажаар 99.5% байдаг бол Facebook компанийн DeepFace нь 99.7% амжилтаар үүнээс давж гарсан байна [2]. Эдгээр өндөр амжилтууд нь техникийн хүчин зүйл буюу үүлэн болон паралелль тооцоолол ашигласан суперкомпьютерын хүчин чадал сайжирсантай, мөн маш их хэмжээний өгөгдөл цуглуулж машин сургалт, гүн сургалт хийж байгаатай холбоотой байна. Дүрс таних, тэр дундаа хүний царайг таних технологи нь манай улсын практикт төдийлэн нэвтрээгүй байгаа бөгөөд иргэний мэдээлэл, нийгмийн хэв журмыг хангах, олон нийтийн аюулгүй байдлыг хангах зэрэгт уг технологийг нэвтрүүлэх шаардлага бий болоод байна. Жишээ нь: - Гудамж болон замын уулзварын камерын хяналтыг ухаалаг болгох (intelligent surveillance), - Иргэний бүртгэл мэдээлэл, хил гаалийн системд иргэдийг нүүр царайгаар нь таних болон хайх, - Монгол хүмүүсийн царай төрхийн нийтлэг дундаж төрхийг тооцоолж гаргах гэх мэт. 1. Онолын судалгаа Царайг танихын тулд эхлээд оролтын зураг болон видео дундаас царайг олж илрүүлнэ, дараа нь түүн дээр урьдчилсан боловсруулалт хийгээд дараачийн таних үйлдэл руу шилжинэ. Хүний нүүрийг таних, дүрс таних олон аргачлал байгаагийн дотроос хамгийн бага алдааны магадлалтайгаар таньж буй CNN аргачлалуудыг голлон судлаж, онолыг Стэнфордын их сургуулийн “CS231n Convolutional Neural Networks for Visual Recognition” [3] хичээлийн онлайн материалиас голчлон үзсэн ба үүнтэй холбоотойгоор судалж буй ном сурах бичгүүд [4][5][6] ашиглан суралцав. 1.1 Мэдрэлийн гүн сүлжээ Мэдрэлийн гүн сүлжээний нэг хувилбар болох CNN (Convolutional Neural Network) нь анх 2012 онд Алекс Кризевский ImageNet дэх уралдаанд (Компьютер харааны олимп) зураг ангилалтын алдааг 25%-c 15% хүртэл багасган (AlexNet) рекорд тогтоон түрүүлснээр хөгжил дэвшил нь эхлэсэн [7]. Хүн дүрсийг хүн ялгаж танихдаа, жишээ нь нохойг түүний сарвуу, нүд, арьс үс зэрэг онцлог шинжүүдээр нь ялгаж сурдаг бол компьютер ч мөн үүнтэй адил дүрс, биетийг доод түвшины муруй, хэрчим бүхий шинж чанаруудаас тогтсон конволушн давхаргуудыг байгуулж ялгаж таньдаг аргачлал нь CNN юм. Зураг 1-т ерөнхий бүтэцийг дүрслэн харуулав.
  • 2. CNN нь конволушнал, шугман бус, пүүл, бүрэн холбогдсон давхарга болон гаралт гэсэн үндсэн хэсгүүдээс бүрдэнэ. Гаралт нь дан ангилал эсвэл тухайн дүрсийг хамгийн сайн тодорхойлж буй ангилалын магадлал байна. Зураг 1. CNN ерөнхий бүтэц [8]. CNN-ын хамгийн эхний давхарга нь конволушнал байх бөгөөд жишээ нь, уг давхаргын оролт нь 32 x 32 x 3 хэмжээст цэгүүд бүхий матриц (тухайн зураг) байг. Уг давхаргыг ойлгомжтой, энгийнээр тайлбарлавал, тухайн зургийн зүүн дээд хэсгээс жижиг гэрлээр тусган гүйлгэн харж байгаа хэмээн төсөөлж болно. Уг жижиг гэрэл маань 5 x 5 хэмжээстэй тусгалтай байг. Машин сургалтын хэллэгт уг жижиг гэрлийг шүүлтүүр (заримдаа мэдрэлийн эс эсвэл цөм) гэж нэрлэдэг ба уг гэрэл тусч буйг хүлээн авах талбар гэдэг. Уг шүүлтүүр нь тоон массиваас (5 x 5 x 3) тогтох бөгөөд эдгээрийг жин эсвэл параметр гэдэг. Шүүлтүүрийг зураг дээгүүр гүйлгэхийг шүүлтүүрдэх гэх ба, тухайн өгөгдсөн зургийн цэгүүдийг шүүлтүүрийн цэгүүдээр харгалзан үржүүлнэ. Уг үйлдлийг шүүлтүүрийг дахин 1 цэгээр хажуу тийш шилжүүлэн давтах зэргээр тухайн зургийг дуустал давтсаны үр дүнд 28 x 28 x 1 хэмжээст үржвэрүүд бүхий матриц үүсэх ба үүнийг идэвхжилтийн зураглал эсвэл шинж чанарын зураглал гэж нэрлэнэ [8]. Зураг 2. Доод түвшинй шүүлтүүрүүдийн дүрслэл. (Зургийг Стэнфордын их сургуулийн “CS231n: Convolutional Neural Networks for Visual Recognition” хичээлийн материалаас авч ашиглав [3]) Шүүлтүүрийг хүрээ, өнгө, муруй гэх мэт шинж чанарын ялгагч гэж ойлгож болно. Өөрөөр хэлбэл, бүхий л зураг дүрс бүрт байдаг хамгийн энгийн нийтлэг, шинж чанарууд байна [8]. Зураг 2-т шүүлтүүрүүдийг харуулав. Эхний давхарга нь доод түвшний шинж чанарууд буюу муруй, хүрээ зэргийг танина. Гэхдээ тухайн эх зургийг яг юу вэ гэдгийг нь сайн ялгахын тулд гар, чих, нүд гэх мэт онцлог шинжүүдийг таних дээд түвшний шүүлтүүрүүд хэрэгтэй болно. 2-р давхарга дээр, жишээ нь 28 x 28 x 3 хэмжээстэй оролт дээр 5 x 5 x 3 хэмжээст шүүлтүүр ашиглая. Уг давхаргын гаралт буюу шинж чанарын зураглал нь тал тойрог (муруй болон хүрээний хослол) эсвэл дөрвөлжин (хэд хэдэн хүрээнүүдийн хослол) зэрэг дээд түвшний шинж чанаруудын байршилууд гарна. Ингээд дараа дараачийн давхарга руу гүн орох тусам шинж чанарын зураглалууд илүү түвэгтэй, нарийн хэлбэрүүдийг дүрслэнэ. Сүлжээний төгсгөлд, аль нэгэн объект буюу дүрс бүхий шүүлтүүр идэвхжиж тодорсон байх болно [8]. 1.2 Царай илрүүлэх Хүний нүүр царайг илрүүлэх олон аргачлалуудаас HOG (Histogram of Oriented Gradients) аргачлалыг [9] ашигласан ба энэ нь тухайн зургийн цэг бүрийн утгыг зэргэлдээ цэгүүдтэй харьцуулж утга нь их байгаа чиглэлд векторыг (градиент) зурна. Зургийн бүх цэгүүд дээр дээрх үйлдлийг хийсний дараа зургыг бүхэлд нь 16 x 16 харьцаатай дэд хэсгүүдэд хувааж тухайн дэд хэсэг дотор дээш, доош, зүүн, баруун, баруун-дээш, зүүн-доош зэрэг аль чиглэлд хамгийн их вектор утгууд байгааг олж, уг векторын чиглэлээр солино. Зураг 3т жишээ өгөгдөл дээр харуулав. Эндээс хүний нүүрний ерөнхий HOG хэв шинж (pattern) харагдаж эхлэсэн байгааг харж болно. Бүх зургуудын HOG хэв шинжүүдийг ялган авахад хүний нүүр царайтай хэсгийн ерөнхий дундаж хэв шинж гарч ирнэ. Өгөгдсөн зургууд дундаас уг хэв шинж бүхий хэсгийг илрүүлж, царайны байршлыг ялган авна.
  • 3. Зураг 3. Нүүр царайны HOG хэв шинжийн дүрслэл 1.3 Царай танилт Нүүр царайг таних аргачлалууд нь шинж чанарт тулгуурласан, зурагт тулгуурласан гэсэн хоёр төрөлд ангилагдаж байгаа ба CNN нь зурагт тулгуурласан аргачлалд хамаарна. Хүний нүүр царайг нийт 68 цэг байршуулан тэмдэглэх алгоритмыг 2014 онд Вахид Каземи, Жозепина Сулливан нар боловсруулсан байна [10]. Зураг 4-д жишээ зураг дээр харуулав. Уг 68-н цэгийг ашиглан тухайн царайг бусадтай харьцуулах, нүүрний төсийг илрүүлэх, насыг таамаглах зэрэгт ашиглана. Зураг 4. Нүүрний хэсэгт 68 цэгүүдийг байршуулсан жишээ (face landmarking) 1.4 Царай танихад мэдрэлийн гүн сүлжээ ашиглах нь Нүүр царайг 68 цэгээр илэрхийлж болдог аргачлалаас гадна хүний чадвартай зэрэгцэхүйц өндөр танилтын чадвартай болохын тулд мэдрэлийн гүн сүлжээг ашигладаг. Эдгээрийн нэг аргачлал нь хүний царайг нийт 128-н хэмжигдэхүүнд (шигтгэл) тулгуурлан тоон хэлбэрт хувиргах ба эдгээр нь хүний нүд үсний өнгө, хамрын өргөн гэх мэт тухайн хүний онцлогоос хамааран яг аль хэмжигдэхүүн байх нь тухайн сургалт хийж буй өгөгдөлөөс хамаарна. Энэ аргачлалыг 2015 онд Google компанийн судлаачид хэрэгжүүлсэн [11] ба мөн төстэй олон аргачлалууд гарсан байна. Уг аргачлал нь өгөгдсөн хүмүүсийн царай тус бүрээс 128 хэмжигдэхүүнүүдийг гарган авч тухайн хүний хэмжигдэхүүнүүдийн аль утгууд нь өөр хоорондоо ойрхон буюу их хамааралтай, аль утгууд нь бусад хүмүүсийнхээс хол буюу бага хамааралтай байгааг мэдрэлийн гүн сүлжээг ашиглан тооцоолж гаргана. Үүнийг гүн сургалт буюу мэдрэлийн гүн сүлжээний загвар сургах гэнэ. Их хэмжээний өгөгдөл зургууд дээр ийм гүн сургалт хийхэд нүсэр тооцоолол хийх шаардлагатай байдаг тул GPU (Graphic Processing Unit) дээр паралелль тооцоолол ашиглах нь үр дүнд харьцангуй хурдан хугацаанд хүрэх бололцоог олгоно. Гэсэн ч, жишээ нь NVidia Tesla K40c карт дээр уг гүн сургалтыг хийн, загвар бэлтгэж гаргахад хэдэн 7 хоногийн хугацааг зарцуулдаг. DeepFace [2] түвшины танилтын зэрэглэлд хүрэхийн тулд өндөр нягтралтай зургууд бүхий хэдэн сая тооны сургалтын өгөгдлийг бэлтгэж, гүн сургалт хийх шаардлагатай. Бид туршилтандаа Брэндон Амосын боловсруулсан аргачлал, багажаар сургаж бэлтгэсэн nn4.small2.v1.t7 загварыг [12] ашигласан ба зураг 5-д уг мэдрэлийн гүн сүлжээн дэхь нэг давхарга дээр өгөгдсөн зураг хэрхэн дүрслэгдэж буй жишээг харуулав. Уг бэлэн загварыг ашиглан царайны зураг бүрээс 128ш хэмжигдэхүүнүүдийг богино хугацаанд гарган (царайг кодлон) авч тэдгээрийг ангилахад ашиглана. Хүн тус бүрийн царайг ялган ангилахад Softmax, SVM (Support Vector Machine), k-NN (k-Nearest Neighbor) зэрэг ангилагч ашиглан машин сургалт хийх ба энд Linear SVM ангилагч ашигласан.
  • 4. Зураг 5. Мэдрэлийн гүн сүлжээн дэхь 3-р давхаргын дүрслэлийн жишээ. 1.5 Хүндрэл, бэрхшээл Хүний царай нь содон тогтвортой объект биш бөгөөд царай таних нөлөөлдөг гол хүндрэлүүд нь интринсик ба экстринсик гэсэн хоёр үндсэн хүчин зүйлээс хамаардаг байна [5]: 1. Интринсик нь байгалийн физик хүчин зүйлсээс хамааралтай ба ажиглагч (камер) талаас үл хамаарна. Дотроо дараах байдлаар хоёр хуваагдана: - Интраперсональ нь тухайн хүний насжилт, үсний засалт, нүүрний хувирал, нүүр будалт болон нүдний шил, контакт линз зэрэг эд зүйлстэй хамааралтай хүчин зүйлс байна. - Интерперсональ нь олон хүмүүсийн нүүрний төрх байдлын ялгаа (арьсны өнгө гэх мэт), угсаатанзүй болон хүйстэй хамааралтай хүчин зүйлс байна [5]. 2. Экстринсик хүчин зүйлс нь ажиглагч тал, тухайн хүний царай хоорондох гэрлийн харилцан үйлчлэлээс хамаарна. Эдгээрт гэрэлтэлт, байршил, хэмжээс болон зураглалын параметрүүд болох нягтрал, фокус, шуугиан зэрэг болно [5]. Дээрх хүчин зүйлс нь нүүр царайг таних ажиллагааны үр дүн муу, алдаатай гарахад ихээхэн нөлөөлнө. Практикт дараах 5-н үндсэн хүчин зүйлс нь ихэхдээ нөлөөлдөг байна:  Зарим 2D аргачлал нь гэрэлтүүлгийн тодорхой хязгаарт л сайн таньдаг бөгөөд гэрлийн нөхцөл байдлаас ажиллагааны үр дүн шууд хамаардаг талтай.  Нүүрний дээд хэсэг дэх зүйлс (үс, алчуур, нүдний шил г.м) танилтын ажиллагаанд сөргөөр нөлөөлнө.  Толгойн хажуу тийш хэтэрхий эргэсэн байрлал нь таних ажиллагаанд сөргөөр нөлөөлнө, учир нь нүүрний хэв, зураглалыг хавтгайд буулгахад гажилтын алдаа үүснэ.  Заримдаа, нүүрний зураглал нь хэвийн харах өнцөгтэй үед алдаагүй буусан (projection) байсан ч, сэтгэл хөдлөлөөс үүдсэн нүүрний хувирал нь танилтыг амжилтгүй болгодог.  Цаг хугацаанаас хамаарах нүүрний өөрчлөлт (насжилт, үрчлээ гэх мэт) нь хүндрэл үүсгэдэг [5]. Бодит нүүр царай эсэхийг танихад гардаг хүндрэл: Нүүр царайг танихад тулгардаг чухал асуудлын нэг нь бодит царай мөн эсэхийг таньж илрүүлэх асуудал юм. Хамгийн түгээмэл хууралтын арга бол нүүрний фото зургаар, видео бичлэгээр, 3D моделиор системийг хуурах боломжтой. Тиймээс хууралтыг илрүүлэх нь нүүр царайг таних системийн бас нэг чухал бүрэлдэхүүн хэсэг болдог байна. Зарим судлаачид нүүр-дуу хоолойг таних гэсэн хослол ашиглаж уруулын хөдөлгөөн, толгойн хөдөлгөөнийг харьцуулах аргыг боловсруулсан байна. Мөн Фурьегийн спектрээр бодит эсэхийг тодорхойлдог ба зураг болон бодит хүний царайнаас буусан өндөр давтамжийн бүрэлдэхүүнүүдийг нь шинжилж бодит эсэхийг ялгаж тогтооно. Бас дулаан мэдрэгч бүхий инфра туяан камер ашигладаг байна [5]. 2. Хэрэгжүүлэлт, туршилт Компьютер хараа суурь онол, алгоримтуудыг судласны [13] үндсэн дээр “хүний нүүр болон дүрс таних” шинэлэг, үр дүнтэй аргачлалыг туршиж, нээлттэй эх код бүхий OpenCV, Dlib, Python, Torch [14], OpenFace[12] болон CUDA (Compute Unified Device Architecture), cuDNN [15] гэсэн программ хэрэгсэл, багажуудыг LinuxMint 17.3 64 бит систем дээр суулгаж тохируулан, туршилтыг хэрэгжүүлсэн. Сонгосон 4 хүний 226ш сургалтын өгөгдөл зургуудаас царайг нь илрүүлэн ялган авч, өмнөх боловсруулалт хийн бэлтгээд бэлэн загвар, Linear SVM ашиглаж царай ангилагчийг сурган гаргасан ба уг 4 хүний тус бүр 10ш зураг, мөн өөр хүмүүсийн 10ш зургаар царай таних туршилтын үр дүнг шалгав. Зураг 6-д сургалтанд ашиглах зургийг бэлдэж, боловсруулсан жишээг харуулав. Туршилтанд цөөн зураг, хүн сонгосон нь сургалтыг зөвхөн бага үзүүлэлттэй процессор бүхий компьютер (тасалгааны робот) дээр богино хугацаанд хэрэгжүүлж, царай танилтын үр дүнг шалгах зорилготой байв.
  • 5. Зураг 6. Өгөгдсөн зургуудыг царай таних сургалтанд ашиглахаар бэлтгэсэн жишээ. 3. Үр дүн Ингээд сонгогдсон 4 хүний тус бүр 10ш туршилтын зургуудыг шалгаж, танигдсан үр дүн: Хүснэгт 1. Туршилтын дүн, Эерэг үнэн (0.80-с бага утгыг алдаа гэж үзэв) Өгөгдөл Утга Дундаж Алдаа Хүүхэд, 2 нас 50ш 0.83 0.87 0.91 0.98 0.86 0.97 0.97 0.99 0.97 0.92 0.927 0 Хүүхэд, 8 нас 68ш 0.99 0.99 0.68 0.97 0.99 0.94 1.00 1.00 0.99 0.48 0.903 2 Том хүн, эр 26ш 0.92 0.95 0.90 0.78 0.90 0.93 0.87 0.97 0.96 0.93 0.911 1 Том хүн, эм 82ш 0.83 0.98 0.99 0.91 0.93 0.98 0.99 0.98 1.00 0.99 0.958 0 Нийт 226ш 0.925 3 Хүснэгт 2. Туршилтын дүн, Сөрөг үнэн (0.50-с бага утгыг алдаа гэж үзэв) Өгөгдөл Утга Дундаж Алдаа Өөр хүн 10ш 0.49 0.59 0.42 0.21 0.28 0.53 0.03 0.06 0.64 0.54 0.379 6 Зурагт 7-т үзүүлсэн алдаа ихтэй зургууд нь фокус муутай, царайны хувирал, нүүрний хэсэгт өөр дүрс халхалсан, камер руу харсан өнцөг их, мөн олон жилийн өмнөх зурагт насжилт нөлөөлсөн зэрэг интринсик ба экстринсик шинжүүд ажиглагдав. Эдгээр нөлөөлөх хүчин зүйлсийг 1.5 хэсэгт тайлбарласан. Зураг 7. Танилт багатай буюу 0.85-аас доош эерэг үнэн таамаглалтай гарсан зургууд. 4. Дүгнэлт Нийт 226ш өгөгдөл зургийг ангилах машин сургалт хийж 4 хүний царайг таних судалгааны туршилт хийсэн бөгөөд гаргаж авсан царай ангилагчийг тухайн 4 хүн тус бүрийн 10ш зураг болон өөр хүмүүсийн 10ш зурагаар шалгахад нийт эерэг үнэн танилтын дундаж 92.5% гарав. Танилтын дундаж харьцангуй бага утгатай гарсан нь туршилтанд ашигласан өгөгдөл цөөн тоотой, мөн олон жилийн өмнөх болон нүүрний эмоци ихтэй авахуулсан зургуудийг сургалтын өгөгдөлд оруулаагүй нь царай танилтанд сөргөөр нөлөөлсөн (20 жилийн өмнөх зураг 0.78, нүүрний хувиралтай зургууд 0.48, 0.68) гэж дүгнэв. Танилтын чанарыг сайжруулахад сургалтын өгөгдөлийн бааз хангалттай хэмжээтэй байх шаардлагатай нь харагдлаа. Мөн ангилагч нь зөвхөн өгөгдсөн 4 хүний өгөгдөлд тулгуурлан ангилалт хийгдсэн тул бусад хүмүүсийн өгөгдөлийг давхар оруулж өгөх нь туршилтын сөрөг үнэн утгуудыг ихэсгэж, царай танилтыг сайжруулах боломжтой гэж дүгнэв.
  • 6. CNN аргачлалыг ашиглан хямд зардлаар, хязгаарлагдмал тооны хүнийг (битүү системийн хүрээнд) царайгаар нь танихад тасалгааны камер болон гэрийн туслах-роботын хиймэл оюуныг сургах онолын судалгаа, туршилтын зорилго биелэсэн гэж үзэв. 4.1 Ирээдүйн таамаглал Цаашид олон тооны өгөгдөл дээр туршилт хийж үр дүнг харьцуулах, GPU ашиглан CNN загвар үүсгэх гүн сургалт хийж танилтын чанарыг сайжруулах, k-NN зэрэг хэд хэдэн ангилагчийг хослуулан ангилагч сургалт хийж турших, тухайн камераас нүүрний зургуудыг хадгалан авч өгөгдөл олборлодог болгон автоматжуулах, мөн хүний нүүрний хувирал, сэтгэл хөдлөлийг таньдаг болгон сайжруулах боломжтой. Нэр томъёо CPU Central Processing Unit GPU Graphic Processing Unit CNN Convolutional Neural Network HOG Histogram of Oriented Gradient SVM Support Vector Machine k-NN k-Nearest Neighbor CUDA Compute Unified Device Architecture Конволушн давхарга Convolutional layer Бүрэн холбогдсон давхарга Fully connected layer Пүүл Pooling Хүлээн авах талбар Receptive field Шүүлтүүрдэх Convolving Жин Weight Идэвхжилтийн зураглал Activation map Шинж чанарын зураглал Feature map Шинж чанарын ялгагч Feature identifiers Шигтгэл Embeddings Царайг кодлох Face encoding Эерэг үнэн True positive Сөрөг үнэн True negative Мэдрэлийн гүн сүлжээ Deep Neural Network Мэдрэлийн эс Neuron Шинж чанар Feature Хэв шинж Pattern Ашигласан материал: [1] “Baidu’s Artificial-Intelligence Supercomputer Beats Google at Image Recognition”, MIT Technology Review, 2015 [2] “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”. Facebook AI Research Publication, 2014 [3] “CS231n Convolutional Neural Networks for Visual Recognition”, Stanford Vision Lab, Stanford University, 2016 [4] Stan Z. Li Anil K. Jain. “Handbook of Face Recognition”. Springer, 2004 [5] Asit Kumar Datta, Madhura Datta, Pradipta Kumar Banerjee. “Face Detection and Recognition: Theory and Practice”. Taylor & Francis, 2015 [6] Mohamed Daoudi, Anuj Srivastava, Remco Veltkamp. “3D Face Modeling, Analysis and Recognition”. Wiley, 2013 [7] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton “ImageNet Classification with Deep Convolutional Neural Networks”. ILSVRC, 2012 [8] “Machine Learning is Fun! Part 4: Modern Face Recognition with Deep Learning”, 2016 [9] Navneet Dalal, Bill Triggs. "Histograms of Oriented Gradients for Human Detection”, 2005 [10] Vahid Kazemi, Josephine Sullivan. “One Millisecond Face Alignment with an Ensemble of Regression Trees”, 2014 [11] Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, 2015 [12] Brandon Amos. OpenFace. https://cmusatyalab.github.io/openface/, 2016 [13] D. A. Forsyth and J. Ponce. "Computer Vision: A Modern Approach (2nd edition)". Prence Hall, 2011 [14] opencv.org, dlib.com, http://torch.ch [15] CUDA, cuDNN. http://nvidia.com Зохиогчийн тухай: Мөнгөнгадасын Эрхэмбаатар нь 2008 онд ШУТИС-МХТСургуулийг “Мэдээллийн технологийн инженер” мэргэжлээр суралцан бакалавр зэрэгтэй төгссөн. Одоо тус сургуулийн Компьютерийн Ухааны тэнхимд “Хиймэл оюун ухаан ба хөдөлгөөнт төхөөрөмжийн программ хангамж” хөтөлбөрийн магистрант оюутан, Вишн Лабораторид туслах судлаач. Удирдагч багшаар ШУТИС-МХТС-н доктор, дэд проф. А.Хүдэр, зөвлөх багшаар ШУТИС-МХТС-н ахлах багш докторант Б.Луубаатар нар ажиллаж байна.