Submit Search
Upload
МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА
•
1 like
•
1,731 views
Erkhembaatar M.
Follow
Face Recognition with DNN
Read less
Read more
Science
Report
Share
Report
Share
1 of 6
Download now
Download to read offline
Recommended
Deep learning: Тооцоолон бодох машиныг яаж зураг ойлгодог болгох вэ?
Deep learning: Тооцоолон бодох машиныг яаж зураг ойлгодог болгох вэ?
Bilgee Bayaraa
U.cs101 laboratory 11 (1)
U.cs101 laboratory 11 (1)
Ganbaatar ch
Мэдээллийн эрх чөлөө ба иргэдийн оролцоо
Мэдээллийн эрх чөлөө ба иргэдийн оролцоо
Globe International
интеграл
интеграл
Хөвсгөл Аймаг Боловсролын Газар
Тоон цуваа
Тоон цуваа
Battur
8 р анги алгебрын бутархайн нэмэх хасах
8 р анги алгебрын бутархайн нэмэх хасах
superzpv
Lecture 3
Lecture 3
Baterdene Batchuluun
бодит тоо
бодит тоо
Oyundelger Undarmaa
Recommended
Deep learning: Тооцоолон бодох машиныг яаж зураг ойлгодог болгох вэ?
Deep learning: Тооцоолон бодох машиныг яаж зураг ойлгодог болгох вэ?
Bilgee Bayaraa
U.cs101 laboratory 11 (1)
U.cs101 laboratory 11 (1)
Ganbaatar ch
Мэдээллийн эрх чөлөө ба иргэдийн оролцоо
Мэдээллийн эрх чөлөө ба иргэдийн оролцоо
Globe International
интеграл
интеграл
Хөвсгөл Аймаг Боловсролын Газар
Тоон цуваа
Тоон цуваа
Battur
8 р анги алгебрын бутархайн нэмэх хасах
8 р анги алгебрын бутархайн нэмэх хасах
superzpv
Lecture 3
Lecture 3
Baterdene Batchuluun
бодит тоо
бодит тоо
Oyundelger Undarmaa
хурд
хурд
Х. Гэрэлчимэг
функцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын муж
Horloo Ebika
9 р анги хичээлийн талбай хэрэглэгдэхүүн
9 р анги хичээлийн талбай хэрэглэгдэхүүн
saraa79
гэрлийн интерференц
гэрлийн интерференц
Nyamdavaa Uugandavaa
9 р анги цахим
9 р анги цахим
ganzorig_od
Moduli 7
Moduli 7
Khishighuu Myanganbuu
java surah bichig
java surah bichig
ssuser19de93
Descriptive statistics ph d
Descriptive statistics ph d
zorigoo.sph
MT101 Lecture 1(Mongolia)
MT101 Lecture 1(Mongolia)
Munhbayr Sukhbaatar
АЖҮЗБ тестийн сан
АЖҮЗБ тестийн сан
Munguntuul Bat-Orshikh
систем тэгшитгэл
систем тэгшитгэл
zundarma
U.cs101 алгоритм программчлал-3
U.cs101 алгоритм программчлал-3
Badral Khurelbaatar
загвар гэж юу вэ
загвар гэж юу вэ
Renchindorj Monkhzul
математик анализ лекц№5
математик анализ лекц№5
narangerelodon
Personal Software Process
Personal Software Process
Энхтамир Ш
социологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргууд
Nandia Nandia Ganbold
BST2
BST2
E-Gazarchin Online University
термодинамикийн Ii хууль
термодинамикийн Ii хууль
davaa627
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
Mr Nyak
ньютоны хууль
ньютоны хууль
Uran_uka
Face recognition with Deep Neural Network
Face recognition with Deep Neural Network
Erkhembaatar M.
Hicheel
Hicheel
Any Any
More Related Content
What's hot
хурд
хурд
Х. Гэрэлчимэг
функцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын муж
Horloo Ebika
9 р анги хичээлийн талбай хэрэглэгдэхүүн
9 р анги хичээлийн талбай хэрэглэгдэхүүн
saraa79
гэрлийн интерференц
гэрлийн интерференц
Nyamdavaa Uugandavaa
9 р анги цахим
9 р анги цахим
ganzorig_od
Moduli 7
Moduli 7
Khishighuu Myanganbuu
java surah bichig
java surah bichig
ssuser19de93
Descriptive statistics ph d
Descriptive statistics ph d
zorigoo.sph
MT101 Lecture 1(Mongolia)
MT101 Lecture 1(Mongolia)
Munhbayr Sukhbaatar
АЖҮЗБ тестийн сан
АЖҮЗБ тестийн сан
Munguntuul Bat-Orshikh
систем тэгшитгэл
систем тэгшитгэл
zundarma
U.cs101 алгоритм программчлал-3
U.cs101 алгоритм программчлал-3
Badral Khurelbaatar
загвар гэж юу вэ
загвар гэж юу вэ
Renchindorj Monkhzul
математик анализ лекц№5
математик анализ лекц№5
narangerelodon
Personal Software Process
Personal Software Process
Энхтамир Ш
социологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргууд
Nandia Nandia Ganbold
BST2
BST2
E-Gazarchin Online University
термодинамикийн Ii хууль
термодинамикийн Ii хууль
davaa627
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
Mr Nyak
ньютоны хууль
ньютоны хууль
Uran_uka
What's hot
(20)
хурд
хурд
функцийн тодорхойлогдох муж ба утгын муж
функцийн тодорхойлогдох муж ба утгын муж
9 р анги хичээлийн талбай хэрэглэгдэхүүн
9 р анги хичээлийн талбай хэрэглэгдэхүүн
гэрлийн интерференц
гэрлийн интерференц
9 р анги цахим
9 р анги цахим
Moduli 7
Moduli 7
java surah bichig
java surah bichig
Descriptive statistics ph d
Descriptive statistics ph d
MT101 Lecture 1(Mongolia)
MT101 Lecture 1(Mongolia)
АЖҮЗБ тестийн сан
АЖҮЗБ тестийн сан
систем тэгшитгэл
систем тэгшитгэл
U.cs101 алгоритм программчлал-3
U.cs101 алгоритм программчлал-3
загвар гэж юу вэ
загвар гэж юу вэ
математик анализ лекц№5
математик анализ лекц№5
Personal Software Process
Personal Software Process
социологийн судалгааны үндсэн аргууд
социологийн судалгааны үндсэн аргууд
BST2
BST2
термодинамикийн Ii хууль
термодинамикийн Ii хууль
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ТООН МЭДЭЭЛЭЛД ДҮН ШИНЖИЛГЭЭ ХИЙХ ГАРЫН АВЛАГА
ньютоны хууль
ньютоны хууль
Similar to МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА
Face recognition with Deep Neural Network
Face recognition with Deep Neural Network
Erkhembaatar M.
Hicheel
Hicheel
Any Any
Lecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанар
Gantur Togtokh
machine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjf
BolderdeneJigmed1
Zurag tosol i-lekts-15
Zurag tosol i-lekts-15
radnaajav gerelchimeg
Lecture 3
Lecture 3
Baterdene Batchuluun
Dadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvar
dagiisangir
мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9
Khishighuu Myanganbuu
Similar to МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА
(8)
Face recognition with Deep Neural Network
Face recognition with Deep Neural Network
Hicheel
Hicheel
Lecture3 aлгоритм түүний_шинжчанар
Lecture3 aлгоритм түүний_шинжчанар
machine learningsahfahsfahsfashfsahfsahfsahjf
machine learningsahfahsfahsfashfsahfsahfsahjf
Zurag tosol i-lekts-15
Zurag tosol i-lekts-15
Lecture 3
Lecture 3
Dadlagyn xotolbor zagvar
Dadlagyn xotolbor zagvar
мэдээллэн загвар байгуулах.9
мэдээллэн загвар байгуулах.9
МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА
1.
“МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ
АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА” М.Эрхэмбаатарa ,А.Хүдэрb ,Б.Луубаатарc , а Магистрант, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс b Удирдагч: Доктор, дэд проф. багш, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс c Зөвлөх: Докторант ахлах багш, Электроникийн салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс a И-мэйл: erkhemee@gmail.com b И-мэйл: khuder@must.edu.mn c И-мэйл: luubaatar@must.edu.mn Хураангуй: Энэ өгүүллэгт компьютер хараа, машин болон гүн сургалт, хүний царайг илрүүлэх, таних суурь онол аргачлалыг судлан, мөн шаардлагатай техник орчин, программчлалын багаж хэрэгсэлүүдийг ашиглан, тасалгааны камер болон ухаалаг гэрийн туслах-роботын хиймэл оюун ухааныг сургах зорилгоор нэгэн гэр бүлийн хүмүүсийг цөөн тооны зурган өгөгдөл дээр тулгуурлан царай таних туршилтыг богино хугацаанд, бага зардлаар хэрэгжүүлсэн үр дүнг танилцуулав. Түлхүүр үг: дүрс таних, царай таних, компьютер хараа, машин сургалт, гүн сургалт, мэдрэлийн гүн сүлжээ Удиртгал Дүрс болон царай таних нь компьютерийн шинжлэх ухааны компьютер хараа салбарын судлагдахуун бөгөөд уг технологийн хэрэглээ нь хиймэл оюун ухаан, робот, жолоочгүй автомашин, анагаахын салбарт хэт авиан оношлогоо (хавдрын эсийг илрүүлэх), олон нийтийн аюулгүй байдлын хяналт зэрэг олон салбарт хэрэглээ, үйлдвэрлэлийн хувьд маш хурдацтай өсч хөгжиж байна. Аливаа дүрсийг ялгаж таних хүний чадвар нь ~94.9% байдаг бол Google (95.18%), Microsoft (95.06%) компаниудын боловсруулсан аргачлал нь хүний чадавхиас давж гарав [1]. Мөн царай таньж ялгах хүний чадвар нь дундажаар 99.5% байдаг бол Facebook компанийн DeepFace нь 99.7% амжилтаар үүнээс давж гарсан байна [2]. Эдгээр өндөр амжилтууд нь техникийн хүчин зүйл буюу үүлэн болон паралелль тооцоолол ашигласан суперкомпьютерын хүчин чадал сайжирсантай, мөн маш их хэмжээний өгөгдөл цуглуулж машин сургалт, гүн сургалт хийж байгаатай холбоотой байна. Дүрс таних, тэр дундаа хүний царайг таних технологи нь манай улсын практикт төдийлэн нэвтрээгүй байгаа бөгөөд иргэний мэдээлэл, нийгмийн хэв журмыг хангах, олон нийтийн аюулгүй байдлыг хангах зэрэгт уг технологийг нэвтрүүлэх шаардлага бий болоод байна. Жишээ нь: - Гудамж болон замын уулзварын камерын хяналтыг ухаалаг болгох (intelligent surveillance), - Иргэний бүртгэл мэдээлэл, хил гаалийн системд иргэдийг нүүр царайгаар нь таних болон хайх, - Монгол хүмүүсийн царай төрхийн нийтлэг дундаж төрхийг тооцоолж гаргах гэх мэт. 1. Онолын судалгаа Царайг танихын тулд эхлээд оролтын зураг болон видео дундаас царайг олж илрүүлнэ, дараа нь түүн дээр урьдчилсан боловсруулалт хийгээд дараачийн таних үйлдэл руу шилжинэ. Хүний нүүрийг таних, дүрс таних олон аргачлал байгаагийн дотроос хамгийн бага алдааны магадлалтайгаар таньж буй CNN аргачлалуудыг голлон судлаж, онолыг Стэнфордын их сургуулийн “CS231n Convolutional Neural Networks for Visual Recognition” [3] хичээлийн онлайн материалиас голчлон үзсэн ба үүнтэй холбоотойгоор судалж буй ном сурах бичгүүд [4][5][6] ашиглан суралцав. 1.1 Мэдрэлийн гүн сүлжээ Мэдрэлийн гүн сүлжээний нэг хувилбар болох CNN (Convolutional Neural Network) нь анх 2012 онд Алекс Кризевский ImageNet дэх уралдаанд (Компьютер харааны олимп) зураг ангилалтын алдааг 25%-c 15% хүртэл багасган (AlexNet) рекорд тогтоон түрүүлснээр хөгжил дэвшил нь эхлэсэн [7]. Хүн дүрсийг хүн ялгаж танихдаа, жишээ нь нохойг түүний сарвуу, нүд, арьс үс зэрэг онцлог шинжүүдээр нь ялгаж сурдаг бол компьютер ч мөн үүнтэй адил дүрс, биетийг доод түвшины муруй, хэрчим бүхий шинж чанаруудаас тогтсон конволушн давхаргуудыг байгуулж ялгаж таньдаг аргачлал нь CNN юм. Зураг 1-т ерөнхий бүтэцийг дүрслэн харуулав.
2.
CNN нь конволушнал,
шугман бус, пүүл, бүрэн холбогдсон давхарга болон гаралт гэсэн үндсэн хэсгүүдээс бүрдэнэ. Гаралт нь дан ангилал эсвэл тухайн дүрсийг хамгийн сайн тодорхойлж буй ангилалын магадлал байна. Зураг 1. CNN ерөнхий бүтэц [8]. CNN-ын хамгийн эхний давхарга нь конволушнал байх бөгөөд жишээ нь, уг давхаргын оролт нь 32 x 32 x 3 хэмжээст цэгүүд бүхий матриц (тухайн зураг) байг. Уг давхаргыг ойлгомжтой, энгийнээр тайлбарлавал, тухайн зургийн зүүн дээд хэсгээс жижиг гэрлээр тусган гүйлгэн харж байгаа хэмээн төсөөлж болно. Уг жижиг гэрэл маань 5 x 5 хэмжээстэй тусгалтай байг. Машин сургалтын хэллэгт уг жижиг гэрлийг шүүлтүүр (заримдаа мэдрэлийн эс эсвэл цөм) гэж нэрлэдэг ба уг гэрэл тусч буйг хүлээн авах талбар гэдэг. Уг шүүлтүүр нь тоон массиваас (5 x 5 x 3) тогтох бөгөөд эдгээрийг жин эсвэл параметр гэдэг. Шүүлтүүрийг зураг дээгүүр гүйлгэхийг шүүлтүүрдэх гэх ба, тухайн өгөгдсөн зургийн цэгүүдийг шүүлтүүрийн цэгүүдээр харгалзан үржүүлнэ. Уг үйлдлийг шүүлтүүрийг дахин 1 цэгээр хажуу тийш шилжүүлэн давтах зэргээр тухайн зургийг дуустал давтсаны үр дүнд 28 x 28 x 1 хэмжээст үржвэрүүд бүхий матриц үүсэх ба үүнийг идэвхжилтийн зураглал эсвэл шинж чанарын зураглал гэж нэрлэнэ [8]. Зураг 2. Доод түвшинй шүүлтүүрүүдийн дүрслэл. (Зургийг Стэнфордын их сургуулийн “CS231n: Convolutional Neural Networks for Visual Recognition” хичээлийн материалаас авч ашиглав [3]) Шүүлтүүрийг хүрээ, өнгө, муруй гэх мэт шинж чанарын ялгагч гэж ойлгож болно. Өөрөөр хэлбэл, бүхий л зураг дүрс бүрт байдаг хамгийн энгийн нийтлэг, шинж чанарууд байна [8]. Зураг 2-т шүүлтүүрүүдийг харуулав. Эхний давхарга нь доод түвшний шинж чанарууд буюу муруй, хүрээ зэргийг танина. Гэхдээ тухайн эх зургийг яг юу вэ гэдгийг нь сайн ялгахын тулд гар, чих, нүд гэх мэт онцлог шинжүүдийг таних дээд түвшний шүүлтүүрүүд хэрэгтэй болно. 2-р давхарга дээр, жишээ нь 28 x 28 x 3 хэмжээстэй оролт дээр 5 x 5 x 3 хэмжээст шүүлтүүр ашиглая. Уг давхаргын гаралт буюу шинж чанарын зураглал нь тал тойрог (муруй болон хүрээний хослол) эсвэл дөрвөлжин (хэд хэдэн хүрээнүүдийн хослол) зэрэг дээд түвшний шинж чанаруудын байршилууд гарна. Ингээд дараа дараачийн давхарга руу гүн орох тусам шинж чанарын зураглалууд илүү түвэгтэй, нарийн хэлбэрүүдийг дүрслэнэ. Сүлжээний төгсгөлд, аль нэгэн объект буюу дүрс бүхий шүүлтүүр идэвхжиж тодорсон байх болно [8]. 1.2 Царай илрүүлэх Хүний нүүр царайг илрүүлэх олон аргачлалуудаас HOG (Histogram of Oriented Gradients) аргачлалыг [9] ашигласан ба энэ нь тухайн зургийн цэг бүрийн утгыг зэргэлдээ цэгүүдтэй харьцуулж утга нь их байгаа чиглэлд векторыг (градиент) зурна. Зургийн бүх цэгүүд дээр дээрх үйлдлийг хийсний дараа зургыг бүхэлд нь 16 x 16 харьцаатай дэд хэсгүүдэд хувааж тухайн дэд хэсэг дотор дээш, доош, зүүн, баруун, баруун-дээш, зүүн-доош зэрэг аль чиглэлд хамгийн их вектор утгууд байгааг олж, уг векторын чиглэлээр солино. Зураг 3т жишээ өгөгдөл дээр харуулав. Эндээс хүний нүүрний ерөнхий HOG хэв шинж (pattern) харагдаж эхлэсэн байгааг харж болно. Бүх зургуудын HOG хэв шинжүүдийг ялган авахад хүний нүүр царайтай хэсгийн ерөнхий дундаж хэв шинж гарч ирнэ. Өгөгдсөн зургууд дундаас уг хэв шинж бүхий хэсгийг илрүүлж, царайны байршлыг ялган авна.
3.
Зураг 3. Нүүр
царайны HOG хэв шинжийн дүрслэл 1.3 Царай танилт Нүүр царайг таних аргачлалууд нь шинж чанарт тулгуурласан, зурагт тулгуурласан гэсэн хоёр төрөлд ангилагдаж байгаа ба CNN нь зурагт тулгуурласан аргачлалд хамаарна. Хүний нүүр царайг нийт 68 цэг байршуулан тэмдэглэх алгоритмыг 2014 онд Вахид Каземи, Жозепина Сулливан нар боловсруулсан байна [10]. Зураг 4-д жишээ зураг дээр харуулав. Уг 68-н цэгийг ашиглан тухайн царайг бусадтай харьцуулах, нүүрний төсийг илрүүлэх, насыг таамаглах зэрэгт ашиглана. Зураг 4. Нүүрний хэсэгт 68 цэгүүдийг байршуулсан жишээ (face landmarking) 1.4 Царай танихад мэдрэлийн гүн сүлжээ ашиглах нь Нүүр царайг 68 цэгээр илэрхийлж болдог аргачлалаас гадна хүний чадвартай зэрэгцэхүйц өндөр танилтын чадвартай болохын тулд мэдрэлийн гүн сүлжээг ашигладаг. Эдгээрийн нэг аргачлал нь хүний царайг нийт 128-н хэмжигдэхүүнд (шигтгэл) тулгуурлан тоон хэлбэрт хувиргах ба эдгээр нь хүний нүд үсний өнгө, хамрын өргөн гэх мэт тухайн хүний онцлогоос хамааран яг аль хэмжигдэхүүн байх нь тухайн сургалт хийж буй өгөгдөлөөс хамаарна. Энэ аргачлалыг 2015 онд Google компанийн судлаачид хэрэгжүүлсэн [11] ба мөн төстэй олон аргачлалууд гарсан байна. Уг аргачлал нь өгөгдсөн хүмүүсийн царай тус бүрээс 128 хэмжигдэхүүнүүдийг гарган авч тухайн хүний хэмжигдэхүүнүүдийн аль утгууд нь өөр хоорондоо ойрхон буюу их хамааралтай, аль утгууд нь бусад хүмүүсийнхээс хол буюу бага хамааралтай байгааг мэдрэлийн гүн сүлжээг ашиглан тооцоолж гаргана. Үүнийг гүн сургалт буюу мэдрэлийн гүн сүлжээний загвар сургах гэнэ. Их хэмжээний өгөгдөл зургууд дээр ийм гүн сургалт хийхэд нүсэр тооцоолол хийх шаардлагатай байдаг тул GPU (Graphic Processing Unit) дээр паралелль тооцоолол ашиглах нь үр дүнд харьцангуй хурдан хугацаанд хүрэх бололцоог олгоно. Гэсэн ч, жишээ нь NVidia Tesla K40c карт дээр уг гүн сургалтыг хийн, загвар бэлтгэж гаргахад хэдэн 7 хоногийн хугацааг зарцуулдаг. DeepFace [2] түвшины танилтын зэрэглэлд хүрэхийн тулд өндөр нягтралтай зургууд бүхий хэдэн сая тооны сургалтын өгөгдлийг бэлтгэж, гүн сургалт хийх шаардлагатай. Бид туршилтандаа Брэндон Амосын боловсруулсан аргачлал, багажаар сургаж бэлтгэсэн nn4.small2.v1.t7 загварыг [12] ашигласан ба зураг 5-д уг мэдрэлийн гүн сүлжээн дэхь нэг давхарга дээр өгөгдсөн зураг хэрхэн дүрслэгдэж буй жишээг харуулав. Уг бэлэн загварыг ашиглан царайны зураг бүрээс 128ш хэмжигдэхүүнүүдийг богино хугацаанд гарган (царайг кодлон) авч тэдгээрийг ангилахад ашиглана. Хүн тус бүрийн царайг ялган ангилахад Softmax, SVM (Support Vector Machine), k-NN (k-Nearest Neighbor) зэрэг ангилагч ашиглан машин сургалт хийх ба энд Linear SVM ангилагч ашигласан.
4.
Зураг 5. Мэдрэлийн
гүн сүлжээн дэхь 3-р давхаргын дүрслэлийн жишээ. 1.5 Хүндрэл, бэрхшээл Хүний царай нь содон тогтвортой объект биш бөгөөд царай таних нөлөөлдөг гол хүндрэлүүд нь интринсик ба экстринсик гэсэн хоёр үндсэн хүчин зүйлээс хамаардаг байна [5]: 1. Интринсик нь байгалийн физик хүчин зүйлсээс хамааралтай ба ажиглагч (камер) талаас үл хамаарна. Дотроо дараах байдлаар хоёр хуваагдана: - Интраперсональ нь тухайн хүний насжилт, үсний засалт, нүүрний хувирал, нүүр будалт болон нүдний шил, контакт линз зэрэг эд зүйлстэй хамааралтай хүчин зүйлс байна. - Интерперсональ нь олон хүмүүсийн нүүрний төрх байдлын ялгаа (арьсны өнгө гэх мэт), угсаатанзүй болон хүйстэй хамааралтай хүчин зүйлс байна [5]. 2. Экстринсик хүчин зүйлс нь ажиглагч тал, тухайн хүний царай хоорондох гэрлийн харилцан үйлчлэлээс хамаарна. Эдгээрт гэрэлтэлт, байршил, хэмжээс болон зураглалын параметрүүд болох нягтрал, фокус, шуугиан зэрэг болно [5]. Дээрх хүчин зүйлс нь нүүр царайг таних ажиллагааны үр дүн муу, алдаатай гарахад ихээхэн нөлөөлнө. Практикт дараах 5-н үндсэн хүчин зүйлс нь ихэхдээ нөлөөлдөг байна: Зарим 2D аргачлал нь гэрэлтүүлгийн тодорхой хязгаарт л сайн таньдаг бөгөөд гэрлийн нөхцөл байдлаас ажиллагааны үр дүн шууд хамаардаг талтай. Нүүрний дээд хэсэг дэх зүйлс (үс, алчуур, нүдний шил г.м) танилтын ажиллагаанд сөргөөр нөлөөлнө. Толгойн хажуу тийш хэтэрхий эргэсэн байрлал нь таних ажиллагаанд сөргөөр нөлөөлнө, учир нь нүүрний хэв, зураглалыг хавтгайд буулгахад гажилтын алдаа үүснэ. Заримдаа, нүүрний зураглал нь хэвийн харах өнцөгтэй үед алдаагүй буусан (projection) байсан ч, сэтгэл хөдлөлөөс үүдсэн нүүрний хувирал нь танилтыг амжилтгүй болгодог. Цаг хугацаанаас хамаарах нүүрний өөрчлөлт (насжилт, үрчлээ гэх мэт) нь хүндрэл үүсгэдэг [5]. Бодит нүүр царай эсэхийг танихад гардаг хүндрэл: Нүүр царайг танихад тулгардаг чухал асуудлын нэг нь бодит царай мөн эсэхийг таньж илрүүлэх асуудал юм. Хамгийн түгээмэл хууралтын арга бол нүүрний фото зургаар, видео бичлэгээр, 3D моделиор системийг хуурах боломжтой. Тиймээс хууралтыг илрүүлэх нь нүүр царайг таних системийн бас нэг чухал бүрэлдэхүүн хэсэг болдог байна. Зарим судлаачид нүүр-дуу хоолойг таних гэсэн хослол ашиглаж уруулын хөдөлгөөн, толгойн хөдөлгөөнийг харьцуулах аргыг боловсруулсан байна. Мөн Фурьегийн спектрээр бодит эсэхийг тодорхойлдог ба зураг болон бодит хүний царайнаас буусан өндөр давтамжийн бүрэлдэхүүнүүдийг нь шинжилж бодит эсэхийг ялгаж тогтооно. Бас дулаан мэдрэгч бүхий инфра туяан камер ашигладаг байна [5]. 2. Хэрэгжүүлэлт, туршилт Компьютер хараа суурь онол, алгоримтуудыг судласны [13] үндсэн дээр “хүний нүүр болон дүрс таних” шинэлэг, үр дүнтэй аргачлалыг туршиж, нээлттэй эх код бүхий OpenCV, Dlib, Python, Torch [14], OpenFace[12] болон CUDA (Compute Unified Device Architecture), cuDNN [15] гэсэн программ хэрэгсэл, багажуудыг LinuxMint 17.3 64 бит систем дээр суулгаж тохируулан, туршилтыг хэрэгжүүлсэн. Сонгосон 4 хүний 226ш сургалтын өгөгдөл зургуудаас царайг нь илрүүлэн ялган авч, өмнөх боловсруулалт хийн бэлтгээд бэлэн загвар, Linear SVM ашиглаж царай ангилагчийг сурган гаргасан ба уг 4 хүний тус бүр 10ш зураг, мөн өөр хүмүүсийн 10ш зургаар царай таних туршилтын үр дүнг шалгав. Зураг 6-д сургалтанд ашиглах зургийг бэлдэж, боловсруулсан жишээг харуулав. Туршилтанд цөөн зураг, хүн сонгосон нь сургалтыг зөвхөн бага үзүүлэлттэй процессор бүхий компьютер (тасалгааны робот) дээр богино хугацаанд хэрэгжүүлж, царай танилтын үр дүнг шалгах зорилготой байв.
5.
Зураг 6. Өгөгдсөн
зургуудыг царай таних сургалтанд ашиглахаар бэлтгэсэн жишээ. 3. Үр дүн Ингээд сонгогдсон 4 хүний тус бүр 10ш туршилтын зургуудыг шалгаж, танигдсан үр дүн: Хүснэгт 1. Туршилтын дүн, Эерэг үнэн (0.80-с бага утгыг алдаа гэж үзэв) Өгөгдөл Утга Дундаж Алдаа Хүүхэд, 2 нас 50ш 0.83 0.87 0.91 0.98 0.86 0.97 0.97 0.99 0.97 0.92 0.927 0 Хүүхэд, 8 нас 68ш 0.99 0.99 0.68 0.97 0.99 0.94 1.00 1.00 0.99 0.48 0.903 2 Том хүн, эр 26ш 0.92 0.95 0.90 0.78 0.90 0.93 0.87 0.97 0.96 0.93 0.911 1 Том хүн, эм 82ш 0.83 0.98 0.99 0.91 0.93 0.98 0.99 0.98 1.00 0.99 0.958 0 Нийт 226ш 0.925 3 Хүснэгт 2. Туршилтын дүн, Сөрөг үнэн (0.50-с бага утгыг алдаа гэж үзэв) Өгөгдөл Утга Дундаж Алдаа Өөр хүн 10ш 0.49 0.59 0.42 0.21 0.28 0.53 0.03 0.06 0.64 0.54 0.379 6 Зурагт 7-т үзүүлсэн алдаа ихтэй зургууд нь фокус муутай, царайны хувирал, нүүрний хэсэгт өөр дүрс халхалсан, камер руу харсан өнцөг их, мөн олон жилийн өмнөх зурагт насжилт нөлөөлсөн зэрэг интринсик ба экстринсик шинжүүд ажиглагдав. Эдгээр нөлөөлөх хүчин зүйлсийг 1.5 хэсэгт тайлбарласан. Зураг 7. Танилт багатай буюу 0.85-аас доош эерэг үнэн таамаглалтай гарсан зургууд. 4. Дүгнэлт Нийт 226ш өгөгдөл зургийг ангилах машин сургалт хийж 4 хүний царайг таних судалгааны туршилт хийсэн бөгөөд гаргаж авсан царай ангилагчийг тухайн 4 хүн тус бүрийн 10ш зураг болон өөр хүмүүсийн 10ш зурагаар шалгахад нийт эерэг үнэн танилтын дундаж 92.5% гарав. Танилтын дундаж харьцангуй бага утгатай гарсан нь туршилтанд ашигласан өгөгдөл цөөн тоотой, мөн олон жилийн өмнөх болон нүүрний эмоци ихтэй авахуулсан зургуудийг сургалтын өгөгдөлд оруулаагүй нь царай танилтанд сөргөөр нөлөөлсөн (20 жилийн өмнөх зураг 0.78, нүүрний хувиралтай зургууд 0.48, 0.68) гэж дүгнэв. Танилтын чанарыг сайжруулахад сургалтын өгөгдөлийн бааз хангалттай хэмжээтэй байх шаардлагатай нь харагдлаа. Мөн ангилагч нь зөвхөн өгөгдсөн 4 хүний өгөгдөлд тулгуурлан ангилалт хийгдсэн тул бусад хүмүүсийн өгөгдөлийг давхар оруулж өгөх нь туршилтын сөрөг үнэн утгуудыг ихэсгэж, царай танилтыг сайжруулах боломжтой гэж дүгнэв.
6.
CNN аргачлалыг ашиглан
хямд зардлаар, хязгаарлагдмал тооны хүнийг (битүү системийн хүрээнд) царайгаар нь танихад тасалгааны камер болон гэрийн туслах-роботын хиймэл оюуныг сургах онолын судалгаа, туршилтын зорилго биелэсэн гэж үзэв. 4.1 Ирээдүйн таамаглал Цаашид олон тооны өгөгдөл дээр туршилт хийж үр дүнг харьцуулах, GPU ашиглан CNN загвар үүсгэх гүн сургалт хийж танилтын чанарыг сайжруулах, k-NN зэрэг хэд хэдэн ангилагчийг хослуулан ангилагч сургалт хийж турших, тухайн камераас нүүрний зургуудыг хадгалан авч өгөгдөл олборлодог болгон автоматжуулах, мөн хүний нүүрний хувирал, сэтгэл хөдлөлийг таньдаг болгон сайжруулах боломжтой. Нэр томъёо CPU Central Processing Unit GPU Graphic Processing Unit CNN Convolutional Neural Network HOG Histogram of Oriented Gradient SVM Support Vector Machine k-NN k-Nearest Neighbor CUDA Compute Unified Device Architecture Конволушн давхарга Convolutional layer Бүрэн холбогдсон давхарга Fully connected layer Пүүл Pooling Хүлээн авах талбар Receptive field Шүүлтүүрдэх Convolving Жин Weight Идэвхжилтийн зураглал Activation map Шинж чанарын зураглал Feature map Шинж чанарын ялгагч Feature identifiers Шигтгэл Embeddings Царайг кодлох Face encoding Эерэг үнэн True positive Сөрөг үнэн True negative Мэдрэлийн гүн сүлжээ Deep Neural Network Мэдрэлийн эс Neuron Шинж чанар Feature Хэв шинж Pattern Ашигласан материал: [1] “Baidu’s Artificial-Intelligence Supercomputer Beats Google at Image Recognition”, MIT Technology Review, 2015 [2] “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”. Facebook AI Research Publication, 2014 [3] “CS231n Convolutional Neural Networks for Visual Recognition”, Stanford Vision Lab, Stanford University, 2016 [4] Stan Z. Li Anil K. Jain. “Handbook of Face Recognition”. Springer, 2004 [5] Asit Kumar Datta, Madhura Datta, Pradipta Kumar Banerjee. “Face Detection and Recognition: Theory and Practice”. Taylor & Francis, 2015 [6] Mohamed Daoudi, Anuj Srivastava, Remco Veltkamp. “3D Face Modeling, Analysis and Recognition”. Wiley, 2013 [7] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton “ImageNet Classification with Deep Convolutional Neural Networks”. ILSVRC, 2012 [8] “Machine Learning is Fun! Part 4: Modern Face Recognition with Deep Learning”, 2016 [9] Navneet Dalal, Bill Triggs. "Histograms of Oriented Gradients for Human Detection”, 2005 [10] Vahid Kazemi, Josephine Sullivan. “One Millisecond Face Alignment with an Ensemble of Regression Trees”, 2014 [11] Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, 2015 [12] Brandon Amos. OpenFace. https://cmusatyalab.github.io/openface/, 2016 [13] D. A. Forsyth and J. Ponce. "Computer Vision: A Modern Approach (2nd edition)". Prence Hall, 2011 [14] opencv.org, dlib.com, http://torch.ch [15] CUDA, cuDNN. http://nvidia.com Зохиогчийн тухай: Мөнгөнгадасын Эрхэмбаатар нь 2008 онд ШУТИС-МХТСургуулийг “Мэдээллийн технологийн инженер” мэргэжлээр суралцан бакалавр зэрэгтэй төгссөн. Одоо тус сургуулийн Компьютерийн Ухааны тэнхимд “Хиймэл оюун ухаан ба хөдөлгөөнт төхөөрөмжийн программ хангамж” хөтөлбөрийн магистрант оюутан, Вишн Лабораторид туслах судлаач. Удирдагч багшаар ШУТИС-МХТС-н доктор, дэд проф. А.Хүдэр, зөвлөх багшаар ШУТИС-МХТС-н ахлах багш докторант Б.Луубаатар нар ажиллаж байна.
Download now