PHÂN LỚP ẢNH VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN ĐA LỚP Đỗ Thanh Nghị 1 và Phạm Nguyên Khang 1 1 Khoa Công nghệ Thông tn & Truyền thông, Trường Đạ học Cần Thơ Thông tn chung: Ngày nhận: 17/04/2013 Ngày chấp nhận: 24/12/2013 Ttle: Classfyng mages wth multclass stochastc gradent descent algorthm Từ khóa: Bểu dễn đặc trưng không đổ SIFT, Mô hình tú từ BoVW, Máy học véc tơ hỗ trợ SVM, Phương pháp gảm gradent ngẫu nhên SGD Keywords: Scale-Invarant Feature Transform - SIFT, Bag-of- Words - BoW, Support Vector Machnes - SVM, Stochastc Gradent Descent - SGD ABSTRACT In ths paper, we present a new algorthm, MC-SGD (Multclass Stochastc Gradent Descent), to effectvely classfy multclass mages. The representaton of the mages s based on the bag-of-words (BoW), whch s constructed from the local descrptors (the Scale-Invarant Feature Transform method SIFT). The pre-processng step brngs out datasets wth a very large number of dmensons. We propose a new algorthm called MC-SGD that s suted for classfyng very-hgh-dmensonal datasets. The numercal test results on a real dataset showed that our algorthm MC-SGD outperforms Support Vector Machnes (SVM) usng non-lnear kernel functons (Radal Bass Functon - RBF). TÓM TẮT Trong bà này, chúng tô trình bày gả thuật mớ, gảm gradent ngẫu nhên (Multclass Stochastc Gradent Descent - MC-SGD), cho phân lớp hệu quả dữ lệu ảnh đa lớp. Tập dữ lệu ảnh bểu dễn ảnh bằng mô hình tú từ (Bag-of-Words - BoW) sử dụng các nét đặc trưng không đổ vớ những bến đổ tỉ lệ (Scale-Invarant Feature Transform - SIFT), dựa trên đặc trưng cục bộ, không bị thay đổ trước những bến đổ tỉ lệ ảnh, tịnh tến, phép quay, không bị thay đổ một phần đố vớ phép bến đổ hình học affne (thay đổ góc nhìn) và mạnh vớ những thay đổ về độ sáng, sự nhễu và che khuất. Chúng tô đề nghị một gả thuật phân lớp đa lớp mớ, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu thực cho thấy gả thuật MC-SGD phân lớp nhanh, chính xác hơn kh so sánh vớ gả thuật máy học véc tơ hỗ trợ (Support Vector Machnes - SVM) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). 1 GIỚI THIỆU Phân lớp ảnh là gán nhãn tự động cho từng ảnh theo chủ đề đã được định nghĩa trước dựa vào nộ dung của ảnh. Phân lớp ảnh có nhều ứng dụng trong thực tế như nhận dạng chữ số trên ch phếu ngân hàng, mã số trên bì thư của dịch vụ bưu chính, hay các chữ số trên các bểu mẫu nó chung, đặc bệt là tổ chức nộ dung trang web một cách tự động bằng cách đánh nhãn tự động ảnh. Hệ thống phân lớp ảnh thường bao gồm ha bước: rút trích đặc trưng từ nộ dung ảnh và huấn luyện mô hình máy học để gán nhãn tự động từ các đặc trưng này. Hệu quả của hệ thống phân lớp phụ thuộc vào các phương pháp sử dụng ở ha ga đoạn trên. Các nghên cứu trước đây (LeCun et al., 98), (Vola & Jones, 01), (Zheng & Daoud, 04) sử dụng tếp cận rút trích đặc trưng dựa trên phát hện của các đểm, màu sắc, kết cấu (texture), tổ chức 1
đồ (hstogram). Mạng nơ-ron (neural networks), máy học véc tơ hỗ trợ (support vector machnes), gả thuật boostng được huấn luyện để phân lớp ảnh. Gần đây, một hướng tếp cận của (Bosch et al., 06) dựa vào phương pháp bểu dễn ảnh bằng các nét đặc trưng không đổ vớ những bến đổ tỉ lệ SIFT (Lowe, 04) và mô hình tú từ BoW. Đặc trưng cục bộ SIFT không bị thay đổ trước những bến đổ tỉ lệ ảnh, tịnh tến, phép quay, không bị thay đổ một phần đố vớ phép bến đổ hình học affne (thay đổ góc nhìn) và mạnh vớ những thay đổ về độ sáng, sự nhễu và che khuất. Một ảnh được bểu dễn bở tập hợp tú từ được xây dựng bằng cách áp dụng một gả thuật gom nhóm lên các véc tơ mô tả cục bộ SIFT. Ga đoạn tền xử lý cho ra một tập dữ lệu vớ số chều rất lớn. Tác gả đề xuất gảm chều dữ lệu và sử dụng k láng gềng để phân lớp hệu quả ảnh. Chúng tô đề xuất sử dụng ý tưởng của phương pháp bểu dễn ảnh bằng đặc trưng không đổ SIFT và mô hình tú từ. Tuy nhên thay vì gảm chều thì chúng tô đề xuất một gả thuật học mớ, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu ảnh thực từ ImageNet (Deng et al., 12) chỉ rằng gả thuật mớ MC-SGD phân lớp nhanh, chính xác kh so sánh vớ gả thuật máy học véc tơ hỗ trợ SVM (Vapnk, 95) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). Phần tếp theo của bà vết được trình bày như sau: phần 2 trình bày ngắn gọn về bểu dễn ảnh bằng mô hình tú từ của đặc trưng cục bộ không đổ, phần 3 trình bày gả thuật phân lớp đa lớp MC-SGD. Phần 4 trình bày các kết quả thực nghệm tếp theo sau đó là kết luận và hướng phát trển. 2 BIỂU DIỄN ĐẶC TRƯNG KHÔNG ĐỔI VÀ MÔ HÌNH TÚI TỪ Bểu dễn ảnh là một bước quan trọng trong phân loạ ảnh. Bước này có ảnh hưởng rất lớn đến kết quả phân loạ cuố cùng. Trong lãnh vực phân lớp và tìm kếm ảnh, đặc trưng cục bộ SIFT (Lowe, 04) là những đểm đặc trưng, vùng đặc trưng để bểu dễn ảnh rất hệu quả, ngày càng trở nên phổ bến. Nghên cứu tên phong của (Bosch et al., 06) đề xuất hệ thống phân lớp ảnh dựa trên đặc trưng SIFT và mô hình tú từ (xuất phát từ ý tưởng phân lớp văn bản). Ga đoạn bểu dễn ảnh theo mô hình tú từ và đặc trưng không đổ SIFT bao gồm 3 bước chính: () phát hện và bểu dễn các nét đặc trưng cục bộ, () xây dựng từ đển các từ trực quan và () bểu dễn ảnh dướ dạng véc tơ tần số xuất hện các từ trực quan trong ảnh. Hình 1: Các đểm đặc trưng được phát hện bở thuật toán Hessan-Affne Ở bước đầu tên, ảnh được đưa về dạng mức xám. Các đểm đặc trưng (Hình 1) được tính trên những ảnh này bằng cách sử dụng các gả thuật phát hện đểm đặc trưng cục bộ (local feature detector) như là Harrs-Affne, Hessan-Affne (Mkolajczyk & Schmd, 04). Những đểm đặc trưng này có thể là cực trị cục bộ của phép toán DoG (Dfference of Gaussan) hoặc là cực đạ của phép toán LoG (Laplace of Gaussan). Sau đó, vùng xung quanh các đểm đặc trưng được xác định và mô tả bằng các véc tơ mô tả cục bộ. Véc tơ mô tả SIFT được đánh gá rất cao bở gớ chuyên môn trong vệc bểu dễn các vùng xung quanh đểm đặc trưng bở vì nó không đổ đố vớ những bến đổ tỉ lệ, tịnh tến, phép quay, và không đổ một phần vớ đố vớ những thay đổ về góc nhìn, đồng thờ nó cũng rất mạnh vớ những thay đổ về độ sáng, sự che khuất, nhễu. Hình 2 mnh hoạ một ví dụ của véc tơ mô tả SIFT được xây dựng từ vùng cục bộ xung quanh một đểm đặc trưng. Mỗ véc tơ mô tả là một ma trận 4x4 các tổ chức đồ. Mỗ tổ chức đồ có 8 khoảng tương ứng vớ 8 hướng. Do đó, mỗ véc tơ mô tả SIFT là một véc tơ 4x4x8=128 chều. Lúc này, mỗ ảnh được bểu dễn bở một tập các véc tơ mô tả SIFT. Bước kế tếp là thết lập các từ trực quan từ các mô tả cục bộ đã được tính ở bước trước. Thuật gả k-means (MacQueen, 67) được thực hện trên các véc tơ mô tả để phân các véc tơ SIFT thành vào các nhóm (cluster) và mỗ cluster tương ứng vớ một từ trực quan. Tập các cluster này tạo thành một từ đển. Sau cùng, mỗ véc tơ mô tả trong ảnh sẽ được gán vào cluster gần nhất (dựa vào khoảng cách mỗ véc tơ đến các tâm của các cluster đạ dện đã được định nghĩa trước đó). Tếp theo, một ảnh sẽ được bểu dễn bằng tần số của các từ trực quan trong ảnh. Hình 3 mô tả các bước tạo mô hình BoW bểu dễn các ảnh. 2
Hình 2: Đặc trưng cục bộ SIFT được tính toán từ vùng xung quanh đểm đặc bệt (vòng tròn): gradent của ảnh (trá), véc-tơ mô tả (phả) 3 THUẬT GIẢI GIẢM GRADIENT NGẪU NHIÊN (MC-SGD) Ga đoạn tền xử lý cho một tập dữ lệu vớ số chều rất lớn (ví dụ, 50000 từ trực quan vớ nhều đặc trưng đầu vào vớ mỗ đặc trưng chỉ chứa ít thông tn cho phân lớp). Gả thuật máy học véc tơ Hình 3: Tạo mô hình BoVW để bểu dễn ảnh hỗ trợ SVM (Vapnk, 95) là mô hình hệu quả và phổ bến cho vấn đề phân lớp những tập dữ lệu có số chều lớn. Xuất phát từ cà đặt hệu quả gả thuật SVM bằng phương pháp gảm gradent ngẫu nhên SGD (Bottou & Boussquet, 08), chúng tô phát trển gả thuật MC-SGD cho phân lớp đa lớp tập dữ lệu có số chều lớn này. 3
3.1 Gả thuật máy học véc tơ hỗ trợ SVM Xét ví dụ phân lớp nhị phân tuyến tính như Hình 4. Cho m phần tử x1, x2,, xm trong không gan n chều, có nhãn (lớp) của các phần tử là y1, y2,, ym có gá trị 1 hoặc -1. y = 1, nếu x thuộc lớp +1 (lớp dương, lớp chúng ta quan tâm), y = 1, nếu x thuộc lớp 1 (lớp âm hay các lớp còn lạ). SVM tìm sêu phẳng tố ưu (xác định bở véc tơ pháp tuyến w và độ lệch của sêu phẳng b) dựa trên 2 sêu phẳng hỗ trợ của 2 lớp. Các phần tử lớp +1 nằm bên phả của sêu phẳng hỗ trợ cho lớp +1, các phần tử lớp -1 nằm phía bên trá của sêu phẳng hỗ trợ cho lớp -1. Những phần tử nằm ngược phía vớ sêu phẳng hỗ trợ được co như lỗ. Khoảng cách lỗ được bểu dễn bở z 0 (vớ x nằm đúng phía của sêu phẳng hỗ trợ của nó thì khoảng cách lỗ tương ứng z = 0, còn ngược lạ thì z > 0 là khoảng cách từ đểm x đến sêu phẳng hỗ trợ tương ứng của nó). Khoảng cách gữa 2 sêu phẳng hỗ trợ được gọ là lề. Sêu phẳng tố ưu (nằm gữa 2 sêu phẳng hỗ trợ) tìm được từ 2 têu chí là cực đạ hóa lề (lề càng lớn, mô hình phân lớp càng an toàn) và cực tểu hóa lỗ. Vấn đề dẫn đến vệc gả bà toán quy hoạch toàn phương (1): mn (w, b, z) = (1/2) w 2 + c z 1 s.t. (1) y (w.x b) + z 1 z 0 (=1, 2,, m) hằng c > 0 sử dụng để chỉnh độ rộng lề và lỗ Gả bà toán quy hoạch toàn phương (1), thu được (w, b). Phân lớp phần tử x dựa vào dấu của (w.x - b). -1 z j x T.w b = -1 lề = 2/ w Hình 4: Phân lớp tuyến tính vớ máy học véctơ hỗ trợ z m x T.w b = 0 x T.w b = +1 +1 Bà toán quy hoạch toàn phương (1) được nghên cứu phổ bến trong toán tố ưu. Hện có nhều gả thuật têu bểu như LbSVM (Chang & Ln, 01), SMO (Platt, 98), Newton (Mangasaran, 01) đều có độ phức tạp bậc 2 vớ số phần tử dữ lệu. 3.2 Gả thuật gảm gradent ngẫu nhên (SGD) Một cà đặt cho gả thuật SVM của (Bottou & Boussquet, 08) dựa trên phương pháp gảm gradent ngẫu nhên, có độ phức tạp tuyến tính vớ số phần tử dữ lệu. Bằng cách thay thế z bở w, x, y (không xét độ lệch b) từ các ràng buộc vào hàm mục têu của (1), vệc tìm sêu phẳng tố ưu của SVM có thể được thực hện bở (2): m 1 mn (w, x, y) = (λ/2) w 2 +(1/m) max{0,1 y ( w. )} (2) x Phương pháp gảm gradent (GD) thực hện tố ưu vấn đề (2) bằng cách cập nhật w tạ lần lặp thứ (t+1) vớ tốc độ học t, như trong (3): m w t+1 = w t - ( t /m) ( w, x, y ) (3) 1 Phương pháp gảm gradent ngẫu nhên (SGD) thực hện đơn gản bước cập nhật w t+1 chỉ sử dụng một phần tử ngẫu nhên (x t, y t ) tạ mỗ lần lặp: w t+1 = w t - t w (w t, x t, y t ) (4) Có thể thấy rằng gả thuật SGD đơn gản, thực hện các bước lặp, mỗ bước lặp chỉ lấy 1 phần tử ngẫu nhên từ tập dữ lệu, thực hện cập nhật w thay vì phả gả bà toán quy hoạch toàn phương (1). Gả thuật SGD có độ phức tạp tuyến tính vớ số phần tử của tập dữ lệu học, phân lớp dữ lệu có số phần tử và số chều lớn rất hệu quả (Bottou & Bousquet, 08). 3.3 Gả thuật gảm gradent ngẫu nhên cho phân lớp đa lớp (MC-SGD) SGD cũng như hầu hết các gả thuật SVM đều xuất phát từ vấn đề phân lớp nhị phân (2 lớp: dương và âm). Chúng tô mở rộng gả thuật SGD để có thể gả quyết vấn đề phân lớp tập dữ lệu có c lớp (c 3) hay còn gọ là đa lớp. w t 4
Để gả quyết phân lớp tập dữ lệu đa lớp, gả thuật SVM thường dựa trên 2 phương pháp đơn gản là 1-vs-all (Vapnk, 95) và 1-vs-1 (Krebel, 99). Phương pháp 1-vs-all xây dựng c mô hình SVM nhị phân, mô hình thứ t tách lớp t (lớp dương) ra khỏ các lớp khác (âm). Phương pháp 1-vs-1 xây dựng c(c-1)/2 mô hình SVM nhị phân, mỗ mô hình tách một cặp 2 lớp. Vệc phân lớp dựa vào bình chọn khoảng cách đến các sêu phẳng thu được từ SVM nhị phân. Như đã chỉ ra trong thực tế của phân lớp kho dữ lệu ảnh rất lớn, hàng chục ngàn lớp (Sanchez & Perronnn, 11), (Deng et al., 12), 1-vs-all thì đơn gản cho kết quả tốt cho vấn đề phân lớp ảnh. Tuy nhên, kh áp dụng 1-vs-all vào trong SGD để gả quyết vấn đề đa lớp, chúng ta lạ gặp một khó khăn lớn, huấn luyện các SGD nhị phân trên tập dữ lệu mất cân bằng. Gả sử tập dữ lệu chúng ta có 100 lớp, thì kh sử dụng 1-vs-all, mô hình SGD thứ t tách lớp t (lớp dương chỉ chếm khoảng 1%) ra khỏ các lớp khác (lớp âm chếm khoảng 99%). SGD gặp khó khăn do sự mất cân bằng. SGD chỉ thường cập nhật w trong (4) kh lỗ xuất hện thường là phần tử thuộc lớp âm mà ít kh làm đều đó vớ lớp dương vì xác suất lấy mẫu một phần tử lớp dương khoảng 1%, trong kh lớp âm là 99%. Mặc dù đều khó khăn này xảy ra nhưng độ chính xác tổng thể vẫn là 99% trong kh không thể tách được lớp t ra khỏ các lớp khác. Để gả quyết vấn đề này, chúng tô đề xuất chến lược xây dựng balanced baggng cho từng mô hình SGD nhị phân dựa trên lấy mẫu gảm và cập nhật trọng số bất đố xứng. Huấn luyện mô hình SGD nhị phân tách lớp t (dương, thểu số) Hình 5: Phân lớp đa lớp, 1-vs-all (trá), 1-vs-1 (phả) khỏ các lớp khác (âm, đa số), cần xây dựng k mô hình cơ sở SGD như sau: Lấy mẫu gảm lớp âm sao cho số lượng phần từ lớp âm bằng vớ số phần tử của lớp dương. Sử dụng tập mẫu gảm lớp âm và dữ lệu của lớp dương làm tập huấn luyện mô hình cơ sở SGD. Huấn luyện SGD nhị phân, chú ý sử dụng công thức (4) vớ cập nhật trọng số lớn hơn kh phân lớp sa dữ lệu thuộc lớp dương (thểu số), và trọng số nhỏ hơn kh phân lớp sa dữ lệu thuộc lớp âm (đa số). Kết thúc, chúng ta tổng hợp k mô hình cơ sở SGD thu được mô hình SGD nhị phân tách lớp t từ các lớp khác. Cần chú ý rằng, balanced baggng sử dụng tập mẫu gảm của lớp âm, gúp cân bằng phân bố dữ lệu gữa 2 lớp, khả năng lấy mẫu một phần tử của lớp dương và lớp âm là gần như nhau kh tến hành cập nhật w trong (4). Hơn nữa, lấy mẫu gảm của lớp âm làm tăng khoảng cách tách lớp (dương, âm). Đều này tạo đều kện cho SGD hộ tụ vớ tốc độ nhanh hơn so vớ sử dụng tập đầy đủ. Chính vì lý do đó mà gả thuật MC-SGD sử dụng các balanced baggng có thể phân lớp hệu quả tập dữ lệu đa lớp. 4 KẾT QUẢ THỰC NGHIỆM Để tến hành đánh gá hệu quả của gả thuật MC-SGD cho phân lớp ảnh đa lớp, chúng tô đã cà đặt gả thuật MC-SGD bằng ngôn ngữ lập trình C/C++. Ngoà ra, chúng tô cũng cần so sánh MC- SGD vớ một gả thuật SVM chuẩn, được sử dụng phổ bến trong cộng đồng máy học là LbSVM (Chang & Ln, 01). Tất cả các gả thuật đều được thực hện trên một máy tính cá nhân (Intel 3GHz, 2GB RAM) chạy hệ đều hành Lnux. 5
Hình 6: Ảnh mẫu trong tập ImageNet 10 lớp Tập dữ lệu thực nghệm được lấy về từ ImageNet (Deng et al., 12). Chúng tô chọn tập gồm 6675 ảnh của 10 lớp (xem Hình 6). Chúng tô tách tập dữ lệu ra thành tập huấn luyện có 4450 ảnh và tập kểm thử có chứa 2225 ảnh. Để bểu dễn ảnh bằng mô hình tú từ trực quan, chúng tô sử dụng gả thuật phát hện đặc trưng cục bộ Hessan Affne của (Mkolajczyk & Schmd, 04) để rút trích các véc tơ mô tả SIFT. Sau đó, thực th gả thuật k-means (MacQueen, 67) để gom nhóm các véc tơ mô tả SIFT vào 50000 clusters tương ứng vớ 50000 từ trực quan. Ga đoạn tền xử lý tạo ra ha tập (bảng) dữ lệu huấn luyện, kểm thử, tương ứng vớ 4450 và 2225 phần tử, 50000 chều và 10 lớp. Chúng tô cố gắng thay đổ số clusters (từ trực quan từ 1000 đến 100000) để tìm các kết quả thực nghệm tốt nhất. Cuố cùng, chúng tô thu được độ chính xác ổn định vớ 50000 từ trực quan. Bước tền xử lý này là duy nhất cho ha gả thuật máy học mà chúng tô kểm thử trong bà vết. Chúng tô sử dụng tập huấn luyện để xây dựng mô hình MC-SGD và SVM sử dụng hàm nhân ph tuyến RBF (SVM-RBF). Đều chỉnh tham số dựa vào ngh thức kểm tra chéo (hold-out) được áp dụng trên tập huấn luyện. MC-SGD sử dụng tham số lambda = 0.1 (hằng số quy tắc, dùng đều chỉnh độ rộng lề phân hoạch), lặp 7 chu kỳ (epoch) là hộ tụ đến kết quả tốt nhất. Chúng tô cố gắng sử dụng hàm nhân RBF của SVM (hàm nhân RBF của ha 2 đểm dữ lệu x, x j là K[, j] = exp( x x j ). Gả thuật SVM sử dụng hàm nhân RBF (vớ 0.00001) và hằng số quy tắc c = 1000 (đều chỉnh độ rộng lề phân hoạch và lỗ) cho kết quả tốt nhất. Kết quả thu được trên tập kểm thử như trình bày trong Bảng 1, Hình 7. Bảng 1: Kết quả phân lớp ảnh Lớp MC-SGD (%) SVM-RBF (%) 0 99.16 93.25 1 95.73 86.59 2 79.17 79.17 3 95.77 90.61 4 89.27 77.68 5 96.34 84.76 6 89.11 91.94 7 85.89 79.44 8 85.11 86.38 9 77.37 71.60 Overall 88.72 83.96 Hình 7: Kết quả phân lớp ảnh So sánh kết quả cho thấy được MC-SGD phân lớp chính xác hơn SVM-RBF. MC-SGD cho kết quả tốt nhất 8 trong 10 lớp dữ lệu ảnh và cho độ chính xác tổng thể cao hơn gần 5% so vớ SVM- RBF. Hơn nữa, MC-SGD chỉ mất thờ gan huấn luyện là 2.20 gây trong kh SVM-RBF cần đến 111.67 gây, hay nó cách khác MC-SGD nhanh hơn SVM-RBF 50 lần. 6
Vớ các kết quả phân lớp này, chúng tô tn rằng gả thuật MC-SGD cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh bằng mô hình tú từ và đặc trưng không đổ SIFT. 5 KẾT LUẬN VÀ ĐỀ XUẤT Ý tưởng của vệc tăng chều trong bểu dễn ảnh bằng mô hình tú từ để có thể phân lớp đơn gản bằng mô hình tuyến tính mà không cần đến mô hình ph tuyến là tếp cận rất hệu quả. Kh số chều dữ lệu là nhỏ, chúng ta cần đến mô hình ph tuyến để gả quyết tốt vấn đề phân lớp. Tuy nhên, huấn luyện mô hình ph tuyến có độ phức tạp rất cao so vớ mô hình tuyến tính. Nhưng ngược lạ, mô hình tuyến tính thì chỉ làm vệc tốt trên tập dữ lệu có số chều lớn. Chính vì lý do đó, tăng số chều bểu dễn ảnh bằng mô hình tú từ để có thể sử dụng mô hình phân lớp tuyến tính là ý tưởng tuyệt vờ cho cả độ chính xác và thờ gan huấn luyện mô hình. Chúng tô đã đề xuất gả thuật phân lớp tuyến tính đa lớp, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu thực cho thấy gả thuật MC-SGD phân lớp nhanh, chính xác hơn kh so sánh vớ gả thuật máy học véc tơ hỗ trợ (Support Vector Machnes - SVM) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). Chúng tô cũng vừa phát trển gả thuật MC- SGD song song cho phép tăng tốc quá trình thực th trên máy tính có nhều bộ xử lý, nhóm hay lướ máy tính. Trong tương la gần, chúng tô sử dụng gả thuật MC-SGD song song để thực hện phân lớp tập dữ lệu thử thách ImageNet-2012 có hơn 1 trệu ảnh, 1000 lớp khác nhau. Bên cạnh đó, chúng tô cũng muốn chúng tô dự định ứng dụng phương pháp đề xuất vào vấn đề phân lớp ảnh, văn bản, vdeo. TÀI LIỆU THAM KHẢO 1. Bosch, A., Zsserman, A., Munoz, X.: Scene classfcaton va plsa. In: Proceedngs of the European Conference on Computer Vson, pp. 517 530 (2006). 2. Bottou, L., Bousquet, O.: The tradeoffs of large scale learnng. In Advances n Neural Informaton Processng Systems (20):161-168 (2008). 3. Chang, C.C., Ln, C.J.: LIBSVM a lbrary for support vector machnes (2001). http://www.cse.ntu.edu.tw/~cjln/lbsvm 4. Deng, J., Berg, A., Satheesh, S., Su, H., Khosla, A., L, F-F.: Large Scale Vsual Recognton Challenge. (2012). 5. Guermeur, Y.: Svm multclasses, théore et applcatons. Thèse HDR (2007) 6. Krebel, U.: Parwse classfcaton and support vector machnes. Advances n Kernel Methods: Support Vector Learnng pp. 255-268 (1999). 7. LeCun, Y., Bottou, L., Bengo, Y., Haffner, P: Gradent-based learnng appled to document recognton. In Proceedngs of the IEEE, 1998, pp. 2278 2324. 8. Lowe, D.: Dstnctve mage features from scale nvarant keyponts. Internatonal Journal of Computer Vson pp. 91 110 (2004). 9. MacQueen, J.: Some methods for classfcaton and analyss of multvarate observatons. Proceedngs of 5th Berkeley Symposum on Mathematcal Statstcs and Probablty, Berkeley, Unversty of Calforna Press Vol.1, pp. 281-297 (1967). 10. Mangasaran O.L.: Mathematcal Programmng for Support Vector Machnes. INRIA Rocquencourt, France July 17 (2001). 11. Mkolajczyk, K., Schmd, C.: Scale and affne nvarant nterest pont detectors. Internatonal Journal of Computer Vson 60(1), 63 86 (2004). 12. Platt J.: Sequental Mnmal Optmzaton: A Fast Algorthm for Tranng Support Vector Machnes. Mcrosoft Research Techncal Report MSR-TR-98-14 (1998) 13. Qunlan, J.R.: C4.5: Programs for Machne Learnng. Morgan Kaufmann, San Mateo, CA (1993). 14. Sanchez, J., Perronnn, F.: Hghdmensonal sgnature compresson for large scale mage classfcaton. In IEEE Conference on Computer Vson and Pattern Recognton pp. 1665-1672 (2011). 15. Vapnk, V.: The Nature of Statstcal Learnng Theory. Sprnger-Verlag (1995). 16. Vola, P.A., Jones, M.J.: Rapd object detecton usng a boosted cascade of smple features. In IEEE Conference on Computer Vson and Pattern Recognton pp. 511-518 (2001). 17. Zheng, H., Daoud, M.: Blockng adult mages based on statstcal skn detecton. Electronc Letters on Computer Vson and Image Analyss 4(2):1-14 (2004). 7