PHÂN LỚP ẢNH VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN ĐA LỚP

Similar documents
Lâm sàng thống kê Ước tính khoảng tin cậy 95% cho một biến số đã hoán chuyển sang đơn vị logarít

THIẾT KẾ BỔ SUNG TRONG CHỌN GIỐNG

Năm 2015 A E. Chứng minh. Cách 1.

HƯỚNG DẪN THỰC HÀNH TRÊN EVIEW 6.0. Hi vọng rằng phần HƯỚNG DẪN THỰC HÀNH TRÊN EVIEW 6.0 sẽ là một tài liệu tham khảo bổ ích cho các bạn!

Tác dụng codeine của tác dụng thuốc Efferalgan Codein thuốc Thuốc tác dụng thuốc codein tác dụng tác dụng tác dụng thước Efferalgan codein dụng tác

10/1/2012. Hạch toán Thu nhập Quốc dân

POWER POINT 2010 GIÁO TRÌNH

ĐÁNH GIÁ PROFILE VẬN TỐC GIÓ THEO CÁC TIÊU CHUẨN CỦA MỘT SỐ NƯỚC

PHÂN TÍCH THỐNG KÊ SỬ DỤNG EXCEL

learn.quipper.com LUYỆN THI THPT - QG

CHẤN ĐOÁN, ĐIỀU TRỊ CHẤN THƯƠNG BỤNG KÍN TẠI BỆNH VIỆN QUÂN Y 103 TRONG GIAI ĐOẠN

VAI TRÒ LÀM GIẢM TÁC ĐỘNG CỦA DÒNG CHẢY, SÓNG DO RỪNG NGẬP MẶN Ở KHU VỰC VEN BỜ BÀNG LA- ĐẠI HỢP (HẢI PHÒNG)

Mô phỏng vận hành liên hồ chứa sông Ba mùa lũ bằng mô hình HEC-RESSIM

NGHIÊN CỨU SỬ DỤNG ẢNH VIỄN THÁM XÁC ĐỊNH SỰ PHÂN BỐ ĐẤT THAN BÙN Ở U MINH HẠ

Chương 14. Đồng liên kết và mô hình hiệu chỉnh sai số

ĐẶC ĐIỂM SINH TRƯỞNG VÀ SỬ DỤNG THỨC ĂN CỦA GÀ RỪNG (Gallus gallus Linnaeus, 1758) TRONG ĐIỀU KIỆN NUÔI NHỐT

XÁC ĐỊNH HÀM LƯỢNG CÁC BON TRONG CÁC BỘ PHẬN CÂY LUỒNG (Dendrocalamus barbatus Hsueh.et.E.Z.Li)

Bộ ba bất khả thi. Impossible Trinity

Đo lường các hoạt động kinh tế

The Hoi An Declaration on Urban Heritage Conservation and Development in Asia 2017

ĐÁNH GIÁ CHẤT LƯỢNG DỊCH VỤ ĐIỂM ĐẾN DU LỊCH VĂN HÓA TỈNH BẠC LIÊU

Các phương pháp định lượng Bài đọc. Chương trình Giảng dạy Kinh tế Fulbright Nin khĩa

TỶ SỐ GIỚI TÍNH KHI SINH Ở VIỆT NAM: CÁC BẰNG CHỨNG MỚI VỀ THỰC TRẠNG, XU HƯỚNG VÀ NHỮNG KHÁC BIỆT

Thực hành có sự tham gia đầy đủ của các bên liên quan. Hướng dẫn cho các thử nghiệm y sinh học dự phòng HIV

TIẾN TỚI XÂY DỰNG HỆ THỐNG MÔ HÌNH DỰ BÁO VÀ KIỂM SOÁT MÔI TRƯỜNG BIỂN ĐÔNG

Giải pháp cơ sở hạ tầng dành cho Điện toán Đám mây và Ảo hóa

Ảnh hưởng của xâm nhập lạnh sâu đến mưa ở Việt Nam

Các Phương Pháp Phân Tích Định Lượng

KHẢ NĂNG CUNG CẤP KALI VÀ SỰ ĐÁP ỨNG CỦA LÚA ĐỐI VỚI PHÂN KALI TRÊN ĐẤT THÂM CANH BA VỤ LÚA Ở CAI LẬY TIỀN GIANG VÀ CAO LÃNH ĐỒNG THÁP

Ghi chú. Công ty TNHH MTV Dầu khí TP.HCM. 27 Nguyễn Thông, Phường 7, quận 3, TP.HCM. SP Saigon Petro

The Magic of Flowers.

KHUNG THỐNG KÊ VĂN HÓA UNESCO 2009 (FCS)

Phối cảnh - Artist s impression Phối cảnh - Artist s impression Phối cảnh - Artist s impression

Cách tiếp cận quốc gia về các biện pháp đảm bảo an toàn: Hướng dẫn cho chương trình REDD+ quốc gia

Detail Offer/ Chi Tiết. Merchant/ Khách Sạn & Resorts Sofitel Legend Metropole Hanoi (Le Spa du Metropole)

THÀNH PHỐ HỒ CHÍ MINH A Nguyen Van Nghi Street, Ward 7, Go Vap District. 4 1C Nguyen Anh Thu Street, Trung My Tay Ward, District 12

NHỮNG HỆ LỤY VÀ THAY ĐỔI TRONG CUỘC CHIẾN CHỐNG BIẾN ĐỔI KHÍ HẬU CỦA THẾ GIỚI KHI MỸ RÚT KHỎI HIỆP ĐỊNH PARIS

Chương 19. Các biến giải thích ngẫu nhiên và phương pháp biến công cụ

Ý nghĩa của trị số P trong nghiên cứu y học

CHƯƠNG 1. Nhận thức của thị trường và niềm tin của nhà đầu tư: Những nhân tố làm biến động giá cổ phiếu

HỢP TÁC QUỐC TẾ TRONG LĨNH VỰC DẦU KHÍ CỦA TỔNG CÔNG TY CỔ PHẦN KHOAN VÀ DỊCH VỤ KHOAN DẦU KHÍ ( )

Thay đổi cuộc chơi: Impact 360 TM Ghi âm cho truyền thông IP & Tối ưu hóa Nhân lực (WFO) Stephen Abraham Loh Presenter

PHU LUC SUA DOI VA BO SUNG DIEU LE

LỜI CAM ĐOAN. Trương Thị Chí Bình

PHÂN TÍCH HIỆU QUẢ KỸ THUẬT CHO CÁC TRẠI NUÔI CÁ TRA THƯƠNG PHẨM TẠI ĐỒNG BẰNG SÔNG CỬU LONG

SINH KHỐI RỪNG TRÀM VƯỜN QUỐC GIA U MINH THƯỢNG, TỈNH KIÊN GIANG

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

CHƯƠNG 9: DRAWING. Hình 1-1

Sika at Work. Sika Vietnam Industrial Factory Projects in Vietnam. Các dự án Nhà máy Công nghiệp tại Việt Nam

CÔNG ƯỚC LUẬT BIỂN 1982 VÀ KHẢ NĂNG ÁP DỤNG VÀO CÁC TRANH CHẤP TẠI BIỂN ĐÔNG

Uỷ Ban Dân Tộc. Nghèo đa chiều trẻ em Việt Nam vùng dân tộc thiểu số

Terms and Conditions of 'Shopping is GREAT' cash back campaign Điều khoản và Điều kiện của Chương trình tặng tiền Mua sắm Tuyệt vời

Sự lựa chọn hợp lý. Nâng cao năng lực cho quá trình chính sách y tế dựa trên bằng chứng. Liên minh Nghiên cứu chính sách và hệ thống y tế

Pháp luật Quốc tế với vấn đề khủng bố quốc tế: một số vấn đề lý luận và thực tiễn

BÁO CÁO TỔNG KẾT 10 NĂM ( ) THỰC HIỆN VIETNAM ICT INDEX VÀ GIỚI THIỆU HỆ THỐNG CHỈ TIÊU, PHƢƠNG PHÁP TÍNH MỚI

TRỞ LẠI TƯƠNG LAI: SỰ BẤT ỔN TẠI CHÂU ÂU SAU CHIẾN TRANH LẠNH (PHẦN 1)

Hiện trạng triển khai IPv6 toàn cầu qua các con số thống kê và dự án khảo sát mức độ ứng dụng IPv6

SỬ DỤNG MẠNG NEURAL N HÂN TẠO ĐỂ DỰ ĐOÁN HỆ SỐ Z CHO KHÍ HYDROCARBON THIÊN NHIÊN

CONTENT IN THIS ISSUE

ĐẶC ĐIỂM THẠCH HỌC TRẦM TÍCH THÀNH TẠO CARBONATE TRƯỚC KAINOZOI MỎ HÀM RỒNG, ĐÔNG BẮC BỂ SÔNG HỒNG

Lý thuyết hệ thống tổng quát và phân hóa xã hội: Từ Ludwig von Bertalanffy đến Talcott Parsons

Chương 16. Dự báo kinh tế

ĐIỂM LẠI CẬP NHẬT TÌNH HÌNH PHÁT TRIỂN KINH TẾ VIỆT NAM. Public Disclosure Authorized. Public Disclosure Authorized. Public Disclosure Authorized

THU THANH VÀ SOẠN NHẠC VỚI CUBASE

Văn phòng ILO khu vực Châu Á Thái Bình Dương Phòng phân tích kinh tế và xã hội khu vực (RESA) Tháng 12 năm 2014

Nghiên cứu chế tạo blend giữa polypropylene (PP) và cao su butadiene acrylonitril (NBR)

TẠP CHÍ KHOA HỌC, Đại học Huế, Số 53, 2009 BÀI TOÁN DÂY RUNG TRÊN MÔI TRƯỜNG SONG SONG TÓM TẮT

NGHIÊN CỨU PHƯƠNG PHÁP TÍNH ÁP LỰC ĐẤT PHÙ HỢP CHO TƯỜNG VÂY HỐ ĐÀO SÂU

BÁO CÁO KHẢO SÁT NHU CẦU ĐÀO TẠO HỆ THỐNG THƯ VIỆN CÔNG CỘNGVÀ ĐIỂM BƯU ĐIỆN VĂN HOÁ XÃ TẠI 3 TỈNH THÁI NGUYÊN, NGHỆ AN VÀ TRÀ VINH

MỐI TƯƠNG QUAN GIỮA TUỔI ĐỘNG MẠCH THEO THANG ĐIỂM NGUY CƠ FRAMINGHAM VÀ TỔN THƯƠNG ĐỘNG MẠCH VÀNH. ThS. BS. Đặng Trần Hùng Viện Tim TP.

MỘT SỐ ĐẶC ĐIỂM CƠ BẢN VỀ MÔI TRƯỜNG NƯỚC BIỂN ĐẢO CÔN ĐẢO PARTICULAR CHARACTERISTICS OF SEA WATER OF CON DAO ISLAND

Rèn kỹ năng đọc hiểu (1)

BỆNH LOÉT DẠ DÀY TÁ TRÀNG Ở TRẺ EM DO HELICOBACTER PYLORI TẠI BỆNH VIỆN NHI ĐỒNG 1 TỪ THÁNG 06/2013 ĐẾN THÁNG 01/2014 BS.

PHÒNG THƯƠNG MẠI VÀ CÔNG NGHIỆP VIỆT NAM ỦY BAN TƯ VẤN VỀ CHÍNH SÁCH THƯƠNG MẠI QUỐC TẾ NGHIÊN CỨU

THÀNH PHẦN LOÀI VÀ ĐẶC ĐIỂM PHÂN BỐ CỦA GIUN ĐẤT Ở VÀNH ĐAI SÔNG TIỀN

LUẬN ÁN TIẾN SĨ LỊCH SỬ

DẪN NHẬP. B. Mục Lục Thư Viện Tự Động Hóa (automated online catalog) hay Mục Lục Trực Tuyến (OPAC = Online Public Access Catalog)

BÁO CÁO NGÀNH CẢNG BIỂN

XÁC ĐỊNH TÌNH HÌNH ĐÁP ỨNG MIỄN DỊCH DỊCH THỂ VÀ CẢM NHIỄM VIRUS DẠI Ở CHÓ NUÔI TRÊN ĐỊA BÀN THÀNH PHỐ HUẾ BẰNG PHƯƠNG PHÁP HI VÀ SSDHI

và Sáng kiến Thích ứng và Uỷ ban Sông Mê Kông

Công ty Cổ phần Chứng khoán Bản Việt (VCSC)

CỘNG ĐỒNG KINH TẾ ASEAN SỔ TAY KINH DOANH

336, Nguyễn Trãi, Hà Nội, Việt Nam. Nhận bài : 16 tháng 3 năm 2012, Nhận đăng : 10 tháng 8 năm 2012

Chuyển đổi Nông nghiệp Việt Nam: Tăng giá trị, giảm đầu vào

Cần Thơ, Việt Nam Tăng cường Khả năng Thích ứng của Đô thị

THAY ĐỔI MÔ HÌNH TĂNG TRƯỞNG RENOVATION OF GROWTH MODEL

NGHIÊN CỨU KẾT QUẢ ĐIỀU TRỊ UNG THƯ BIỂU MÔ TẾ BÀO GAN BẰNG PHƯƠNG PHÁP TẮC MẠCH HÓA CHẤT SỬ DỤNG HẠT VI CẦU DC BEADS

NGHIÊN CỨU XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ TÁC ĐỘNG CỦA BIẾN ĐỔI KHÍ HẬU ĐẾN MỘT SỐ LĨNH VỰC KINH TẾ - XÃ HỘI CHO THÀNH PHỐ ĐÀ NẴNG

PHỨC HỆ TẦNG CHỨA PALEOGEN - CÁC YẾU TỐ ĐỊA CHẤT TÁC ĐỘNG ĐẾN CHẤT LƯỢNG THẤM CHỨA VÀ TIỀM NĂNG HYDROCARBON

Bài 5 Chiến lược Sản phẩm Quốc tế

Tư liệu về giám sát rạn san hô từ năm 2000 trên 10 vùng rạn và một số khảo

ARCGIS ONLINE FOR ORGANIZATION

Lồng ghép các mối liên hệ giữa đói nghèo môi trường với quy hoạch phát triển: Sách hướng dẫn người thực hiện

Phát triển của Việt Nam trong mối quan hệ thương mại với Trung Quốc: cần làm gì?

HƯỚNG DẪN SỬ DỤNG MICROSOFT EXCEL THỰC HÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN

THÚC ĐẨY CHUYỂN DỊCH NĂNG LƯỢNG TÁI TẠO TOÀN CẦU

VẤN ĐỀ KINH TẾ CHÍNH TRỊ TRONG THƯƠNG MẠI QUỐC TẾ

Từ xói lở đến bồi lắng

CTCP Dược Hậu Giang (HOSE: DHG)

11 Phân tích phương sai (Analysis of variance)

Transcription:

PHÂN LỚP ẢNH VỚI GIẢI THUẬT GIẢM GRADIENT NGẪU NHIÊN ĐA LỚP Đỗ Thanh Nghị 1 và Phạm Nguyên Khang 1 1 Khoa Công nghệ Thông tn & Truyền thông, Trường Đạ học Cần Thơ Thông tn chung: Ngày nhận: 17/04/2013 Ngày chấp nhận: 24/12/2013 Ttle: Classfyng mages wth multclass stochastc gradent descent algorthm Từ khóa: Bểu dễn đặc trưng không đổ SIFT, Mô hình tú từ BoVW, Máy học véc tơ hỗ trợ SVM, Phương pháp gảm gradent ngẫu nhên SGD Keywords: Scale-Invarant Feature Transform - SIFT, Bag-of- Words - BoW, Support Vector Machnes - SVM, Stochastc Gradent Descent - SGD ABSTRACT In ths paper, we present a new algorthm, MC-SGD (Multclass Stochastc Gradent Descent), to effectvely classfy multclass mages. The representaton of the mages s based on the bag-of-words (BoW), whch s constructed from the local descrptors (the Scale-Invarant Feature Transform method SIFT). The pre-processng step brngs out datasets wth a very large number of dmensons. We propose a new algorthm called MC-SGD that s suted for classfyng very-hgh-dmensonal datasets. The numercal test results on a real dataset showed that our algorthm MC-SGD outperforms Support Vector Machnes (SVM) usng non-lnear kernel functons (Radal Bass Functon - RBF). TÓM TẮT Trong bà này, chúng tô trình bày gả thuật mớ, gảm gradent ngẫu nhên (Multclass Stochastc Gradent Descent - MC-SGD), cho phân lớp hệu quả dữ lệu ảnh đa lớp. Tập dữ lệu ảnh bểu dễn ảnh bằng mô hình tú từ (Bag-of-Words - BoW) sử dụng các nét đặc trưng không đổ vớ những bến đổ tỉ lệ (Scale-Invarant Feature Transform - SIFT), dựa trên đặc trưng cục bộ, không bị thay đổ trước những bến đổ tỉ lệ ảnh, tịnh tến, phép quay, không bị thay đổ một phần đố vớ phép bến đổ hình học affne (thay đổ góc nhìn) và mạnh vớ những thay đổ về độ sáng, sự nhễu và che khuất. Chúng tô đề nghị một gả thuật phân lớp đa lớp mớ, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu thực cho thấy gả thuật MC-SGD phân lớp nhanh, chính xác hơn kh so sánh vớ gả thuật máy học véc tơ hỗ trợ (Support Vector Machnes - SVM) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). 1 GIỚI THIỆU Phân lớp ảnh là gán nhãn tự động cho từng ảnh theo chủ đề đã được định nghĩa trước dựa vào nộ dung của ảnh. Phân lớp ảnh có nhều ứng dụng trong thực tế như nhận dạng chữ số trên ch phếu ngân hàng, mã số trên bì thư của dịch vụ bưu chính, hay các chữ số trên các bểu mẫu nó chung, đặc bệt là tổ chức nộ dung trang web một cách tự động bằng cách đánh nhãn tự động ảnh. Hệ thống phân lớp ảnh thường bao gồm ha bước: rút trích đặc trưng từ nộ dung ảnh và huấn luyện mô hình máy học để gán nhãn tự động từ các đặc trưng này. Hệu quả của hệ thống phân lớp phụ thuộc vào các phương pháp sử dụng ở ha ga đoạn trên. Các nghên cứu trước đây (LeCun et al., 98), (Vola & Jones, 01), (Zheng & Daoud, 04) sử dụng tếp cận rút trích đặc trưng dựa trên phát hện của các đểm, màu sắc, kết cấu (texture), tổ chức 1

đồ (hstogram). Mạng nơ-ron (neural networks), máy học véc tơ hỗ trợ (support vector machnes), gả thuật boostng được huấn luyện để phân lớp ảnh. Gần đây, một hướng tếp cận của (Bosch et al., 06) dựa vào phương pháp bểu dễn ảnh bằng các nét đặc trưng không đổ vớ những bến đổ tỉ lệ SIFT (Lowe, 04) và mô hình tú từ BoW. Đặc trưng cục bộ SIFT không bị thay đổ trước những bến đổ tỉ lệ ảnh, tịnh tến, phép quay, không bị thay đổ một phần đố vớ phép bến đổ hình học affne (thay đổ góc nhìn) và mạnh vớ những thay đổ về độ sáng, sự nhễu và che khuất. Một ảnh được bểu dễn bở tập hợp tú từ được xây dựng bằng cách áp dụng một gả thuật gom nhóm lên các véc tơ mô tả cục bộ SIFT. Ga đoạn tền xử lý cho ra một tập dữ lệu vớ số chều rất lớn. Tác gả đề xuất gảm chều dữ lệu và sử dụng k láng gềng để phân lớp hệu quả ảnh. Chúng tô đề xuất sử dụng ý tưởng của phương pháp bểu dễn ảnh bằng đặc trưng không đổ SIFT và mô hình tú từ. Tuy nhên thay vì gảm chều thì chúng tô đề xuất một gả thuật học mớ, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu ảnh thực từ ImageNet (Deng et al., 12) chỉ rằng gả thuật mớ MC-SGD phân lớp nhanh, chính xác kh so sánh vớ gả thuật máy học véc tơ hỗ trợ SVM (Vapnk, 95) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). Phần tếp theo của bà vết được trình bày như sau: phần 2 trình bày ngắn gọn về bểu dễn ảnh bằng mô hình tú từ của đặc trưng cục bộ không đổ, phần 3 trình bày gả thuật phân lớp đa lớp MC-SGD. Phần 4 trình bày các kết quả thực nghệm tếp theo sau đó là kết luận và hướng phát trển. 2 BIỂU DIỄN ĐẶC TRƯNG KHÔNG ĐỔI VÀ MÔ HÌNH TÚI TỪ Bểu dễn ảnh là một bước quan trọng trong phân loạ ảnh. Bước này có ảnh hưởng rất lớn đến kết quả phân loạ cuố cùng. Trong lãnh vực phân lớp và tìm kếm ảnh, đặc trưng cục bộ SIFT (Lowe, 04) là những đểm đặc trưng, vùng đặc trưng để bểu dễn ảnh rất hệu quả, ngày càng trở nên phổ bến. Nghên cứu tên phong của (Bosch et al., 06) đề xuất hệ thống phân lớp ảnh dựa trên đặc trưng SIFT và mô hình tú từ (xuất phát từ ý tưởng phân lớp văn bản). Ga đoạn bểu dễn ảnh theo mô hình tú từ và đặc trưng không đổ SIFT bao gồm 3 bước chính: () phát hện và bểu dễn các nét đặc trưng cục bộ, () xây dựng từ đển các từ trực quan và () bểu dễn ảnh dướ dạng véc tơ tần số xuất hện các từ trực quan trong ảnh. Hình 1: Các đểm đặc trưng được phát hện bở thuật toán Hessan-Affne Ở bước đầu tên, ảnh được đưa về dạng mức xám. Các đểm đặc trưng (Hình 1) được tính trên những ảnh này bằng cách sử dụng các gả thuật phát hện đểm đặc trưng cục bộ (local feature detector) như là Harrs-Affne, Hessan-Affne (Mkolajczyk & Schmd, 04). Những đểm đặc trưng này có thể là cực trị cục bộ của phép toán DoG (Dfference of Gaussan) hoặc là cực đạ của phép toán LoG (Laplace of Gaussan). Sau đó, vùng xung quanh các đểm đặc trưng được xác định và mô tả bằng các véc tơ mô tả cục bộ. Véc tơ mô tả SIFT được đánh gá rất cao bở gớ chuyên môn trong vệc bểu dễn các vùng xung quanh đểm đặc trưng bở vì nó không đổ đố vớ những bến đổ tỉ lệ, tịnh tến, phép quay, và không đổ một phần vớ đố vớ những thay đổ về góc nhìn, đồng thờ nó cũng rất mạnh vớ những thay đổ về độ sáng, sự che khuất, nhễu. Hình 2 mnh hoạ một ví dụ của véc tơ mô tả SIFT được xây dựng từ vùng cục bộ xung quanh một đểm đặc trưng. Mỗ véc tơ mô tả là một ma trận 4x4 các tổ chức đồ. Mỗ tổ chức đồ có 8 khoảng tương ứng vớ 8 hướng. Do đó, mỗ véc tơ mô tả SIFT là một véc tơ 4x4x8=128 chều. Lúc này, mỗ ảnh được bểu dễn bở một tập các véc tơ mô tả SIFT. Bước kế tếp là thết lập các từ trực quan từ các mô tả cục bộ đã được tính ở bước trước. Thuật gả k-means (MacQueen, 67) được thực hện trên các véc tơ mô tả để phân các véc tơ SIFT thành vào các nhóm (cluster) và mỗ cluster tương ứng vớ một từ trực quan. Tập các cluster này tạo thành một từ đển. Sau cùng, mỗ véc tơ mô tả trong ảnh sẽ được gán vào cluster gần nhất (dựa vào khoảng cách mỗ véc tơ đến các tâm của các cluster đạ dện đã được định nghĩa trước đó). Tếp theo, một ảnh sẽ được bểu dễn bằng tần số của các từ trực quan trong ảnh. Hình 3 mô tả các bước tạo mô hình BoW bểu dễn các ảnh. 2

Hình 2: Đặc trưng cục bộ SIFT được tính toán từ vùng xung quanh đểm đặc bệt (vòng tròn): gradent của ảnh (trá), véc-tơ mô tả (phả) 3 THUẬT GIẢI GIẢM GRADIENT NGẪU NHIÊN (MC-SGD) Ga đoạn tền xử lý cho một tập dữ lệu vớ số chều rất lớn (ví dụ, 50000 từ trực quan vớ nhều đặc trưng đầu vào vớ mỗ đặc trưng chỉ chứa ít thông tn cho phân lớp). Gả thuật máy học véc tơ Hình 3: Tạo mô hình BoVW để bểu dễn ảnh hỗ trợ SVM (Vapnk, 95) là mô hình hệu quả và phổ bến cho vấn đề phân lớp những tập dữ lệu có số chều lớn. Xuất phát từ cà đặt hệu quả gả thuật SVM bằng phương pháp gảm gradent ngẫu nhên SGD (Bottou & Boussquet, 08), chúng tô phát trển gả thuật MC-SGD cho phân lớp đa lớp tập dữ lệu có số chều lớn này. 3

3.1 Gả thuật máy học véc tơ hỗ trợ SVM Xét ví dụ phân lớp nhị phân tuyến tính như Hình 4. Cho m phần tử x1, x2,, xm trong không gan n chều, có nhãn (lớp) của các phần tử là y1, y2,, ym có gá trị 1 hoặc -1. y = 1, nếu x thuộc lớp +1 (lớp dương, lớp chúng ta quan tâm), y = 1, nếu x thuộc lớp 1 (lớp âm hay các lớp còn lạ). SVM tìm sêu phẳng tố ưu (xác định bở véc tơ pháp tuyến w và độ lệch của sêu phẳng b) dựa trên 2 sêu phẳng hỗ trợ của 2 lớp. Các phần tử lớp +1 nằm bên phả của sêu phẳng hỗ trợ cho lớp +1, các phần tử lớp -1 nằm phía bên trá của sêu phẳng hỗ trợ cho lớp -1. Những phần tử nằm ngược phía vớ sêu phẳng hỗ trợ được co như lỗ. Khoảng cách lỗ được bểu dễn bở z 0 (vớ x nằm đúng phía của sêu phẳng hỗ trợ của nó thì khoảng cách lỗ tương ứng z = 0, còn ngược lạ thì z > 0 là khoảng cách từ đểm x đến sêu phẳng hỗ trợ tương ứng của nó). Khoảng cách gữa 2 sêu phẳng hỗ trợ được gọ là lề. Sêu phẳng tố ưu (nằm gữa 2 sêu phẳng hỗ trợ) tìm được từ 2 têu chí là cực đạ hóa lề (lề càng lớn, mô hình phân lớp càng an toàn) và cực tểu hóa lỗ. Vấn đề dẫn đến vệc gả bà toán quy hoạch toàn phương (1): mn (w, b, z) = (1/2) w 2 + c z 1 s.t. (1) y (w.x b) + z 1 z 0 (=1, 2,, m) hằng c > 0 sử dụng để chỉnh độ rộng lề và lỗ Gả bà toán quy hoạch toàn phương (1), thu được (w, b). Phân lớp phần tử x dựa vào dấu của (w.x - b). -1 z j x T.w b = -1 lề = 2/ w Hình 4: Phân lớp tuyến tính vớ máy học véctơ hỗ trợ z m x T.w b = 0 x T.w b = +1 +1 Bà toán quy hoạch toàn phương (1) được nghên cứu phổ bến trong toán tố ưu. Hện có nhều gả thuật têu bểu như LbSVM (Chang & Ln, 01), SMO (Platt, 98), Newton (Mangasaran, 01) đều có độ phức tạp bậc 2 vớ số phần tử dữ lệu. 3.2 Gả thuật gảm gradent ngẫu nhên (SGD) Một cà đặt cho gả thuật SVM của (Bottou & Boussquet, 08) dựa trên phương pháp gảm gradent ngẫu nhên, có độ phức tạp tuyến tính vớ số phần tử dữ lệu. Bằng cách thay thế z bở w, x, y (không xét độ lệch b) từ các ràng buộc vào hàm mục têu của (1), vệc tìm sêu phẳng tố ưu của SVM có thể được thực hện bở (2): m 1 mn (w, x, y) = (λ/2) w 2 +(1/m) max{0,1 y ( w. )} (2) x Phương pháp gảm gradent (GD) thực hện tố ưu vấn đề (2) bằng cách cập nhật w tạ lần lặp thứ (t+1) vớ tốc độ học t, như trong (3): m w t+1 = w t - ( t /m) ( w, x, y ) (3) 1 Phương pháp gảm gradent ngẫu nhên (SGD) thực hện đơn gản bước cập nhật w t+1 chỉ sử dụng một phần tử ngẫu nhên (x t, y t ) tạ mỗ lần lặp: w t+1 = w t - t w (w t, x t, y t ) (4) Có thể thấy rằng gả thuật SGD đơn gản, thực hện các bước lặp, mỗ bước lặp chỉ lấy 1 phần tử ngẫu nhên từ tập dữ lệu, thực hện cập nhật w thay vì phả gả bà toán quy hoạch toàn phương (1). Gả thuật SGD có độ phức tạp tuyến tính vớ số phần tử của tập dữ lệu học, phân lớp dữ lệu có số phần tử và số chều lớn rất hệu quả (Bottou & Bousquet, 08). 3.3 Gả thuật gảm gradent ngẫu nhên cho phân lớp đa lớp (MC-SGD) SGD cũng như hầu hết các gả thuật SVM đều xuất phát từ vấn đề phân lớp nhị phân (2 lớp: dương và âm). Chúng tô mở rộng gả thuật SGD để có thể gả quyết vấn đề phân lớp tập dữ lệu có c lớp (c 3) hay còn gọ là đa lớp. w t 4

Để gả quyết phân lớp tập dữ lệu đa lớp, gả thuật SVM thường dựa trên 2 phương pháp đơn gản là 1-vs-all (Vapnk, 95) và 1-vs-1 (Krebel, 99). Phương pháp 1-vs-all xây dựng c mô hình SVM nhị phân, mô hình thứ t tách lớp t (lớp dương) ra khỏ các lớp khác (âm). Phương pháp 1-vs-1 xây dựng c(c-1)/2 mô hình SVM nhị phân, mỗ mô hình tách một cặp 2 lớp. Vệc phân lớp dựa vào bình chọn khoảng cách đến các sêu phẳng thu được từ SVM nhị phân. Như đã chỉ ra trong thực tế của phân lớp kho dữ lệu ảnh rất lớn, hàng chục ngàn lớp (Sanchez & Perronnn, 11), (Deng et al., 12), 1-vs-all thì đơn gản cho kết quả tốt cho vấn đề phân lớp ảnh. Tuy nhên, kh áp dụng 1-vs-all vào trong SGD để gả quyết vấn đề đa lớp, chúng ta lạ gặp một khó khăn lớn, huấn luyện các SGD nhị phân trên tập dữ lệu mất cân bằng. Gả sử tập dữ lệu chúng ta có 100 lớp, thì kh sử dụng 1-vs-all, mô hình SGD thứ t tách lớp t (lớp dương chỉ chếm khoảng 1%) ra khỏ các lớp khác (lớp âm chếm khoảng 99%). SGD gặp khó khăn do sự mất cân bằng. SGD chỉ thường cập nhật w trong (4) kh lỗ xuất hện thường là phần tử thuộc lớp âm mà ít kh làm đều đó vớ lớp dương vì xác suất lấy mẫu một phần tử lớp dương khoảng 1%, trong kh lớp âm là 99%. Mặc dù đều khó khăn này xảy ra nhưng độ chính xác tổng thể vẫn là 99% trong kh không thể tách được lớp t ra khỏ các lớp khác. Để gả quyết vấn đề này, chúng tô đề xuất chến lược xây dựng balanced baggng cho từng mô hình SGD nhị phân dựa trên lấy mẫu gảm và cập nhật trọng số bất đố xứng. Huấn luyện mô hình SGD nhị phân tách lớp t (dương, thểu số) Hình 5: Phân lớp đa lớp, 1-vs-all (trá), 1-vs-1 (phả) khỏ các lớp khác (âm, đa số), cần xây dựng k mô hình cơ sở SGD như sau: Lấy mẫu gảm lớp âm sao cho số lượng phần từ lớp âm bằng vớ số phần tử của lớp dương. Sử dụng tập mẫu gảm lớp âm và dữ lệu của lớp dương làm tập huấn luyện mô hình cơ sở SGD. Huấn luyện SGD nhị phân, chú ý sử dụng công thức (4) vớ cập nhật trọng số lớn hơn kh phân lớp sa dữ lệu thuộc lớp dương (thểu số), và trọng số nhỏ hơn kh phân lớp sa dữ lệu thuộc lớp âm (đa số). Kết thúc, chúng ta tổng hợp k mô hình cơ sở SGD thu được mô hình SGD nhị phân tách lớp t từ các lớp khác. Cần chú ý rằng, balanced baggng sử dụng tập mẫu gảm của lớp âm, gúp cân bằng phân bố dữ lệu gữa 2 lớp, khả năng lấy mẫu một phần tử của lớp dương và lớp âm là gần như nhau kh tến hành cập nhật w trong (4). Hơn nữa, lấy mẫu gảm của lớp âm làm tăng khoảng cách tách lớp (dương, âm). Đều này tạo đều kện cho SGD hộ tụ vớ tốc độ nhanh hơn so vớ sử dụng tập đầy đủ. Chính vì lý do đó mà gả thuật MC-SGD sử dụng các balanced baggng có thể phân lớp hệu quả tập dữ lệu đa lớp. 4 KẾT QUẢ THỰC NGHIỆM Để tến hành đánh gá hệu quả của gả thuật MC-SGD cho phân lớp ảnh đa lớp, chúng tô đã cà đặt gả thuật MC-SGD bằng ngôn ngữ lập trình C/C++. Ngoà ra, chúng tô cũng cần so sánh MC- SGD vớ một gả thuật SVM chuẩn, được sử dụng phổ bến trong cộng đồng máy học là LbSVM (Chang & Ln, 01). Tất cả các gả thuật đều được thực hện trên một máy tính cá nhân (Intel 3GHz, 2GB RAM) chạy hệ đều hành Lnux. 5

Hình 6: Ảnh mẫu trong tập ImageNet 10 lớp Tập dữ lệu thực nghệm được lấy về từ ImageNet (Deng et al., 12). Chúng tô chọn tập gồm 6675 ảnh của 10 lớp (xem Hình 6). Chúng tô tách tập dữ lệu ra thành tập huấn luyện có 4450 ảnh và tập kểm thử có chứa 2225 ảnh. Để bểu dễn ảnh bằng mô hình tú từ trực quan, chúng tô sử dụng gả thuật phát hện đặc trưng cục bộ Hessan Affne của (Mkolajczyk & Schmd, 04) để rút trích các véc tơ mô tả SIFT. Sau đó, thực th gả thuật k-means (MacQueen, 67) để gom nhóm các véc tơ mô tả SIFT vào 50000 clusters tương ứng vớ 50000 từ trực quan. Ga đoạn tền xử lý tạo ra ha tập (bảng) dữ lệu huấn luyện, kểm thử, tương ứng vớ 4450 và 2225 phần tử, 50000 chều và 10 lớp. Chúng tô cố gắng thay đổ số clusters (từ trực quan từ 1000 đến 100000) để tìm các kết quả thực nghệm tốt nhất. Cuố cùng, chúng tô thu được độ chính xác ổn định vớ 50000 từ trực quan. Bước tền xử lý này là duy nhất cho ha gả thuật máy học mà chúng tô kểm thử trong bà vết. Chúng tô sử dụng tập huấn luyện để xây dựng mô hình MC-SGD và SVM sử dụng hàm nhân ph tuyến RBF (SVM-RBF). Đều chỉnh tham số dựa vào ngh thức kểm tra chéo (hold-out) được áp dụng trên tập huấn luyện. MC-SGD sử dụng tham số lambda = 0.1 (hằng số quy tắc, dùng đều chỉnh độ rộng lề phân hoạch), lặp 7 chu kỳ (epoch) là hộ tụ đến kết quả tốt nhất. Chúng tô cố gắng sử dụng hàm nhân RBF của SVM (hàm nhân RBF của ha 2 đểm dữ lệu x, x j là K[, j] = exp( x x j ). Gả thuật SVM sử dụng hàm nhân RBF (vớ 0.00001) và hằng số quy tắc c = 1000 (đều chỉnh độ rộng lề phân hoạch và lỗ) cho kết quả tốt nhất. Kết quả thu được trên tập kểm thử như trình bày trong Bảng 1, Hình 7. Bảng 1: Kết quả phân lớp ảnh Lớp MC-SGD (%) SVM-RBF (%) 0 99.16 93.25 1 95.73 86.59 2 79.17 79.17 3 95.77 90.61 4 89.27 77.68 5 96.34 84.76 6 89.11 91.94 7 85.89 79.44 8 85.11 86.38 9 77.37 71.60 Overall 88.72 83.96 Hình 7: Kết quả phân lớp ảnh So sánh kết quả cho thấy được MC-SGD phân lớp chính xác hơn SVM-RBF. MC-SGD cho kết quả tốt nhất 8 trong 10 lớp dữ lệu ảnh và cho độ chính xác tổng thể cao hơn gần 5% so vớ SVM- RBF. Hơn nữa, MC-SGD chỉ mất thờ gan huấn luyện là 2.20 gây trong kh SVM-RBF cần đến 111.67 gây, hay nó cách khác MC-SGD nhanh hơn SVM-RBF 50 lần. 6

Vớ các kết quả phân lớp này, chúng tô tn rằng gả thuật MC-SGD cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh bằng mô hình tú từ và đặc trưng không đổ SIFT. 5 KẾT LUẬN VÀ ĐỀ XUẤT Ý tưởng của vệc tăng chều trong bểu dễn ảnh bằng mô hình tú từ để có thể phân lớp đơn gản bằng mô hình tuyến tính mà không cần đến mô hình ph tuyến là tếp cận rất hệu quả. Kh số chều dữ lệu là nhỏ, chúng ta cần đến mô hình ph tuyến để gả quyết tốt vấn đề phân lớp. Tuy nhên, huấn luyện mô hình ph tuyến có độ phức tạp rất cao so vớ mô hình tuyến tính. Nhưng ngược lạ, mô hình tuyến tính thì chỉ làm vệc tốt trên tập dữ lệu có số chều lớn. Chính vì lý do đó, tăng số chều bểu dễn ảnh bằng mô hình tú từ để có thể sử dụng mô hình phân lớp tuyến tính là ý tưởng tuyệt vờ cho cả độ chính xác và thờ gan huấn luyện mô hình. Chúng tô đã đề xuất gả thuật phân lớp tuyến tính đa lớp, gảm gradent ngẫu nhên MC-SGD, cho phép phân lớp hệu quả dữ lệu có số chều lớn thu được từ bước bểu dễn ảnh. Kết quả thực nghệm trên tập dữ lệu thực cho thấy gả thuật MC-SGD phân lớp nhanh, chính xác hơn kh so sánh vớ gả thuật máy học véc tơ hỗ trợ (Support Vector Machnes - SVM) sử dụng hàm nhân ph tuyến (Radal Bass Functon - RBF). Chúng tô cũng vừa phát trển gả thuật MC- SGD song song cho phép tăng tốc quá trình thực th trên máy tính có nhều bộ xử lý, nhóm hay lướ máy tính. Trong tương la gần, chúng tô sử dụng gả thuật MC-SGD song song để thực hện phân lớp tập dữ lệu thử thách ImageNet-2012 có hơn 1 trệu ảnh, 1000 lớp khác nhau. Bên cạnh đó, chúng tô cũng muốn chúng tô dự định ứng dụng phương pháp đề xuất vào vấn đề phân lớp ảnh, văn bản, vdeo. TÀI LIỆU THAM KHẢO 1. Bosch, A., Zsserman, A., Munoz, X.: Scene classfcaton va plsa. In: Proceedngs of the European Conference on Computer Vson, pp. 517 530 (2006). 2. Bottou, L., Bousquet, O.: The tradeoffs of large scale learnng. In Advances n Neural Informaton Processng Systems (20):161-168 (2008). 3. Chang, C.C., Ln, C.J.: LIBSVM a lbrary for support vector machnes (2001). http://www.cse.ntu.edu.tw/~cjln/lbsvm 4. Deng, J., Berg, A., Satheesh, S., Su, H., Khosla, A., L, F-F.: Large Scale Vsual Recognton Challenge. (2012). 5. Guermeur, Y.: Svm multclasses, théore et applcatons. Thèse HDR (2007) 6. Krebel, U.: Parwse classfcaton and support vector machnes. Advances n Kernel Methods: Support Vector Learnng pp. 255-268 (1999). 7. LeCun, Y., Bottou, L., Bengo, Y., Haffner, P: Gradent-based learnng appled to document recognton. In Proceedngs of the IEEE, 1998, pp. 2278 2324. 8. Lowe, D.: Dstnctve mage features from scale nvarant keyponts. Internatonal Journal of Computer Vson pp. 91 110 (2004). 9. MacQueen, J.: Some methods for classfcaton and analyss of multvarate observatons. Proceedngs of 5th Berkeley Symposum on Mathematcal Statstcs and Probablty, Berkeley, Unversty of Calforna Press Vol.1, pp. 281-297 (1967). 10. Mangasaran O.L.: Mathematcal Programmng for Support Vector Machnes. INRIA Rocquencourt, France July 17 (2001). 11. Mkolajczyk, K., Schmd, C.: Scale and affne nvarant nterest pont detectors. Internatonal Journal of Computer Vson 60(1), 63 86 (2004). 12. Platt J.: Sequental Mnmal Optmzaton: A Fast Algorthm for Tranng Support Vector Machnes. Mcrosoft Research Techncal Report MSR-TR-98-14 (1998) 13. Qunlan, J.R.: C4.5: Programs for Machne Learnng. Morgan Kaufmann, San Mateo, CA (1993). 14. Sanchez, J., Perronnn, F.: Hghdmensonal sgnature compresson for large scale mage classfcaton. In IEEE Conference on Computer Vson and Pattern Recognton pp. 1665-1672 (2011). 15. Vapnk, V.: The Nature of Statstcal Learnng Theory. Sprnger-Verlag (1995). 16. Vola, P.A., Jones, M.J.: Rapd object detecton usng a boosted cascade of smple features. In IEEE Conference on Computer Vson and Pattern Recognton pp. 511-518 (2001). 17. Zheng, H., Daoud, M.: Blockng adult mages based on statstcal skn detecton. Electronc Letters on Computer Vson and Image Analyss 4(2):1-14 (2004). 7