Trang chủ Trang chủ

VISUAL UNDERSTANDING

Ngày đăng 22/10/2019

Course description

This course aims to provide learners with state-of-the-art (SOTA) Deep Learning architectures, models, and algorithms for Visual Understanding such as Visual Question Answering (VQA), Image Captioning, Optical Character Recognition (OCR), etc. Such visual understanding tasks require integration of multimodality (e.g., text and images) and reasoning capabilities with different computer vision (CV) tasks such as Detection, Recognition, Localization, Tracking.

Through many projects during the course learners will be able to use important Deep Learning models for CV such as VGG, Inception, U-Net/CheXNet/MRNet (for medical image domain); ResNet, DenseNet, YOLO (for fast object detection, segmentation & recognition); MobileNet, ShuffleNet, EffNet for mobile phones.

The course will also cover advanced Deep Learning techniques such as Generative Adversarial Networks (GANs) and Variational Autoencoder (VAE) for data generation; network distillation/pruning techniques for edge devices; meta/transfer/few-shot learning, domain adaptation, and multitask/auxiliary task/multimodal learning for data efficiency; dropout, weight initialization schemes, evolutionary search, BayesOpt, etc., for better search/training.

Some Visual Understanding Sub-topics

  • Image: Registration, Stereo Matching, Reconstruction, Restoration, Generation, Inpainting, Sketching, Deconvolution, Super Resolution, Compression, Denoising, Deblurring, Colorization, Recognition/Classification, Captioning, Search/Retrieval, Quality Assessment, Style Transfer, Text Effect Transfer; Texture Generation.
  • Object: Detection, Recognition, Localization, Tracking.
  • Scene: Parsing, Text Detection, Semantic Segmentation, Instance Segmentation, (3D) Analysis, Understanding.
  • Video: Captioning, Summarization, Search/Retrieval, Classification, Tracking, Prediction.
  • Face: Modeling & Recognition, Emotion Classification (Affective Computing), Eye/Gaze/Head Tracking, Saliency Prediction.
  • Behavior: Activity/Gesture Recognition, Action Detection, Crowd Analysis (Multi-Person Pose Estimation & Tracking), Person Re-Identification, Anomaly Detection; Hand (Recognition, Estimation, Segmentation, Localization, Tracking).
  • 3D: Estimation (Pose, Depth), Modeling, Reconstruction, Classification, Generation (Computer Vision – Computer Graphics).
  • Settings: Multivew, Multicamera, Multimodal, Zero/Few-Shot Learning (Image/Video).
  • Integration in specialized applications: OCR, VQA, Autonomous Vehicles, Continuous Control (Steering, Racing), Robot Navigation, Visual SLAM, Medical Imaging, Augmented Reality.

Target Audiances

  • Students
  • Working Professionals
  • Science/Technology Diploma or Graduates

Course Pre-requisites

Students should be familiar with/ be equipted with:

  • Programming (Python) (*)
  • Linear Algebra, Calculus and Optimization (*)
  • Logical and critical thinking (*)
  • AI Practitioner course (by VTC Academy)

(*) Entrance test required

Course outline

 Session Content
1 Morphological image processing
2 Linear image processing and filtering
3 Lab lecture
 Session Content
4 Edge detection and keypoint detection
5 Feature-based methods for image matching
6 Lab lecture
Session Content
7 Image enhancing: denoising and colorization
8 Image enhancing: super-resolution
9 Lab lecture
Session Content
10 Object detection: R-CNN family and two-stage detection
11 Object detection track: YOLO, SSD, and one-stage detection
12 Lab lecture
Session Content
13 Semantic segmentation track: UNet and FCN
14 Semantic segmentation track: PSPNet and Deeplab
15 Lab lecture
Session Content
16 More on object detection: object tracking
17 More on semantic segmentation: image matting
18 Lab lecture

 

Session Content
19 Human face: detection and alignment
20 Human face: recognition
21 Face recognition system: overall pipeline. Lab lecture

 

Session Content
22 Face recognition system: computation parallelization
23 Face recognition system: data organization
24 Lab lecture

 

Session Content
25 Start mid-term project. Lab instruction and guest lecture
26 Lab instruction and guest lecture
27 Lab instruction and guest lecture

 

Session Content
28 Lab instruction and guest lecture
29 Lab instruction and guest lecture
30 Lab instruction and guest lecture. End mid-term project

 

Session Content
31 OCR: data preprocessing
32 OCR: detection and recognition
33 OCR: text alignment

 

Session Content
34 OCR: overall pipeline
35 OCR: advanced techniques
36 Lab lecture
Session Content
37 Medical image segmentation: UNet and its variations
38 Visual image searching: Autoencoder framework
39 Start final-term project. Lab lecture
Session Content
40 Encoder-decoder captioning framework and graph convolution networks (GCNs)
41 Image / video captioning: Neural Baby Talk and Grounded video captioning
42 Lab lecture
Session Content
43 Neural Turing machine and related topics
44 Image / video question answering: FiLMs and MAC Networks
45 Lab lecture
Session Content
46 Lab instruction and guest lecture
47 Lab instruction and guest lecture
48 End final-term project. Course review and closing

Course Execution

  •  144 Hours, 16 Weeks, 3 sessions/week, 3 hours/session
  •  Blended-Learning

Learning outcomes (Exit Competencies)

Upon completing this course, student should be able to:

  • Understand systematically the development of many models, algorithms and ideas in Deep Learning for computer vision.
  • Work with multimodal data including images, video, audio, and language (text).
  • Apply reasoning tools into building deep neural networks for visual understanding.
  • Optimize and customize ML models according to target deployment (e.g., on cloud, web, mobile, edge devides).
  • Formulate new problems from real applications; design solution approaches using state-of-the-art algorithms; implement data collection, preprocessing and labeling; train, deploy, evaluate and update ML models.
Sự kiện mới nhất
Sự kiện “Open Day 2020: Hiểu đúng ngành, Chọn đúng nghề” tại TP.HCM

Sự kiện “Open Day 2020: Hiểu đúng ngành, Chọn đúng nghề” tại TP.HCM

Thời gian: 08:00 - 12:00 Chủ nhật, 20/09/2020
TP. Hồ Chí Minh
Miễn phí
Sự kiện “Open Day: Công nghệ, Sáng tạo & Tương lai” tại TP.HCM

Sự kiện “Open Day: Công nghệ, Sáng tạo & Tương lai” tại TP.HCM

Thời gian: 08:00 - 12:00 Chủ nhật, 13/09/2020
TP. Hồ Chí Minh
Miễn phí
Sự kiện “Open Day: Công nghệ, Sáng tạo và Tương lai” tại Hà Nội

Sự kiện “Open Day: Công nghệ, Sáng tạo và Tương lai” tại Hà Nội

Thời gian: 08:00 - 12:00 Thứ bảy, 12/09/2020
Hà Nội
Miễn phí
Tin tức khác
“Thay đổi cả thế giới” với kỹ thuật đồ họa trong làm phim CG

“Thay đổi cả thế giới” với kỹ thuật đồ họa trong làm phim CG

Ngày đăng 19/11/2018
Kỹ thuật đồ hoạ vi tính hiện đang là một ngành mới, rất phát triển trên thị trường do nhu cầu tuyển dụng lớn. Người lao động có thể làm việc tại các công ty giải trí hoặc tự mở ra các studio đồ hoạ của riêng mình. Bởi vậy, hiện nay có rất nhiều bạn học sinh phổ thông đã mạnh dạn học ngành này tại các trung tâm dạy nghề thay vì đăng ký thi cao đẳng, đại học như trước đây.
4 lý do nhất định phải tham gia Open Day 2019 của VTC Academy

4 lý do nhất định phải tham gia Open Day 2019 của VTC Academy

Ngày đăng 10/07/2019
Là sự kiện lớn nhất của VTC Academy Hà Nội trong tháng 7, talkshow Open Day chủ đề “Chọn đúng ngành – Vững tương lai” đang thu hút đông đảo sự chú ý của các bạn trẻ nhờ loạt lý do cực hấp dẫn dưới đây.
VTC Academy tổ chức lễ tốt nghiệp lớp AI Practitioner tại Hà Nội

VTC Academy tổ chức lễ tốt nghiệp lớp AI Practitioner tại Hà Nội

Ngày đăng 17/08/2020
Sau buổi lễ trao chứng chỉ tốt nghiệp cho các học viên lớp AI Practitioner ngày 05/08/2020 tại VTC Academy TP.HCM, mới đây, VTC Academy vừa tổ chức lễ trao chứng chỉ tốt nghiệp tiếp theo cho 18 học viên lớp AI Practitioner tại Hà Nội vào ngày 14/08/2020. Đây là lớp học đầu tiên thuộc hệ thống khóa học AI Fullstack Development của VTC Academy với ba cấp độ từ cơ bản đến chuyên sâu: AI Practitioner (cấp độ 1), AI Specialist (cấp độ 2, bao gồm ba phân ngành Visual Understanding, Language Understanding, Decision Making) và AI Fullstack Engineer (cấp độ 3).
Liên hệ với VTC Academy