2. The Dataset
- 256*256으로 나누기 위해 다운 샘플링 => 모델에서 원래 해상도를 맞춰줘야 하는가?
3. The Architecture
3.1. ReLU Nonlinearity
- Relu를 사용한 이유. 속도가 빠르다. 큰 데이터 셋에 대하여 빠른 속도가 큰 영향을 미친다.
- Non-saturating nonlinearity : 어떤 입력 x가 무한대로 갈 때 함수의 값이 무한대로 가는 것 e.g.) ReLU

- saturating nonlinearity : 어떤 입력 x가 무한대로 갈 때 함수의 값이 어떤 범위 내에서만 움직이는 것 e.g.) sigmoid


Saturating Nonlinearity가 non-Saturating Nonlinearity보다 느리다. (sigmoid, tanh가 ReLU보다 느리다.)
요약 : ReLU를 사용한 이유를 설명함
3.2. Training on Multiple GPUs
- GPU communicate only in certain layers
- This means that, for example, the kernels of layer 3 take input from all kernel maps in layer 2. However, kernels in layer 4 take input only from those kernel maps in layer 3 which reside on the same GPU (즉, 예를 들어 레이어 3의 커널은 레이어 2의 모든 커널 맵에서 입력을 받습니다. 그러나 레이어 4의 커널은 동일한 GPU에 있는 레이어 3의 커널 맵에서만 입력을 받습니다.) => 즉 모든 레이어가 서로 통신하지 않는다는 것 같음. 특정 레이어에서만 통신한다는 것 같음. 이를 통해 계산 가능한 양이 될 때까지 통신량을 조절한다고 함 => 이걸로 어떻게 조절이 되는건지?

- Figure2에서 보다싶이 각각의 colum은 독립적이지 않음. two-GPU net이 one-GPU net보다 학습에 시간이 덜 걸림
요악 : GPU 의 구조를 설명함
3.3. Local Response Normalization (LRN)
- back propagation을 이용하여 편미분할 때 dL/dw가 0이 되므로 w의 업데이트가 없어지는 saturation 현상이 발생 ( activation func의 단점) 뒤쪽의 Layer가 Saturation 되면 앞의 모든 Layer도 Saturation 되어 w의 업데이트가 중지된다. (출처 : https://nittaku.tistory.com/267 activation function에 대해 자세히 나와있음!)
- kernel map : feature map(커널을 입력 이미지 또는 다른 특성 맵처럼 필터를 입력에 적용한 결과)으로 추정됨
- lateral inhibition : 측면 억제는 신경생리학 용어로, 한 영역에 있는 신경 세포가 상호 간 연결되어 있을 때 한 그 자신의 축색이나 자신과 이웃 신경세포를 매개하는 중간신경세포를 통해 이웃에 있는 신경 세포를 억제하려는 경향

요약 : ReLU함수의 약점(값이 너무 커져서 학습에 방해가 되는 문제)를 막기 위해 위의 수식을 사용하여 정규화 함
3.4. Overlapping Pooling
요약 : -전통적인 방식과 다르게 overlapping pooling기법을 사용하여 overfit이 안이루어 지게 함
3.5. Overall Architecture
요약 : 전체적인 구조 설명 (참조 : https://bskyvision.com/421 )
** 잘 정리된 글 : https://daeun-computer-uneasy.tistory.com/33#recentComments
[CV] AlexNet(2012)의 구조와 논문 리뷰
오늘은 Deep한 CNN의 발전에 가장 큰 영향을 준 AlexNet(2012)에 대해 포스팅하고자 합니다. AlexNet은 2012년에 개최된 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 에서 우승을 차지한 아키텍처로, 이전
daeun-computer-uneasy.tistory.com
4. Reducing Overfitting
4.1. Data Augmentation
- label-preserving transformation : Data augmentation 기법 중 상하반전을 사용하면 6과 9를 구분할 수 없게되는데, 이런 현상이 일어나지 않도록 data augmentation을 하는 기법
- PCA
4.2. Dropout
5. Details of learning
- weight decay(L1, L2 regularization : https://light-tree.tistory.com/125 )
- Gaussian distribution
'인공지능 > 딥러닝' 카테고리의 다른 글
[딥러닝 파이토치 교과서] ResNet 용어 정리 및 코드 분석 (0) | 2023.05.30 |
---|---|
GAN: Generative Adversarial Nets 논문 리뷰 (0) | 2023.05.06 |
Transformer 공부하며 정리 (0) | 2023.02.28 |
신경망 학습의 전반적인 과정 (0) | 2022.12.27 |
코딩애플 딥러닝 강의 후기 (0) | 2022.12.19 |