티스토리 뷰

#작은 공간의 키워드 발견을 위한 CNN


##Abstract

- 연산수와 파라미터의 수를 제한했다.


##Introduction

###CNN이 DNNs보다 매력적인 이유

1. DNNs 는 입력 토폴로지를 무시한다.

입력 토폴로지 : 입력간의 관계에서 가지는 위치나 양상

말은 시간과 빈도에 따라 강한 관계를 가지기 때문에, 입력의 위치 관계가 중요하다.

2. CNNs 는 다른 시간과 주파수 지역의 hidden units을 평균을 냄으로써 더 적은 파라미터로 이동 불변성을 잡아낸다.

말하는 방식이 모두 다르기 때문에 feature variation을 줄이는 방식이 요구된다. 충분한 사이즈의 DNNs만이 이동 불변성을 잡을 수 있는데, 큰 네트워크와 많은 훈련 예제들을 요구한다. 

이동 불변성(translation invariance) 가능한 모든 위치에서 각 객체를 식별하는 것


27% 향상-> 풀링을 하지 않고 더 자주 필터를 stride 하는 CNN 아키덱처를 소개합니다. (연산 수 제한)

41% 향상-> multiple convolutional blocks 없이 speech에 효과적으로 보여진 첫번째 시간 및 주파수에서 풀링하는 방법. (파라미터 수 제한)


평가 : 시간 당 false alarm 의 작동 임계값에서 false reject rate


##DNN


##CNN (pooling in frequency)

speech 에 overlapped이 도움이 되지 않는다고 생각해 non-overlapping pooling을 사용하였다.


##Limiting Multiplies

연산 횟수를 500K 로 제한했다.


model : 1 convolutional layer - linear - dnn - dnn

time filter 가 모든 시간을 범위로 걸치게 한다.


1. 주파수에서 stride 1인 것, pooling 한다.

2. 주파수에서 pool을 하지 않는 경우(주파수 stride = 4, 8)  -> 주파수 stride 4가 가장 좋은 결과(50% 오버랩 필터)

후자의 경우 hidden unit의 수가 3-4배 증가 할 수 있었다.


->> 곱셈이 제한된 상황일 경우에는 오버랩된 필터를 사용하는 것이 효과적이다. (곱셈 제한이 없다면 자주 pooling 하는 것이 좋음)


##Limiting Parameters

250K로 파라메터의 수를 제한했다.


CNN을 향상시키기 위해서는 feature map을 증가시켜야 한다.

feature map을 늘리고, parameter 수를 제한하려면, sample을 탐색해야 한다. 

1. time에 따른 stride 조절   -> 큰 차이 없는 결과

2. time에 따른 pooling 조절    -> 좋은 결과


->> 어떤 인접한 프레임을 필터링할 것인지 선택하는 것보다(stride), 서브 샘플링 전에 인접한 프레임 간의 관계를 모델링하는 것(pooling)이 더 효과적이다.


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
링크
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함