Convolution Neural Networks for Small-footprint Keyword Spotting

티스토리 뷰

카테고리 없음

익명132 2017. 12. 5. 09:38

#작은 공간의 키워드 발견을 위한 CNN

##Abstract

- 연산수와 파라미터의 수를 제한했다.

##Introduction

###CNN이 DNNs보다 매력적인 이유

1. DNNs 는 입력 토폴로지를 무시한다.

입력 토폴로지 : 입력간의 관계에서 가지는 위치나 양상

말은 시간과 빈도에 따라 강한 관계를 가지기 때문에, 입력의 위치 관계가 중요하다.

2. CNNs 는 다른 시간과 주파수 지역의 hidden units을 평균을 냄으로써 더 적은 파라미터로 이동 불변성을 잡아낸다.

말하는 방식이 모두 다르기 때문에 feature variation을 줄이는 방식이 요구된다. 충분한 사이즈의 DNNs만이 이동 불변성을 잡을 수 있는데, 큰 네트워크와 많은 훈련 예제들을 요구한다.

이동 불변성(translation invariance) 가능한 모든 위치에서 각 객체를 식별하는 것

27% 향상-> 풀링을 하지 않고 더 자주 필터를 stride 하는 CNN 아키덱처를 소개합니다. (연산 수 제한)

41% 향상-> multiple convolutional blocks 없이 speech에 효과적으로 보여진 첫번째 시간 및 주파수에서 풀링하는 방법. (파라미터 수 제한)

평가 : 시간 당 false alarm 의 작동 임계값에서 false reject rate

##DNN

##CNN (pooling in frequency)

speech 에 overlapped이 도움이 되지 않는다고 생각해 non-overlapping pooling을 사용하였다.

##Limiting Multiplies

연산 횟수를 500K 로 제한했다.

model : 1 convolutional layer - linear - dnn - dnn

time filter 가 모든 시간을 범위로 걸치게 한다.

1. 주파수에서 stride 1인 것, pooling 한다.

2. 주파수에서 pool을 하지 않는 경우(주파수 stride = 4, 8) -> 주파수 stride 4가 가장 좋은 결과(50% 오버랩 필터)

후자의 경우 hidden unit의 수가 3-4배 증가 할 수 있었다.

->> 곱셈이 제한된 상황일 경우에는 오버랩된 필터를 사용하는 것이 효과적이다. (곱셈 제한이 없다면 자주 pooling 하는 것이 좋음)

##Limiting Parameters

250K로 파라메터의 수를 제한했다.

CNN을 향상시키기 위해서는 feature map을 증가시켜야 한다.

feature map을 늘리고, parameter 수를 제한하려면, sample을 탐색해야 한다.

1. time에 따른 stride 조절 -> 큰 차이 없는 결과

2. time에 따른 pooling 조절 -> 좋은 결과

->> 어떤 인접한 프레임을 필터링할 것인지 선택하는 것보다(stride), 서브 샘플링 전에 인접한 프레임 간의 관계를 모델링하는 것(pooling)이 더 효과적이다.

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함