음성 인식에서의 에어로-촉각 적 통합 | 자연

음성 인식에서의 에어로-촉각 적 통합 | 자연

Anonim

추상

화자의 얼굴로부터의 시각 정보는 1 을 향상 시키거나 2 개의 정확한 청각 인식을 방해 할 수있다. 청각 및 시각 스트림에 걸친 이러한 정보의 통합은 기능적 영상 연구 3, 4 에서 관찰되었으며, 일반적으로 지각자들이 이들 두 양식으로부터 이벤트 특정 정보를 함께 만나는 빈도 및 견고성에 기인한다. 촉각 양식을 추가하는 것은 오랫동안 다중 감각 통합을 이해하는 데 중요한 다음 단계로 간주되어 왔습니다. 그러나, 이전의 연구는 촉각 입력이 한정된 상황에서만, 음성 인식에 영향을 미치는 것으로 나타 났는데, 이는 인식자가 작업 6, 7 을 인식했거나 교차 모달 매핑을 설정하기 위해 훈련을받은 8, 9, 10 입니다. 여기 우리는 인식자가 이전 훈련없이 청각 언어 인식 동안 자연 촉각 정보를 통합한다는 것을 보여줍니다. 일부 발성 음이 작은 흡인 (영어 'p') 11을 생성한다는 관찰 결과를 바탕으로, 우리는 오른손 또는 목의 두 위치 중 하나에서 참가자의 피부에 약간의 들리지 않는 에어 퍼프를 적용했습니다. 피부 에어 퍼프와 동시에 듣는 음절은 흡인되는 것으로 들릴 가능성이 더 높습니다 (예 : 참가자가 'b'를 'p'로 오해하게 함). 이 결과는 지각자가 시각 정보와 거의 같은 방식으로 청각 지각에 사건 관련 촉각 정보를 통합한다는 것을 보여줍니다.

본관

많은 언어들이 기본적인 어휘 대조를 전달하기 위해 공기의 배출 또는 '포부'를 사용합니다 12 . 영어 사용자는이 메커니즘을 사용하여 'pa'및 'ta'와 같은 흡기 된 소리를 'ba'및 'da'와 같은 흡기되지 않은 소리와 구별합니다. 모발 여포 기계 수용기 ( 14) 뿐만 아니라 4 개의 인간 피부 기계 수용기 ( 13 )는 공기 퍼프에 반응한다. 공기 역학적으로, 퍼프는 흡기 된 스피치 사운드 ( 17) 에서 생성 된 과도 압력 패턴의 전형적인, 비교적 높은 초기 압력 ( 15, 16 )을 갖는 짧은 난류의 기류로 특징 지워진다.

우리는 영어 (남성) 원어민의 음절 'pa', 'ba', 'ta'및 'da'각각의 음절 8 개를 녹음하여 청각 자극을 만들었습니다. 90Hz에서 70Hz로 떨어지는 음높이 및 강도 (70 데시벨 (10-5Wm- 2 )로 정규화 됨) 참가자는 음순 자음 ( 'pa'및 'ba') 만 포함하는 두 개의 별도 블록에서 음절을 들었습니다. 폐포 자음 ( 'ta'및 'da') 만 포함하는 기타 각 블록에있는 16 개의 고유 한 토큰은 청각 전용 컨트롤로 2 번, 촉각 적 자극으로 2 번 쌍을 이루며 각각 4 번씩 들렸습니다. 토큰 식별의 전체 정확도를 낮추고 상당한 모호성을 생성하기위한 양으로 실제 정확도는 보충 표 1–3에 문서화되어 있습니다.

우리는 공기 압축기에 부착 된 솔레노이드 밸브를 사용하여 압력 프로파일 (일시적 경계 조건), 고주파 소음, 저주파 '팝'지속 시간 및 자연 스피어 흡인 모음의 시간에 대한 시간적 관계를 재현하도록 설계된 작은 공기 퍼프를 합성했습니다.

우리의 첫 번째 실험에서, 에어 퍼프는 오른쪽 엄지와 집게 손가락 사이의 등쪽 표면에 평방 인치당 6 파운드 (psi; 6 psi ≈ 421.84 g cm-¼ 인치 (0.635-cm) 비닐 튜브를 통해 피부에 피부로 도포되었습니다. 2 ) 피부 표면에서 8cm로 고정합니다. 손등은 촉각 감도가 높기 때문에 선택되었으며, 이는 공기 흐름을 포함한 촉각 자극이 원숭이 ( 19) 에서 일부 2 단계 청각 피질 뉴런의 비특이적 활성화를 유도하는 것으로 관찰 된 위치이기 때문에 선택되었다.

우리는 참가자들이 연설 중에 자신의 목소리를 듣고 자신의 숨소리를 느끼는 것에서 말소리와 결합 된 에어 퍼프에 대해 이전에 상당한 경험을 가지고 있다고 생각했습니다. 잦은 자기 경험이없는 신체 부위에서도 상호 작용이 지속 될지 여부를 결정하기 위해, 우리는 초강력 노치에서 목 중앙에 에어 퍼프를 적용하는 두 번째 실험을 설계했습니다. 그들 자신의 언어 제작 (적어도 드물게도 대화자들이 피부에 대담 자의 흡인 공기를 느끼는 경우도 있지만) 손 실험에서와 같이, 에어 퍼프는 피부 표면으로부터 8cm로 고정 된 6psi에서 ¼ 인치 비닐 튜브를 통해 전달되었다.

손과 목의 시련 외에도 '청각 전용'실험은 공기 퍼프의 전달이 참가자에게 들리지 않도록 설계되었습니다. 이 시험에서 ¼ 인치 튜브는 5cm 거리와 6psi의 압력에서 참가자의 오른쪽 헤드폰 바로 옆에 배치되었으며, 접선 방향으로 겨냥하여 공기 흐름이 피부 나 머리카락에 직접 느껴지지 않았습니다.

단일 스테레오 오디오 신호는 참가자가 듣는 청각 자극과 공기 밸브를 열기위한 활성화 신호를 모두 제공했습니다. 오른쪽 채널은 참가자가 착용 한 헤드폰을 통해 음성 음절을 양쪽 귀에 전달하는 반면, 왼쪽 채널은 전압을 통해 컴퓨터 사운드 카드의 최대 진폭 (약 1V)에서 50ms 10kHz 사인파를 출력하여 솔레노이드를 활성화했습니다. 릴레이에 앰프. 사인파는 시스템 대기 시간을 보정 한 후, 모음이 시작되기 50ms 전에 시작하고 모음이 시작되는 순간에 끝나는 공기 퍼프가 튜브를 빠져 나와 자연스럽게 생성 된 영어 흡음 자음의 타이밍을 시뮬레이션하도록 음성 신호와 시간 정렬되었습니다. .

모든 실험에서 남성 및 여성 참가자를 시험 하였다. 실험 전에 참가자들은 배경 소음과 예기치 않은 공기 퍼프를 경험할 수 있다고 들었습니다. 참가자들은 방음 부스에 앉았고, 순도 블록에서 'pa'또는 'ba', 폐포 블록에서 'ta'또는 'da'를들을 수 있는지 버튼을 눌러 확인하도록 요청했습니다. 그런 다음 참가자들은 눈을 가리고 방음 헤드폰을 통해 청각 자극을 받았습니다. 촉각 자극을 전달하기위한 장비 설정은 참가자들이 에어 퍼프의 신체 위치를 감추기 위해 눈을 가린 후에 완료되었습니다.

혼합 설계 반복-분산 분석은 3 개의 실험 (손, 목 및 청각)에 의해 2 개의 관절 위치 (순수 및 폐포)에 의한 2 개의 기류 조건 (흡입 및 비 흡입)에 의해 2 개의 자음 흡인 조건 (흡기 및 비 흡인)으로 수행되었습니다. 만). 결과는 흡인의 약한 주 효과 ( F (1, 63) = 5.426, P = 0.023)를 나타 냈습니다 (즉, 모든 실험에서 호흡되지 않은 정지를 약간 더 쉽게 식별 한 인식 자) 및 장소 ( F (1, 63) = 6.714, P = 0.012) (즉, 지각자들은 순정 정지 점에 비해 약간 더 정확한 식별 폐포) 및 흡인 × 기류의 강력한 주 효과 ( F (1, 63) = 26.095, P <0.001) (공기 흐름은 비 흡기 및 흡기 정지의 인식을 유발 더 자주 흡입) 및 흡기 × 기류 × 실험 ( F (2, 63) = 7.600, P = 0.001) (즉, 목과 손 실험에 적용된 기류의 영향, 그러나 청각 전용 실험에는 적용되지 않음) . 기류 또는 기류와 실험 사이의 상호 작용의 주요 영향은 없었습니다 (즉, 기류의 적용은 자극의 전반적인 인식 정확도에 영향을 미치지 않습니다). 다른 중요한 영향은 관찰되지 않았습니다.

손과 목 실험에서 흡인과 기류 사이에 유의 한 상호 작용이 있었지만 청각 전용 실험은 아닌지 확인하기 위해 반복되는 흡인 요인 (흡기 대 비 흡입)과 공기 퍼프 (현재 대 결석)를 반복적으로 측정하여 분산에 대한 개별 분석을 수행했습니다. 모든 실험의 폐포 및 순면 블록 모두에 대해 수행되었다. 또한, 이들 상호 작용이 흡기 정지 인식의 증대 및 비 흡기 정지 인식과의 간섭을 입증했는지 여부를 결정하기 위해, 에어 퍼프 (현재 대 결여)를 비교하는 분산의 일방향 반복 측정 분석이 흡인 및 비 흡입 토큰에 대해 별도로 실행되었다.

손 실험에 대한 결과는 흡인의 지각과 공기 퍼프의 상호 작용이 치조 ( F (1, 21) = 17.888, P <0.001, 부분 η 2 = 46.0 %)와 순순 ( F (1, 21) = 14.785, P <0.001, 부분 η 2 = 41.3 %) 블록 (그림 1). 또한, 에어 퍼프의 존재는 흡입 된 토큰 ( 'pa'( F (1, 21) = 14.309, P = 0.001, 부분 η 2 = 40.5 %) 및 'ta'( F (1, 21))의 정확한 식별을 향상시켰다. = 8.650, P = 0.008, 부분 η 2 = 29.2 %)), 호흡되지 않은 토큰의 올바른 식별을 방해했습니다 ( 'ba'( F (1, 21) = 5.597, P = 0.028, 부분 η 2 = 21.0 %) 및 'da'( F (1, 21) = 16.979, P <0.001, 부분 η 2 = 44.7 %).

, 순음; b, 폐포.

전체 크기 이미지

  • 파워 포인트 슬라이드 다운로드

목 실험의 결과는 공기 퍼프와 흡인의 지각의 상호 작용이 치조 (F (1, 21) = 5.486, P = 0.029, 부분 η 2 = 20.7 %)와 순음 (F (1) 모두에 대해 유의 한 것으로 나타났습니다, 21) = 8.404, P = 0.009, 부분 η 2 = 28.6 %) 블록 (그림 2). 또한, 에어 퍼프의 존재는 흡입 된 토큰 ( 'pa'( F (1, 21) = 7.140, P = 0.014, 부분 η 2 = 25.4 %) 및 'ta'( F (1, 21))의 정확한 식별을 향상시켰다. = 6.020, P = 0.023, 부분 η 2 = 22.3 %)) 호흡되지 않은 토큰의 올바른 식별 ( 'ba'( F (1, 21) = 3.421, P = 0.078, 부분 η 2 =) 14.0 %) 및 'da'( F (1, 21) = 1.291, P = 0.269, 부분 η 2 = 5.8 %).

, 순음; b, 폐포.

전체 크기 이미지

  • 파워 포인트 슬라이드 다운로드

청각 전용 실험 (폐포 또는 순차 블록, F (1, 21) <1)에 대한 흡인과 에어 퍼프 사이의 중요한 상호 작용은 발견되지 않았으며, 참가자는 공기 흐름 또는 압축기 활성화를들을 수 없음을 확인했습니다 (그림 3).

, 순음; b, 폐포.

전체 크기 이미지

  • 파워 포인트 슬라이드 다운로드

우리의 연구 결과는 인간의 지각 시스템이 청각-시각적 결합에서 이전에 관찰 된 것과 거의 같은 방식으로 청각 및 촉각 양식에 걸쳐 특정의 사건 관련 정보를 통합한다는 가설을 뒷받침합니다. 이 효과는 작업에 대한 사전 교육이나 인식이없는 인식 자 및 빈번한 경험으로 효과가 강화되지 않을 수있는 신체 부위에서 발생합니다. 이 결과 연설 인식 20 20 somatosensory 시스템의 참여를 보여주는 최근 작업 보완, 연설의 신경 처리는 이전에 생각보다 더 multimodal 제안합니다. 이 논문에 사용 된 방법은 수동 오디오 촉각 및 가상 촉각 통합에 대한 미래의 기능적 영상 연구뿐만 아니라 영아 및 맹인을 포함하여 이전에 테스트되지 않은 집단의 다중 감각 인식에 대한 행동 연구를 가능하게 할 모델을 나타냅니다. 이러한 발견은 수동적 지각 동안 지각 적 향상을 설명하기 때문에, 오디오 및 통신 응용 분야에서 가능한 미래의 방향을 암시하고 청각 장애를 돕는다.

방법 요약

합성 에어 퍼프

공기 흐름 장치는 IQ 밸브 온-오프 양방향 솔레노이드 밸브 (모델 W2-NC-L8PN-S078-MB-W6.0-V110)에 연결된 3 갤런 (11.35-l) Jobmate 오일리스 공기 압축기로 구성되었습니다. )를 캠벨 Hausfeld MP513810 에어 필터에 연결하여 1/4 인치 비닐 튜빙을 통해 전달되는 음량을 줄였습니다. 튜브를 케이블 포트를 통해 방음 실로 통과시키고 마이크 붐 스탠드에 장착했습니다. 합성 퍼프 기류는 스피커의 평균 (평균) 'pa'의 60ms 음성 시작 시간과 54 초의 음성 시작 시간 범위에 근접한 평균 난기류 지속 시간이 84ms 인 튜브를 떠날 때 빠르게 난기류를 일으켰습니다. 영어 단어 발성 음성없는 (흡인) 정지의 경우 –80ms 12 . 합성 퍼프의 출력 압력은 참가자들에 의해 영향을 최소화 할 수 있도록 조정되었다. 따라서 8cm의 마이크 녹음은 스피커의 평균 'pa'의 0.096과 비교하여 합성 퍼프의 경우 0.023의 평균 최대 상대 비 차원 압력을 나타 냈습니다.

순서

총 66 명의 참가자를 대상으로 실험 실험 (손과 목)과 청각 전용 시험에 대해 22 명을 테스트했습니다. 절반은 순음 ( 'pa', 'ba') 블록을 먼저, 절반은 폐포 ( 'ta', 'da') 블록을 받았습니다. 각 블록 내에서 참가자는 12 개의 연습용 토큰 (에어 퍼프가있는 6 개 및 6 개)에 이어 각 조건에 대해 16 개의 실험용 토큰 (흡기 대 비 호흡, 퍼프 대 비 퍼프, 무작위)이 총 블록 당 총 64 개의 실험 토큰을 들었습니다. Java 1.6으로 작성된 사용자 정의 컴퓨터 프로그램은 사용자 정의 키패드에서 응답을 기록하고 각 응답 후 1, 500ms 후에 새 토큰을 제시했습니다. 참가자 중 절반은 왼쪽 버튼을 눌러 흡인 반응을 나타내고 절반은 오른쪽 버튼을 눌렀습니다.

추가 정보

PDF 파일

  1. 1.

    추가 정보

    이 파일에는 보충 방법, 보충 그림 1 및 범례 및 보충 표 1-3이 포함되어 있습니다.

코멘트

의견을 제출하면 이용 약관 및 커뮤니티 지침을 준수하는 데 동의하는 것입니다. 욕설이 있거나 Google의 약관 또는 가이드 라인을 준수하지 않는 내용이 있으면 부적절한 것으로 표시하십시오.