HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH
KHOA VIỄN THÔNG II _______________
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC CHUYÊN NGHÀNH: ĐIỆN TỬ - VIỄN THÔNG HỆ ĐẠI HỌC CHÍNH QUY NIÊN KHOÁ: 2008-2013 Đề tài:
NGHIÊN CỨU KĨ THUẬT MÃ HOÁ TIẾNG NÓI TRONG DI ĐỘNG Mã số đề số đề tài: 12 408160072
NỘI DUNG: -
CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢ C VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ MÃ HOÁ TIẾNG NÓI CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐ NG GSM CHƢƠNG 5: MÔ PHỎ NG
Sinh viên thự c hiện:
Nguyễn Đại Hoà
MSSV:
408160072
Lớ p: p:
Đ08VTA2 Giáo viên hƣớ ng ng dẫn: Phạm Thanh Đàm
MỤC LỤC
ở Đầ ĐầU ..................... Lờ I M ở U ............................................. ............................................... ............................................... ................................................ ........................1 CHƢƠNG 1: GIỚI THIỆU SƠ LƢỢ C VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG .2 1.1 Số hoá và mã hoá tiếng nói ............................................ .................................................................... ........................................ ................2 1.2 Mã hoá kênh ............................................... ...................................................................... .............................................. .................................... .............3 1.3 Tổ chức cụm ............................................... ...................................................................... .............................................. .................................... .............4 .................................................................... ............................................... ............................................ .....................5 1.4 Ghép xen ............................................ 1.5 Mật mã hoá ............................................ .................................................................... ............................................... ........................................ .................6 1.6 Điều chế ............................................. ..................................................................... ............................................... ............................................ .....................7 CHƢƠNG 2: QUÁ TRÌNH TẠO TIẾNG NÓI............................................... ........................................................... ............9 2.1 Chu ỗi thoại ............................................ .................................................................... ............................................... ........................................ .................9 2.2 Phát âm .............................................. ...................................................................... ............................................... .......................................... ...................10 2.2.1 Kích thích ............................................ ................................................................... .............................................. .................................. ...........11 2.2.2 Vocal tract ............................................... ...................................................................... .............................................. .............................. .......12 ...................................................................... ............................................... ...................................... ...............13 2.2.3 Âm vị .............................................. 2.2.3.1 Nguyên âm ............................................... ....................................................................... .............................................. ......................13 2.2.3.2 Ph ụ âm xát ............................................... ....................................................................... .............................................. ......................15 2.2.3.3 Ph ụ âm dừng ............................................ .................................................................... .............................................. ......................17 2.2.3.4 Ph ụ âm mũi .............................................. ...................................................................... .............................................. ......................18 2.3 Dạng bộ lọc nguồn.............................................. ...................................................................... ............................................... ......................... .. 18 2.3.1 Vocal tract ............................................... ...................................................................... .............................................. .............................. .......18
2.3.2 Kích thích ............................................ ................................................................... .............................................. .................................. ...........18 2.3.3 D ạng bộ lọc nguồn tổng quát .............................................. ...................................................................... .......................... .. 19 CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ MÃ HOÁ TIẾNG NÓI .....................20 3.1 Các phƣơng pháp cơ sở mã sở mã hoá tiếng nói .............................................. ............................................................ ..............20 3.1.1 Phƣơng pháp mã hoá tiếng nói dạng d ạng sóng .............................................. .................................................... ......21 3.1.1.1 PCM (Pulse Code Modulation) .......................................... ............................................................ ..................21 3.1.1.2 DM (Delta Modulation) ............................................... ....................................................................... .......................... .. 22 3.1.1.3 DPCM (Differential PCM) .......................................... .................................................................. .......................... .. 22 3.1.1.4 ADPCM (Adaptive Differential Dif ferential PCM)-G.726 ...................................... ......................................23 3.1.2 Phƣơng pháp mã hóa tiếng nói kiu Vocoder ............................................. ............................................... .. 23 3.1.3 Phƣơng pháp mã hóa lai (Hybrid) .............................................. ................................................................ ..................24
3.1.3.1 Mã hoá phân tích AbS ............................................. ..................................................................... .............................. ......25 a, Dự đoán ngắn hạn STP (Short Term Predictor) ................................................... 26 b, Dự đoán dài hạn LTP (Long Term Predictor)...................................................... 32
Ưng dụng các phƣơng pháp cơ sở mã hóa âm thanh trong truyền thông . .......... 33 đối vơ 3.2.1 . Các yêu cầu đối ............................................33 ́ i mộ t bộ mã hóa âm thoa i ̣ ............................................
3.2.
3.2.2. Các tham số liên quan đến chất lu ơ ................................................ .. 34 ng ̣ thoa i ̣..............................................
̛ lu ...................................34 ng ̣ thoa i ̣ cơ ba ̉ n ................................... ̛̛ ̛ ơ 3.2.3.1. Phƣơng pháp đánh giá ch quan (MOS) .............................................. ..............................................35 3.2.3.2. Các phu o ng pháp đánh giá khách quan .............................................. ................................................ .. 35 ̛̛ CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐ NG GSM ..36 4.1 Các bộ mã hoá tiếng nói dự tuyn cho hệ thống GSM ........................................ ........................................36 chất 3.2.3. Các phu o ng pháp đánh giá chất
4.1.1 SBC- APCM ........................ ................................................ ................................................ ............................................... ......................... .. 36 4.1.2 SBC-ADPCM .............................................. ...................................................................... ............................................... ......................... .. 36 4.1.3 MPE-LTP ............................................ ................................................................... .............................................. .................................. ........... 36 4.1.4 RPE-LTP ............................................. .................................................................... .............................................. .................................. ........... 36 4.2 Bộ mã hoá tiếng nói RPE -LTP .............................................. ...................................................................... .............................. ......37 4.2.1 Ti ền xử lý............................................. .................................................................... .............................................. .................................. ...........37 4.2.2 Lọc phân tích STP .............................................. ...................................................................... .......................................... ..................39 4.2.3 Lọc phân tích LTP .............................................. ...................................................................... .......................................... ..................41
4.2.4 Tính toán RPE ............................................. ..................................................................... ............................................... ......................... .. 43 4.3Bộ giải mã tiếng nói RPE -LTP............................................... ....................................................................... .............................. ......45 4.3.1Giải mã RPE ............................................. ..................................................................... ............................................... ............................. ......46 4.3.2Lọc tổng hợ p LTP............................................ .................................................................... .............................................. ......................46 4.3.3Lọc tổng hợ p STP ............................................ .................................................................... .............................................. ......................47 4.3.4Hậu xử lý .............................................. ..................................................................... .............................................. .................................. ...........47 CHƢƠNG 5:
MÔ PHỎ NG .......................................... ............................................................ ..................50
ếT LU ậ N ............................................. K ế ..................................................................... ............................................... ............................................... .......................... .. 52 TÀI LIệU THAM KH ảO............................................ .................................................................... ............................................... ............................. ......53 ữ VI ế ếT T ắ ắT ..................... ............................................. CH ữ T ................................................ ............................................... .......................................... ...................54
MỤC LỤC HÌNH Hình 1.1 Quá trình biến đổi tín hiệ u trong GSM ............................. ..................................................... ................................ ........ 2 Hình 1.2 Biến đổ i A/D.................................................. .......................................................................... ............................................... ........................... ....3 Hình 1.3 Mã hoá thoạ i .............................................. ...................................................................... ............................................... ............................... ........ 3 ...................................................................... ............................................... ............................... ........ 4 Hình 1.4 Mã hoá kênh .............................................. Hình 1.5 Ghép xen tín hiệ u tiếng nói............................................... ....................................................................... ................................ ........ 6 Hình 2.1 Quá trình tạ o thoại ............................................ .................................................................... ................................................ ........................9 Hình 2.2 Phát âm c a vocal tract ................................................. ......................................................................... .................................. ..........10 Hình 2.3 Dạng sóng tiếng nói ca đoạ n thoại (âm hữu thanh) ngắn ............................. ............................. 11 Hình 2.4 Log cƣờng độ phổ ca một đoạn thoại (âm hữu thanh) ngắn.........................12 Hình 2.5(a) Dạng sóng thờ i gian ca /I/ trong t ừ “bit”............................................ .................................................. ......14 Hình 2.5(b) Log cƣờng độ phổ ca /I/ trong t ừ “bit” .............................................. .................................................... ......14 Hình 2.6(a) Dạng sóng thờ i gian ca /U/ trong t ừ “foot” .............................................. ..............................................15 Hình 2.6(b) Log cƣờng độ phổ ca /U/ trong t ừ “foot”............................................... ................................................. .. 15 ..........................16 Hình 2.7(a) Dạng sóng thờ i gian ca /sh/ trong âm bắt đầ u từ “shop” .......................... Hình 2.7(b) Log cƣờng độ phổ ca /sh/ trong âm bắt đầ u từ “shop” ............................ ............................16 Hình 2.8 Dạng sóng thờ i gian ca /t/ khi phát âm từ “tap” ........................................... ...........................................17 Hình 2.9 Dạng bộ lọc nguồn tổng quát ............................................ .................................................................... .............................. ......19 ..............................25 Hình 3.1 Mô hình chung bộ mã hoá phân tích bằ ng tổng hợ p AbS .............................. Hình 3.2 Đồ thị hàm mật độ xác suất ca 8 hệ số LAR đầu tiên ................................... ...................................30 Hình 3.3 Mối quan hệ giữa khung, khung con và cử a sổ Hamming ............................. ............................. 31 .................................................................... .......................................... ..................38 Hình 4.1 Bộ mã hoá RPE-LTP ............................................ Hình 4.2 Bộ lọc phân tích ngắn hạn ............................................ .................................................................... .................................. ..........41 Hình 4.3 Đáp ứng xung (trái) và đáp ứ ng tần số (phải) ca bộ lọc tr ọng số .................44 Hình 4.4 Vị trí các mẫu trong 4 chu ỗi con .............................................. .................................................................... ......................44 Hình 4.5 Bộ giải mã RPE-LTP ............................................ .................................................................... .......................................... ..................46 Hình 5.1 Giao diện chƣơng trình mô phỏng ............................................ .................................................................. ......................50
MỤC LỤC BẢNG Bảng 2.1 Độ co thắt và vị trí lƣỡ i ca các nguyên âm trong tiế ng Anh ........................ 13 Bảng 2.2 V ị trí co thắt và phụ âm xát trong tiế ng Anh........................................ Anh.................................................. .......... 17 Bảng 2.3 V ị trí co thắt và phụ âm dừng trong ti ếng Anh .............................................. .............................................. 17 Bảng 2.4 V ị trí co thắt đối vớ i phụ âm mũi trong tiếng Anh .............................. ......................................... ........... 18 Bảng 4.1 ............................................ .................................................................... ............................................... ............................................... .............................. ......37 Bảng
4.2 Lƣợ ng ng tử các hệ số LARc(i) ............................................. ..................................................................... .............................. ......40 Bảng 4.3 N ội suy các tham số LAR (J=khối hiện tại) ............................................. ................................................... ......40 Bảng 4.4 Bảng lƣợ ng ng tử cho tham số khuếch đại LTP .................................... .................................................. ..............42 Bảng 4.5 V ị trí bit các tham số ngõ ra ca bộ mã hoá tiếng nói RPE -LTP trong khung thoại 20ms ........................................... ................................................................... ............................................... .......................................... ...................48
LỜI MỞ ĐẦU
Lờ i mở đầ ở đầu Ngày nay, khi các phư o ng tiện truyền thông phát triê ̉ n và số lư ơ ng ̣ ngư ơ ̣ ̀ i sƣ ̉ du ng ̛ các phư o ng ti ện liên liên la c̣ ngày càng tng lên thì mã hóa tiếng nói đƣợc nghiên cứu và ̛ ứng dụng càng r ộng ộng rãi trong các cuộc go ị điện thoa ị truyền truyền thống thống , gọi điện thoại qua mạng di động, qua Internet hay qua v ệ tinh, ... Mc dù vơ phát triê ̉ n cu ̉ a công công ngh ệ ́ i sƣ ̣phát truyền thông qua cáp quang đã làm cho ba ̆ ng thông không còn là vấn đề lơ ́ n trong các ền thố ố ng . Tuy nhiên , bng thông trong các cu ộc go ị đư ơ cuộc go ị đi ện truyề ̀ ng dài , các quốc tế, tế, các cuộc go ị qua vệ tinh hay các cuộc go ị di động thì cần phải duy trì cuộc go ị quốc bng thông ở m ột mƣ ́ c nhất đi nh thế vi ệc mã hóa tiếng tiếng nói là rất cần thiết , ̣ . Chính vì thế giúp gia ̉ m thiê ̉ u số lư ơ ần truyềền ền đi trên đư ơ truyền như ng vâ ̃n đa ̉ m ba ̉ o ng ̣ tín hi ệu cầần ̀ ng truyền chất chất lư ơ ng ̣ cuộc go ị. Xuất phát tƣ ̀ nhƣ ̉ trên , vớ i mục đích tìm hiu sâu hơn về kĩ thuật mã ̃ ng yêu cầu ơ hoá tiếng nói, em đã quyết định thực hiện đề tài “Nghiên cứu kĩ thuật mã hoá tiếng nói trong di động”. Nội dung đề tài bao gồm 4 chƣơng chính: - Giớ i thiệu sơ lƣợ c về xử lý tín hiệu trong di động. - Quá trình tạo tiếng nói.
sở mã hoá tiếng nói. - Các phƣơng pháp cơ sở mã - Mã hoá và giải mã tiếng nói trong hệ thống GSM.
Đ tng tính thực t ế ca đề tài, em đã thự c hi ện chƣơng trình mô phỏng mã hoá tiếng nói chạy trên PC bằ ng Matlab. xin chân thành cảm ơn thầ y Phạm Thanh Đàm đã hƣớ ng ng dẫn, tận tình giúp đỡ em đỡ em hoàn thành đề tài này. Nhƣng do thời gian và kiến thức có hạn nên luận vn thực hiện còn nhiều thiếu sót. Em rấ t mong sự nhận xét, đánh giá, đóng góp từ thầy cô và bạn bè. Em
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
1
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG
CHƢƠNG 1: GI Ớ I THIỆU SƠ LƢỢ C VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONGDI ĐỘNG Quá trình biến đổi và xử lý tín hiệu GSM đƣợc mô tả nhƣ sau: Số hoá và mã nguồn
Mã hoá kênh
Giải mã nguồn
Giải mã
Ghép xen
Mật mã hoá
Giải ghép xen
Giải mật
Tổ chức c ụm
Điều chế
Điều chỉnh
Giải điều chế
Tiếng nói
kênh
mã
Tiếng nói
Hình 1Hình 1.1 Quá trình biế n đổi tín hiệu trong GSM
1.1 Số hoá và mã hoá tiế ng nói
Đầu tiên, tiếng nói đƣợ c microphone biến đổi sang tín hiệu điệ n ở dạng tƣơng tự. Microphone bao gồm một màn mỏ ng và một cuộn dây đt trong khe từ trƣờ ng ng ca một nam châm. Đ giảm lƣợ ng ng dữ liệu cần thiết tƣơng ứng với sóng âm, ta cho tín hiệ u qua bộ lọc thông dải trong khoảng tần số từ 300 Hz đến 3.4 kHz. Sau đó, tín hiệu này đƣợ c biến đổi sang tín hiệu số bằng bộ biến đổi A/D dùng kĩ thuật điều xung mã PCM vớ i tần s ố lấy m ẫu là 8kHz và mã hoá mỗ i m ẫu b ằng 13 bit. Do đó, luồng tín hiệ u s ố sau khi đƣợ c biến đổi có tốc độ 104 kbps. Tín hiệu s ố ở ngõ ở ngõ ra ca b ộ biến đổi A/D có tốc độ 104 kbps đƣợc nén lại b ằng bộ mã hoá tiếng nói. Mã hoá tiếng nói là phƣơng pháp nén tín hiệ u thoại ở dạng số. Yêu cầu ca mã hoá tiếng nói là phải đả m bảo thờ i gian thực và chất lƣợng có th chấ p nhận đƣợc. Trong GSM, ngƣờ i ta sử dụng mã Vocoder. Nguyên tắ c c a k ỹ thuật này là thay vì truyền đi luồ ng s ố từ tiếng nói thì ta sẽ truyền đi thông số ca cơ quan phát âm tại thời đim phát ra tiếng đó. Nhƣ vậ y, chuỗi bit truyền đi sẽ ngắn hơn nên tốc độ sẽ giảm xuống.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
2
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG
8000 lần/s 13 bit/mẫu 104kbps
Bộ chuyn đổi A/D
Bộ lọc thông dải Lọc tín hiệ u trong
Tín hiệu số
khoảng từ (300Hz – 3.4kHz)
Hình 2Hình 1.2 Biến đổ i A/D Tín hiệu số ở ngõ ở ngõ ra ca bộ biến đổi A/D có tốc độ 104 kbps đƣợc chia thành từng đoạn có chiều dài 20 ms, nhƣ vậ y mỗi đoạn ch ứa 2080 bit (tƣơng ứng 160 mẫu). Đ truyền đi chuỗi bit này, ngƣờ i ta sẽ thay thế thông số ca b ộ lọc có chiều dài 260 bit. Nhƣ vậy, 260 bit mỗi 20ms tƣơng ứng vớ i tốc độ truyền thật sự là 13 kbps.
104kbps
LPC
Bộ chuyn đổi A/D
RPE
Tín hiệu số
L T P
Bộ mã hoá thoạ i
20 ms block
Hình 3Hình 1.3 Mã hoá thoạ i 1.2 Mã hoá kênh
Mã kênh là thêm vào mỗ i từ mã cần truyền một số bit dƣ thừa đ làm tng khoảng cách Hamming c a bộ từ mã, nhằm mục đích là giúp cho đầu thu phát hiện và sửa đƣợ c nhiều lỗi hơn.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
3
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG Bộ mã hoá tiếng nói đƣa các khối 260 bit/20ms đế n b ộ mã hoá kênh. Các bit này
đƣợc chia thành 182 bit loại I (các bit đƣợ c bảo vệ) và 78 bit loại II (các bit không đƣợ c bảo vệ), dựa theo tầm quan tr ọng ca các bit nhận đƣợ c từ các thí nghiệm ch quan. Các b it loại I đƣợc chia thành 2 loại, Ia và Ib. 50 bit đầu ca loại I đƣợ c bảo vệ bởi mã CRC đ phát đ phát hiện lỗi và tạo thành 53 bit. Các bit thêm vào này đƣợc tính dựa trên đa thứ c tạo mã g(x)= 1+x+x 3 . Sau đó, các bit loại I cùng với các bit chẵ n lẻ (185 bit) đƣợ c bổ sung thêm 4 bit đuôi bằng 0 và đƣợc mã hoá xoắn theo hai đa thứ c: g 1(x)=1+x3+x4 vàg2(x)=1+x+x3+x4 tạo thành 378 bit. Các bit nhóm II không đƣợ c bảo vệ. Nhƣ vậy, đầu ra ca mã hoá kênh sẽ là 456 bit tƣơng ứng vớ i 22,8 kbps.
50 bit CRC3 Convolution coder
132 bit
456 bit
78 bit
Hình 4Hình 1.4 Mã hoá kênh 1.3 Tổ chứ c cụm Khi MS cần truy xuất
vào mạng thì sẽ đƣợ c h ệ thống cung cấ p cho một khe thờ i gian. Mỗi khe thời gian có độ dài 0,577 ms nhƣng thông tin truyền đi trong khe này là chỉ chiếm có 0,546 ms. Thông tin trong khoả ng thời gian này đƣợ c gọi là cụm và khoảng thời gian còn lại hai đầu là thờ i gian bảo vệ dài 0,031 ms. Tuỳ theo mỗi loại tín hiệu khác nhau mà các tổ chức cụm trong GSM khác nhau. Có 5 loại cụm trong thông tin di độ ng GSM:
ụm thườ ng C ụm ng (Normal Burst) TB
57 bit thông tin
3
F
Chuỗi hƣớ ng ng dẫn
F
1
26 bit
1
57 bit thông tin
TB
GP
3
8.25
Cụm thƣờ ng ng (NB)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
4
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG
TB: Tail bit (3 bit), là các bit đuôi, đ t ở đầu ở đầu và cuối cụm. Chuỗi hƣớ ng ng dẫn: 26 bit, dùng đ xác định khe thời gian và giúp máy thu điề u chỉnh tín hiệu thu. Mỗi cụm thƣờ ng ng chứa 114 bit thông tin và đƣợc chia thành hai gói, mỗi gói 57 bit, xen giữa hai gói là mộ t chuỗi hƣớ ng ng dẫn chiều dài 26 bit. Ở hai đầu cụm sử dụng bit đuôi cho mỗi đầ u. ụm điề u chỉ nh C ụm nh t ần số (Frequency Correction Burst) Cụm này chứ a 142 bit cố định làm tín hiệu điề u khin, các bit khở i tạo và kế t thúc cụm là 3 bit, đƣợ c sử dụng cho kênh FCCH. 142 bit thông tin
TB 3
TB
GB
3
8.25
Cụm điều chỉnh tần số (FC)
Cụm đồng bộ (Synchronization Burst)
Đƣợ c sử dụng đ đồng bộ thờ i gian cho tr ạm ạm di động. Cụm chứa 78 bit đƣợ c mật mã hoá mang thông tin về FN (số khung) ca TDMA và ca BSIC (mã nhận dạng tr ạm gốc). Cụm SB đƣợ c sử dụng đ truyền kênh SCH. TB
39 bit thông tin
Chuỗi đồng bộ
3
39 bit thông tin
64 bit
TB
GB
3
8.25
Cụm đồng bộ (SB)
Cụm truy xuất (Access Burst)
Đƣợ c sử dụng cho các kênh điều khin 1 chiều còn lại. TB
Chuỗi đồng bộ
Các bit thông tin
TB
3
41
36
3
GP 68.25
Cụm truy xuất (AB)
Cụm giả (Dummy Burst) Cụm DB có tổ chức giống nhƣ cụm NB nhƣng thông tin trong cụm DB là thông tin giả, sử dụng các bit hỗ n hợp. Đƣợ c sử dụng trong các khe thờ i gian r ỗi. TB 3
Các bit hỗ n hợ p 58
Chuỗi hƣớ ng ng dẫn
Các bit hỗn hợ p
TB
GP
26 bit
58
3
8.25
Cụm giả (DB)
1.4 Ghép xen
Ở thông tin di động, do tác độ ng ca fading nên các lỗi bit thƣờ ng ng xảy ra từng cụm dài. Tuy nhiên, mã hoá kênh đ t biệt là mã hoá xoắ n chỉ hiệu quả nhất khi phát hiện và sử a ch ữa các lỗi ng ẫu nhiên đơn lẻ và cụ m lỗi không quá dài. Đ đối phó vớ i ồi hoán vị các cụm vấn đề này ngƣờ i ta chia khối b ản tin cần gởi thành các cụ m ngắn r ồi SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
5
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG
này với các cụ m c a kh ối b ản tin khác. Do đó, khi xả y ra cụm l ỗi dài mỗi b ản tin chỉ mất đi một cụm nhỏ, phần còn lại ca bản tin vẫn cho phép các dạng mã hoá kênh khôi phục l ại đƣợc đúng sau khi đã sắ p x ế p l ại các cụ m c a b ản tin theo thứ tự nhƣ ở phía phát. Quá trình nói trên đƣợ c gọi là ghép xen. Các bit sau khi mã hoá có chiều dài 456 bit đƣợ c tổ chức lại và đƣợc ghép xen theo 8 nửa cụm. Mỗi nửa cụm chứa 57 bit. Việc ghép xen lƣu lƣợng đƣợ c thực hiện theo các bƣớ c sau: B1: Chia 456 bit thành 8 nhóm - Nhóm 0: 1, 9 , 17 ……….. 449 - Nhóm 1: 2, 10, 18 ……….. 450 - Nhóm 2: 3, 11, 19 ……….. 451 - Nhóm 3: 4, 12, 20 ……….. 452 - Nhóm 4: 5, 13, 21 ……….. 453 - Nhóm 5: 6, 14, 22 ……….. 454 - Nhóm 6: 7, 15, 23 ……….. 455 - Nhóm 7: 8, 16, 24 ……….. 456 B2: Sau đó, các nhóm nói trên đƣợc ghép xen ở mức thứ 2. Ở ghép xen này ta thấy b ốn nhóm đầu ca một từ mã (cụ th là nhóm 0, 1, 2, 3) đƣợc đt vào vị trí đầu tiên ca bốn cụm, bốn nhóm còn lại đƣợc đt vào vị trí sau ca bốn cụm tiế p theo. Phần còn lại c a các cụm này đƣợc dùng đ ghép tín hiệu c a các từ mã lân cận. Nhƣ vậy, đ truyền đi hết một từ mã 456 bit thì phả i cần 8 cụm liên tiế p.
Hình 5Hình 1.5 Ghép xen tín hiệ u tiếng nói 1.5 Mật mã hoá
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
6
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG Mục
đích ca mật mã hoá là bả o mật tín hiệu tr ên ên đƣờ ng ng truyền vô tuyến. Khi MS và BTS giao tiế p với nhau thì giữa chúng có chung mộ t mật mã. Mỗi cuộc gọi khác nhau thì có mật mã khác nhau. Trong GSM, đ thực hi ện m ật mã, ở đầu ở đầu phát tạo ra một chuỗi tín hiệu gi ả ngẫu nhiên đ k ết h ợ p v ớ i chuỗi tín hiệu c ần truyền. Ở đầu thu muốn khôi phục l ại tín hiệu thì máy thu phả i biết chuỗi ngẫu nhiên ở đầ ở đầu thu, do vậy chuỗi ngẫu nhiên đƣợ c gọi là mật mã. Mật mã hoá tín hiệu đạt đƣợ c bằng cổng XOR giữa chuỗi ngẫu nhiên vớ i 114 bit ca c ụm bình thƣờng. Đ giải mật mã, ngƣờ i ta thực hi ện thao tác XOR giữa tín hiệ u thu vớ i chuỗi ngẫu nhiên giống đầu phát. 1.6 Điều chế
Điều chế là phép toán chuy n đổi t ừ một tín hiệu mang tin tức sang một tín hiệu khác mà không làm thay đổ i về tin tức mang theo. Điều chế số là quá trình trong đó các dữ liệu số đƣợc mã hoá vào trong sóng mang hình sin thích hợ p với các đc tính kênh truyề n. K ỹ thuật truyền tín hiệu điều chế số còn gọi là kỹ thuật truyền tín hiệu dãy thông. Dạng tổng quát ca sóng mang hình sin s(t) là: s(t) = A(t).cos[ ω0(t) + Φ(t)] (1.1) Trong đó, A: biên độ ω0=2πf :tần số góc Φ: góc pha Giải điều ch ế số là quá trình ngƣợ c l ại v ới điều ch ế số nhằm ph ục h ồi các luồng bit từ dạng sóng thu đƣợc càng ít lỗi càng tố t, mc dù tín hiệu số có th méo dạng hoc nhiễu. GSM sử dụng phƣơng pháp điều chế khoá chuyn pha cực tiu GMSK (Gaussian Minimum Shift Keying). Đây là phƣơng pháp điều chế bng hẹ p dựa trên kỹ thuật điều chế dịch pha. Đ giải thích GSMK, trƣớ c hết chúng ta xét MSK bằng cách so sánh nó với PSK. Ta có th trình bày sóng mang đã đƣợc điề u chế đối với PSK và MSK nhƣ sau: s(t) = A.cos[ω0(t) +ψ(t) + φ0] (1.2) Trong đó: A là biên độ không thay đổi. ω0=2πf (rad/s) là tầ n số góc ca sóng mang ψ(t) là góc pha phụ thuộc vào luồng số mang lên điều chế φ0 là góc pha ban đầ u
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
7
CHƢƠNG 1: GIỚ I THIỆU SƠ LƢỢC VỀ XỬ LÝ Ử LÝ TÍN HIỆU TRONG DI ĐỘ NG
Đối với điều chế pha bốn tr ạng ạng thái, ta đƣợc góc pha ψ(t) nhƣ sau: ψ (t) = nπ/2 với n= 0, 1, 2, 3 tƣơng ứ ng với các cp bit đƣợc đƣa lên điề u chế là {00, 01, 11, 10}. Đối với điều chế MSK ta đƣợc góc pha ψ (t) nhƣ sau: (1.3)
k i i (t iT )
t = i
Trong đó, chuỗi bit đƣa lên điề u chế là {…di-1, di, di+1,…) k i = 1 nếu di= di-1 k i = -1 nếu di di-1 i
(t)=
2T b
t , T b là khoảng thờ i gian ca bit
Ta thấy, ở MSK nếu bit điề u chế
ở thời đim xét giống nhƣ bit ở thời đim trƣớ c đó, ψ(t) sẽ thay đổi tuyến tính từ 0 đế n π/2, ngƣợ c lại nếu bit điều ch ế ở thời đim xét khác với bit trƣớc đó thì ψ (t) sẽ thay đổi tuyến tính từ 0 đến -π/2. ở điều ch ế MSK cũng d ẫn đến thay đổ i t ần s ố theo quan hệ Sự thay đổi góc pha ở điề sau ω = dφ(t)/dt. Trong đó: φ(t) = (ω 0(t) + ψ(t) + φ0) Nếu chuỗi bit đƣa lên điều chế không đổi (toàn số 1 hoc số 0) ta có tần số sau: ω1 = 2πf 1 = ω0+ π/(2T b) Nếu chuỗi bit đƣa lên điều ch ế thay đổi luân phiên (1, 0 , 1, 0, 1, 0, …) thì ta có tần số sau : ω2 = 2πf 2 = ω0- π/(2T b) Đ thu hẹ p phổ tần ca tín hiệu điều chế, luồng bit đƣa lên điều chế đƣợc đƣa qua bộ lọc Gauss. Ở GSM, bộ lọc Gauss đƣợ c sử dụng tích dải thông chuẩn hoá ộng bng tần. BT=0.3 , trong đó, B là độ r ộng Mục đích dùng GMSK là đ tạo ra tín hiệu bng thông nhỏ, độ dịch tần nhỏ.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
8
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
CHƢƠNG 2:
QUÁ TRÌNH TẠO TIẾNG NÓI
Đ hiu đƣợc các phƣơng pháp mã hoá thoại, điều đầu tiên là ta cầ n phải hiu cấu trúc cơ quan phát âm và cơ quan thính giác ca con ngƣờ i, hiu v ề ngôn ngữ, sinh lý, các mức âm thanh cũng nhƣ việ c ứng d ụng nó vào trong các kĩ thuật mã hoá thoạ i hiện nay. Mã hoá thoại có ƣu đim là đƣợ c tạo ra dựa vào cấu trúc vocal tract (tuyến âm) ca con ngƣời. Đc đim này cũng xác định và giớ i hạn cấu trúc ca tín hiệ u thoại. 2.1 Chuỗi thoại
Đ rõ hơn ta xét quá trình hai ngƣờ i hội thoại vớ i nhau, một ngƣời nói và mộ t ngƣờ i nghe. Chuỗi thoại đƣợ c t ạo ra và truyền đến tai ngƣời nghe nhƣ trong hình 2.1. Đầu tiên, ngƣời nói sẽ sắ p x ếp các suy nghĩ ca mình, xác đị nh xem thử anh ta muốn nói gì và đ t những suy nghĩ đó vào trong mộ t d ạng ngôn ngữ bằng cách chọ n các từ, cụm từ, nhóm từ chính xác và đt chúng vào đúng cấu trúc ngữ pháp ca ngôn ngữ mình nói.
Hình 6Hình 2.1 Quá trình tạ o thoại Quá trình này kế t hợ p với não ngƣời nói, nơi sẽ đƣa ra các lệnh dƣớ i dạng các xung. Các xung này theo các dây thần kinh điề u khin cơ và cơ quan phát âm nhƣ lƣới, môi, quai hàm và dây thanh chuyn động làm áp suất không khí xung quanh thay SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang
9
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
đổi t ạo ra sóng âm truyền trong không khí. Sóng âm này truyền đến tai ngƣời nghe và kích hoạt cơ quan thị giác. Cơ qua thính giác cũng tạo ra các xung thần kinh đƣa đế n não ngƣời nghe và não sẽ giúp nhận biết, hiu đƣợc các thông tin từ ngƣời nói. Các dây thần kinh thính giác ca ngƣời nói cũng đƣợ c hồi tiế p lại não. Não sẽ tiế p tục so sánh với âm thanh đã nói đ có những điều chỉnh thích hợ p. Sự hồi tiếp này là rất cần thiết đ giúp cho ngƣời nói có th dự đoán đƣợc ngƣời nghe có nghe rõ ràng và chính xác hay không ?
2.2 Phát âm Do hoạt động và vị trí ca cơ quan phát âm nên âm thanh c a mỗi ngƣời khác nhau. Khi chúng ta nói khí từ phổi sẽ đi qua vocal tract và ra ngoài tạo thành tiếng nói.
Tín hiệu thoại là tín hiệu động có dạng sóng rấ t phức tạ p. Bằng cách phân tích tín ằng phân bố nng lƣợ ng hiệu, ngƣờ i ta thấy r ằng ng theo tần s ố trong một đoạn thoại ngắn có nhiều dạng khác nhau. Nng lƣợng phân bố theo tần số đƣợ c gọi là phổ công suất. Phổ công suất có th tậ p trung ở tần s ố cao, tần s ố thấ p ho c ở hai ở hai bên mộ t d ải t ần s ố nào đó. Cấu trúc c a phổ có th ngẫu nhiên hoc xác định điều hoà. Phổ ca ca thoại luôn thay đổi làm cho mã hoá càng thêm phứ c tạp. Đ khắc phục điều này, ngƣờ i ta sắ p xế p thành các mức v ật lý khác nhau. Bằng cách nghiên cứu cơ quan phát âm và hoạt độ ng ca nó, các dạng tín hiệ u thoại khác nhau đƣợc xét riêng lẻ . Hình 2.2 cho thấy sơ đồ đơn giản hoạt động ca vocal tract. Không khí từ phổi đẩy vào khí quản, đi qua dây thanh và cuối cùng vào hốc mũi và miệng. Thanh môn cho phép một lƣợng không khí vừa đ từ phổi đi qua hoc có th ngắt luồng không khí thành các xung tuần hoàn.
Hình 7Hình 2.2 Phát âm củ a vocal tract
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 10
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
2.2.1 Kích thích Tín hiệu thoại là do không khí từ phổi đƣợ c biến đổi thành dạng nng lƣợng kích thích vocal tract rung và ta xem đây là tín hiệu kích thích trong bộ mã hoá. Dây thanh rung tạo ra các xung truyền đến mũi và miệng. Vì vậy, nng lƣợng kích thích ở nhiều tần số và cƣờng độ ca các tần số này phụ thuộc vào tốc độ chuyn động ca vocal tract. Tổng
quát, kích thích đƣợc chia làm hai dạ ng: hữu thanh (voice) và vô thanh (unvoice). Âm thanh tạ o ra do sự rung động c a dây thanh đƣợ c g ọi là hữu thanh. Tất cả các nguyên âm và mộ t số phụ âm là âm hữu thanh. Âm thanh đƣợ c tạo ra không phải do sự rung ca các dây thanh mà do không khí bị vocal tract co thắt thì đƣợ c g ọi là âm vô thanh, ví dụ nhƣ âm “s”, “p”. Đc đi m ca âm hữu thanh và âm vô thanh phụ thuộc vào: - Kích thƣớ c chia nhỏ luồng không khí từ phổi tạo thành các xung tự a tuần hoàn. Nng lƣợng đ thực hiện điều này là kích thích âm hữu thanh nhƣ là các nguyên âm. - Lu ồng không khí từ phổi đến mũi, giống nhƣ là nhiễ u lo ạn t ạo ra do s ự co thắt vocal tract. Nng lƣợng đ thực hiện quá trình này là kích thích âm vô thanh nhƣ âm “s”. Ngoài hai dạng trên còn có một dạng hỗn hợ p ca nó ví dụ nhƣ “z”. Tuy nhiên, ta chỉ xét hai loại là hữu thanh và vô thanh dựa vào sự có mt hay v ắng mt ca kích thích tuần hoàn. Do đó, “z” cũng đƣợc xem là âm hữ u thanh. Pich
Tần s ố ca kích thích tuần hoàn (ho c t ựa tu ần hoàn) đƣợ c g ọi là pitch. Khoả ng ết thúc ca dây thanh đến đim tƣơng ứ ng thờ i gian giữa đim bắt đầu cũng nhƣ đi m k ết
trong chu kì kế tiếp đƣợ c gọi là chu kì pitch.
Hình 8Hình 2.3 Dạng sóng tiếng nói của đoạ n thoại (âm hữ u thanh) ng ắn
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 11
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
Hình 2.3 cho ta dạng sóng thờ i gian ca một đoạn thoại dài 40 ms ca âm hữ u ục x là trục th ờ i gian (ms). Tr ục ục y là biên độ. Giá trị biên độ cao ở đi ở đim b ắt thanh. Tr ục đầu xung pitch, chu kì pitch là 10 ms và tầ n số pitch là 1/10ms bằ ng 100 Hz. 2.2.2 Vocal tract
ích K ích
thích là một trong hai hệ số quan tr ọng ọng tác động đến tiếng nói. Cho kích thích là âm hữu thanh hoc âm vô thanh, khi vocal tract thay đổi s ẽ cho các âm thanh khác nhau. Khi hình dạng và vị trí ca vocal tract thay đổi thì sẽ làm cho tần s ố cộng hƣở ng ng ca vocal tract thay đổi theo. Các tần số cộng hƣởng này cho các đỉ nh phổ nằm ở các ở các tần số ứng vớ i từng dạng vật lý ca vocal tract. T ần số cộng hƣởng đƣợ c gọi là formant và vị trí tần số ca chúng đƣợ c gọi là tần số formant.
Hình 9Hình 2.4 Log cƣờng độ phổ của một đoạn thoại (âm hữ u thanh) ng ắn Hình 2.4 cho phổ trong một đoạn ngắn ca tín hiệu âm hữu thanh. Tr ục x từ 0 đến 4000 Hz. Tr ục ục y là log cƣờng độ ca đáp ứng tần số. Đỉnh hẹp cách đề u nhau 120 Hz là hoà âm họ c pitch. Ba fo rmant đầu tiên ở vị trí 400, 900, 2600 Hz. Cách phát âm Trong vocal tract, sự co thắt và ống dẫn không khí sẽ tạo nên cách phát âm. Đ tạo ra các âm khác nhau thì kích thích đƣợ c tạo ra bở i vocal tract phải khác nhau. Ví dụ nguyên âm đƣợ c tạo ra bởi kích thích tuần hoàn và luồng không khí đi qua vocal tract có tốc độ không bị hạn ch ế. Tuy nhiên, tốc độ này không đều, nó còn phụ thuộc vào tần số formant. Ngƣợ c lại, âm vô thanh không có các thành phầ n tuần hoàn và đƣợ c tạo ra do một số sự co thắt. SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 12
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI Phụ
âm dừ ng ng hay còn gọi là âm bật, đƣợ c tạo ra do áp suấ t luồng không khí bị chn đột ngột. Phụ âm dừng có th là âm hữu thanh nhƣ “b” hoc âm vô thanh nhƣ âm “p”. Phụ âm mũi đƣợ c tạo ra do luồng không khí qua vòm miệng, môi bị giảm đ chuyn sang mũi nhƣ các âm “m”, “n”. Vị trí phát âm Cách phát âm xác định nhóm âm thanh và vị trí phát âm xác định chính xác đi m co thắt. V ị trí chính xác c a vocal tract sẽ tạo nên âm thanh đc trƣng c a từng ngƣờ i. i. Nguyên âm đƣợc phân biệ t nhờ lƣỡ ờ lƣỡ i tạo nên sự co thắt, ví dụ: - Một nguyên âm trƣớc nhƣ trong từ “beet” - Một nguyên âm giữa nhƣ trong từ “bet” - Một nguyên âm sau nhƣ trong từ “boot” Trong từ “beet” lƣỡ i s ẽ chạm lên phần trên c a miệng và phần sau ca rng, còn “boot” thì lƣỡi lùi lại phía sau gần quai hàm tạ o ra sự co thắt. Các âm “p”, “t”, “k” đƣợ c tạo ra do v ị trí khác nhau trong vocal tract nơi sự co thắt đƣợ c thực hiện đ dừng luồng không khí trƣớ c khi nói. “p”: đóng môi. “t”: lƣỡ i ở giữa hai hàm rng. “k”: lƣỡ i ở sau miệng 2.2.3 Âm vị Chất lƣợ ng ng c a kích thích, vị trí và cách phát âm sẽ tạo nên đc đi m ca âm vị . Vì vậy, mục đích ca mã hoá thoại là nhằm giúp ta hiu đƣợc các âm khác nhau trong cùng một ngôn ngữ. 2.2.3.1 Nguyên âm Nguyên âm là dạng âm hữu hữ u thanh có độ độ phát phát âm thay tha y đổi không đáng đ. Bảng 2.1 là danh sách các nguyên âm dựa trên t rên độ co thắt và vị trí ca lƣỡ i.i. Vị trí
Trƣớ c
Giữa
Sau
Cao
/i/ beet
/ER/ bird
/u/ boot
Trung bình Thấ p
/E/ bet
/UH/ but
/OW/ bought
Co thắt
/ae/ bat
/a/ father
Bảng 1Bảng 2.1 Độ co thắt và vị trí lƣỡ i của các nguyên âm trong tiế ng Anh
Hình 2.5 và 2.6 hi n thị dạng sóng log cƣờng độ phổ ca nguyên âm /I/ (“bit”) và /U/ (“foot”). Dạng sóng thờ i gian cho thấy tần số ca /I/ cao hơn nhiề u so vớ i /U/.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 13
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
Hình 10Hình 2.5(a) Dạng sóng thờ i gian của /I/ trong từ “bit” ừ “bit”
Hình 11Hình 2.5(b) Log cƣờng độ phổ của /I/ trong từ “bit” ừ “bit”
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 14
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI
Hình 12Hình 2.6(a) Dạng sóng thờ i gian của /U/ trong từ “foot” ừ “foot”
Hình 13Hình 2.6(b) Log cƣờng độ phổ của /U/ trong t ừ “foot” ừ “foot” 2.2.3.2 Ph ụ âm xát Phụ âm ch yếu t ạo nên do nhiễu loạn c a luồng không khí đƣợ c g ọi là phụ âm xát. Phụ âm xát đƣợ c t ạo ra do luồng không khí bị vocal tract co thắt, bao gồm cả âm
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 15
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI hữu thanh lẫn
âm vô thanh. Bảng 2.2 là danh sách phụ âm xát. Nhữ ng t ừ liệt kê trong bảng cho ta ví dụ chung ca âm vị . Hình 2.7 là dạng sóng theo thời gian và log cƣờng độ phổ ca một mẫu /sh/. Âm là âm hữu thanh và dạng sóng thờ i gian giống nhƣ là nhiễu ngẫu nhiên. Phổ có dạng xác định, không bằng phẳng. Độ cao đỉnh phổ khoảng 2800 Hz.
Hình 14Hình 2.7(a) Dạng sóng thờ i gian của /sh/ trong âm bắt đầ u từ “shop” ừ “shop”
Hình 15Hình 2.7(b) Log cƣờng độ phổ của /sh/ trong âm bắt đầ u từ “shop” ừ “shop” SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 16
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI Co thắt
Rng/môi Rng Vòm miệng Thanh môn
Âm vô thanh
Âm hữu thanh
/f/ fit
/v/ vat
/THE/ thaw
/TH/ that
/sh/ sap
/zh/ vision
/h/ help
Bảng 2Bảng 2.2 Vị trí co thắt và phụ
âm xát trong tiếng Anh
2.2.3.3 Ph ụ âm dừ ng ng
Phụ
âm dừng hay âm bật là dạng không khí bị ngắt đột ngột do co thắt. Chúng chỉ là những âm ngắ n xuất hiện nhanh. Tín hiệ u dừng có th là âm hữu thanh hay là âm vô thanh. Phụ âm dừng trong tiếng Anh đƣợ c cho trong bảng 2.3. Sự co thắt xác định v ị trí ca môi, rng và vòm miệ ng. Bảng 2.3 là những t ừ thƣờ ng ng g p mà âm đầ u tiên là phụ âm dừng. Co thắt
Môi Rng Sau vòm miệng
Âm vô thanh
Âm hữu thanh
/p/ pat
/b/ bat
/t/ tap
/d/ dip
/k/ cat
/g/ good
Bảng 3Bảng 2.3 Vị trí co thắt và phụ
âm dừ ng ng trong ti ếng Anh Hình 2.8 là giản đồ dạng sóng ca /t/ khi phát âm “tap”. Âm bậ t ch yếu nhƣ một xung kim. Do chỉ dừng trong khoảng thờ i gian ngắn nên nó ảnh hƣở ng ng lớn đến các âm trƣớc và sau. Nế u xuất hi ện ở cuối m ột từ thì nó còn có thêm âm bật do không khí tạ o ra.
Hình 16Hình 2.8 Dạng sóng thờ i gian của /t/ khi phát âm từ “tap” từ “tap” SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 17
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI 2.2.3.4 Ph ụ âm mũi
Âm mũi tạo ra do vocal tract đóng luồng không khí và đƣa nó ra ngoài bằng mũi. Âm mũi là phụ âm âm hữ u thanh. Bảng 2.4 liệt kê ba phụ âm mũi trong tiếng Anh. Do miệng đóng kín nên âm mũi có nng lƣợ ng ng thấp hơn so với các phụ âm âm hữu thanh khác. Luồng không khí đi qua hốc mũi, kế t hợ p với đóng miệng nên có phổ cũng khác với các dạng trƣớ c. c. Co thắt
Âm hữu thanh
Môi Rng Sau vòm miệng
/m/ map /n/ no /ng/ hang
Bảng 4Bảng 2.4 Vị trí co thắt đố i vớ i phụ âm mũi trong tiế ng Anh
2.3 Dạng bộ lọc nguồn
Đ dễ dàng phân tích tín hiệu thoại, hầu hết bộ mã hoá tiếng nói đều có dạ ng vocal tract. Dạng này thƣờng đƣợc dùng ở hầu hết các quá trình mã hoá và giải mã. Khi mã hoá, các kiu thông số đƣợc xác định đ miêu tả chính xác thoại ngõ vào. Đố i vớ i giải mã, cũng có cấu trúc tƣơng tự và dựa vào các thông số này đ tái tạo l ại thoại ban đầu. Một dạng tạo thoại thƣờng đƣợ c sử dụng nhất đó là dạ ng bộ lọc nguồn. Bộ lọc nguồn này có dạ ng giống nhƣ vocal tract. Nguồn tín hiệ u cung cấ p cho bộ lọc nguồn này là tín hiệu kích thích. 2.3.1 Vocal tract
Cổ họng,
mũi, lƣỡi và miệng là hố c cộng hƣởng không khí đ tạo nên tiếng nói ca con ngƣời. Vocal tract có cấu trúc khác nhau thì sẽ có các tầ n số cộng hƣởng khác nhau. Tần số cộng hƣởng cùng với tín hiệu kích thích là hai hệ số chính điều khin vocal tract tạo ra các âm vị . 2.3.2 Kích thích Đối vớ i tiếng nói âm hữu thanh, dạng sóng tuần hoàn tạo kích thích đế n vocal tract. Dạng sóng tuần hoàn từ các xung thanh môn sẽ làm cho dây thanh sẽ rung. Dạng đơn giản và hay dùng cho âm vô thanh là nhiễ u tr ắng. Nhiễu tr ắng ắng thƣờ ng ng ngẫu nhiên và có phổ bằng phẳng ở mọi t ần s ố có cùng công suất. Giả sử nhiễu tr ắng ắng đƣợ c t ạo ra khi không khí đi qua bộ phận co thắt. M ột số âm nhƣ âm /z/ đƣợ c t ạo ra vừa b ở i m ột kích thích tuần hoàn và vocal tr act act co thắt không khí. Điều này đƣợ c gọi là kích thích ộn. Vì vậ y, nhiệm vụ chính ca mã hoá thoại là phải phân biệt đâu là âm hữ u pha tr ộn. thanh, âm vô thanh hay là pha trộ n ca nó. SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 18
CHƢƠNG 2: QUÁ TRÌNH TẠ O TIẾNG NÓI 2.3.3 Dạng bộ lọc nguồn tổng quát
Sơ đồ hình 2.9 chứng minh r ằng luồng tín hiệu và thông tin ca một bộ lọc nguồn tổng quát. Thông tin pitch thƣờng đƣợ c chứa trong giá trị chu kì pitch. Giá trị này thay đổi tu ỳ theo sự thay đổi ca tín hiệu thoại. Dựa vào chu kì pitch, khối “kích thích tuầ n hoàn” tạo ra một dạng sóng xung đại di ện cho các xung thanh môn. Khối “ nhiễu kích thích” có ngõ ra là nhiễu liên tục với đáp ứng phổ bằng phẳng. Hai kích thích này đƣợc cho vào bộ quyết định tr ộn. Thoại cũng sẽ cho vào một ngõ vào khác. Dựa vào các mức ca thoại gốc, khối “quyết định tr ộn” ộn” k ết hợ p với “kích thích tuần hoàn” và “nhiễu kích thích” sẽ tạo ra tín hiệu kích thích phù hợ p. Pitch
Thông tin
Kích thích tuần hoàn
vocal tract
Kích thích Thông tin tiếng nói
Quyết định tr ộn
Vocal tract Thoại đƣợ c tổng hợ p
Nhiễu kích
thích
Hình 17Hình 2.9 Dạng bộ lọc nguồn tổng quát Thƣờng có 2 dạng, bộ lọc nguồn sẽ k ết hợ p quyết định cứng âm hữu thanh/âm vô thanh đối v ớ i mỗi đoạn thoại. Trong trƣờ ng ng hợp này, chức nng c a kh ối “quyết định ộn” nhƣ một chuyn mạch với kích thích là âm hữu thanh/âm vô thanh. Thông tin tr ộn” vocal tract đƣợ c cung cấp vào khối “vocal tract” đ tạo ra một bộ lọc vocal tract. Bộ lọc s ẽ làm cho phổ ca kích thích giống nhƣ ca tín hiệu thoại g ốc. Thực tế, thông tin p háp bao gồm một d ự đoán tuyến tính và vocal tract đƣợ c t ạo ra bằng m ột s ố phƣơng pháp giá trị Fourier. Kích thích đƣợ c lọc bởi vocal tract đ tạo ra thoại tổng hợp đến tai ngƣờ i nghe sao cho giống tín hiệu thoại ban đầu nhất.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 19
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
CHƢƠNG 3:
CÁC PHƢƠNG PHÁP CƠ SỞ MÃ SỞ MÃ HOÁ TIẾNG NÓI
3.1 Các phƣơng pháp cơ sở mã sở mã hoá tiếng nói
Về co ba ̉ n bộ mã hóa tiếng nói có 3 loại: ̛ Mã hóa da ng ̣ sóng (waveform). Mã hóa nguồn (source). kết hơ Mã hóa lai (hybrid): là sƣ ̣kết p̣ cu ̉ a mã hoá dạng sóng và mã hoá nguồ n. Nguyên lý cu ̉ a mã hóa da ng ̣ sóng là tìm cách số hóa da ng ̣ sóng cu ̉ a tiếng nói theo cách thích hơ liên tu c̣ và p̣ . Tái phía phát, bộ mã hóa se ̃ nh ận các tín hiệu nói tư ơ ng tƣ ̣liên chuyê ̉ n thành thành tín hi hi ệu số trư ơ truyền đi . Tại phía phía thu thu sẽ làm làm nhi nhi ệm vu ngu ṇ gư ơ c̣ la i ̣ ́ c khi truyền đ khôi khôi phục phục tín hi ệu tiếng tiếng nói . Khi không có lô ̃ i truyền truyền dâ ̃n thì da ng ̣ sóng cu ̉ a tiếng nói khôi phu c̣ rất rất giống giống vơ tiếng nói gố gốcc. Ƣu đim ca loại mã hóa này ̣ sóng cu ̉ a tiếng ́ i da ng là: độ phƣ độ phƣ ́ c ta p thành thiế thiếtt kếế , độ trê ̃ và công suất tiêu thu thấp ṭ hấp . Bộ mã hóa da ng ̣ , giá thành ̣ sóng đo n gia ̉ n nhất nhất là điều chế xung mã điều chế Delta (DM)... Tuy nhiên , (PCM), điều ̛ nhƣợc đim ca b ộ mã da ng c̣ tiếng nói chất lư ơ ng ̣ sóng là không ta ọ đư ơ ̣ cao , tốc độ dƣới 16kbit/s. nguồn kh́ kh́ c phu đu đ̣ ư ơ Bộ mã hóa nguồn c̣ như ơ c̣ điê ̉ m này . Nguyên lý cu ̉ a mã hóa là mã hóa kiê ̉ u phát âm (vocoder), ví du nhu ṇ hư b ộ mã hóa b̀ b̀ ng dƣ ̣đoán đoán tuyến tuyến tính (Linear hi ện đư ơ ố c đ ộ bit lớ n Prediction Coding - LPC). Các bộ mã hóa này có thê ̉ thƣ c̣ hi c̣ ta i ̣ tố hơn 1kbps. Hạn Hạn chế chế ch ch yếu yếu ca ca mã mã hóa hóa kiu kiu phát phát âm LPC là là vi ệc mô mô pho ̉ ng nguồn kích thích còn đo n gia ̉ n nên tiếng nói tái ta ọ đư ơ ng hơ c̣ là tiếng nói da ng p̣ , chất ̣ tô ̉ ̛ lƣợng không không cao cao và khó khó có th th nh ận ra gio ng nói chuy chuy ện. Vào na ̆ m 1982, Atal ̣ ngư ơ ̀ i nói đã đềề xuấất ất m ột mô hình hình mơ c̣ go ị là kích thích đa xung .Trong mô ́ i về kích thích , đư ơ hình này , không cần cần biết trư ơ thanh h ay vô tha thanh . Sƣ ̣kích kích thích ́ c xem đó là âm hƣ ̃ u tha đư ơ ố xung xung có có biê biênn đ ộ và vi trí b̀ ng vi ệc cƣ c̣ c̣ mô hình hóa bơ c̣ xá c định b̀ ̣ đư ơ ̣trí ̉ i m ột số tiê ̉ u hóa hóa sai sai l ệch, có tính đến tro ng c̣ a ̉ m , giƣ ̣ số thu ca ̃ a tiếng nói gốc và tiếng nói tô ̉ ng hơ hình này đã gâ gâ y chú ý và đó đó là mô hình đầ ầu tiên cu ̉ a m ột thế hệ p̣ . Vi ệc đư a ra mô hình mơ tích b̀̀ ng tô ̉ ng hơ p̣ (Analisis by Synthesis). Tín ́ i cu ̉ a các bộ điều chế tiếng nói phân tích b cách ky ̃ lư ơ ̃ ng và ngư ơ hiệu kích thích se c̣ tối ư u hóa m ột cách ̃ đư ơ ̀ i ta sƣ ̉ du ṇ g k ỹ thuật mã hóa da ng ̣ sóng đê ̉ mã hóa tín hiệu kích thích này một cách có hiệu qua ̉ . ỉ tiêu đánh giá thuật toán mã hoá: Chỉ tiêu hóa tố ốc đ ộ bit và tối tối ư u hóa chất - Hai mục tiêu quan trọng đt ra là : tối thiê ̉ u hóa lƣợng. Hai mu c̣ tiêu này thư ơ Tốc độ đ ộ bit đư ơ c̣ tính b̀ ng ̀ ng có mâu thuâ ̃n vơ ́ i nhau . Tốc vơ bps. Chất lu ơ c̣ đánh giá ơ c̣ tái ta ọ la i ̣ da ng ̣ đư ơ ̣ tư ơ ng tƣ ̣vơ ̉ vi ệc đư ơ ́ i m ột sai sốố ̛ ng cang nho ̉ càng tốt tốt . Vi ệc lấy mâ ̃u không a ̉ nh hư ơ chất lư ơ ng ng ̣ . Còn lư ơ ̣ tƣ ̉ hóa ̉ ng đến chất thì có thê ̉ gây ra nhƣ mất ất mát thô ng tin so vơ ầu đư ơ c̣ go ị ̃ ng sai số làm mấ ́ i tín hi ệu ban đầầu
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 20
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
là nhiê ̃u lư ơ tín hi hi ệu trên trên nhiê nhiê ̃u (SNR) đư ơ ng c̣ dung đánh giá chất lư ơ ng ̣ tƣ ̉ . T số tín ̣ tiếng nói. Nếu Nếu t ̉ số này thấp thấp ngư ơ c̣ tiếng nói không tốt . ̀ i nghe se ̃ thu đư ơ lƣợng chấp chấp nh nh ận đư ơ - Chất lƣợng c̣ có SNR khoa ̉ ng trên 30 dB. Theo tính toán việc thêm 1 bit biê ̉ u diê ̃n giá tri lu ng 6dB, tƣơng tự sẽ ̣ ̛ ơ ̣lu ̣ tƣ ̉ se ̃ làm ta ̆ ng SNR lên khoa ̉ ng giảm 1 bit làm SNR gia ̉ m xuống xuống 6dB. - Ngƣời ta thƣờng dùng m ột tiêu chuâ ̉ n go ịị là MOS (Mean Opinion Score) đ so sánh chất chất lư ơ ết m ộ t thuật ng ̣ mã hoá tiếng nói , vơ ̣ ̀ 1 đến 5, cho ta biế ̣tƣ ́ i thang giá tri tƣ toán điều chế đa t ̣ đư ơ chất lư ơ nhiên hay không . c̣ chất ng ̣ có gần vơ ́ i tiếng nói tƣ ̣nhiên 3.1.1 Phƣơng pháp mã hoá tiếng nói dạng sóng Kiê ̉ u mã hóa này cố ǵ ng mã hóa da ng tiếếng ếng nói nói m ột cách cách có hiệu hiệu qua qua ̉ , ̣ sóng cu ̉ a tiế dạng đơn giản giản là điều chế chế xung xung mã PCM , ngoài ra còn có các thuật toán khác có thê thê ̉ làm gia ̉ m tốc tốc đ ộ bit ho n nƣ a. Công nghệ mã hóa dạng sóng thư ơ ̀ ng cho tiếng nói chất ̛ ̃ lƣợng tốt với bng thông 16kbps trơ ̉ lên. Đê ̉ tránh hiện tư ơ ng đư ơ c̣ lo c̣ trư ơ ̣ chồng phô ̉ , tiếng nói tư ơ ng tƣ ̣đu ́ c khi số hóa đê ̉ loại loại trừ trừ các các thành thành ph ph ần tần số cao không mong muốn muốn . Phô ̉ tiếng nói có thê ̉ gồm ca ̉ nhƣ ần t ần số ố tơ nhƣng do hầu hết các các t ần s ố tiếng nói tậ p trung ̃ ng thành phầần ́ i 10 kHz, nhƣng vào khoảng t ừ (300 Hz – 3.4 – 3.4 kHz) nên tín hiệu tiếng nói đư ơ c̣ lo c̣ đi đê ̉ loa i ̣ bo ̉ thành phần phần ngoài khoả ng tần số ấy.Theo đi nh tần số lấy lấy mâ ̃u se ̃ là 8 kHz. Hệ ̣ luật lấy mâ ̃u thì tần thống như vậy go ị là PCM (Pulse Code Modulation). Phô ̉ biến hiện nay ngư ơ ̀ i ta cho ṇ tốc độ lấy mâ ̃u là 8 kHz và số bit lư ơ ố c độ đ ộ truyền truyền se ̃ là 64 kbps. Các ng ̣ tƣ ̉ n =8, tƣ ́ c là tố bit mã hóa đư ơ truyền tuần tuần tƣ ̣ trên trên đư ơ c̣ truyền ̀ ng truyền . 3.1.1.1 PCM (Pulse (Pulse Code Modulation)
PCM đều (uniform PCM):Đầu vào vào ca ca b ộ lƣợng lƣợng tử là tín tín hi ệu tư o ng tƣ ̣đã đã đư ơ c̣ ̛ đư a qua bộ lấy mâ ̃u .Vơ miền giá tri lu ng c̣ ̣ ̛ ơ ̣lu ̣ tƣ ̉ đư ơ ́ i mộ t bộ lƣợng tử dùng N bit tƣ ̀ mã ,miền N ̃ i tƣ ̀ mã N bit tư o ng ƣ ́ ng vơ cách giữa các mức chia thành 2 mƣ c, mô ̣ ́ i 1 giá tri .Khoảng ́ ̛ gọi là bƣớc lƣợng tử (step size).Bộ lƣợng tử quyết định xem với mỗi giá trị đầu ra là giá tri lơ nhất cu ̉ a miền miền giá tri ̣ . Trong kiê ̉ u PCM PCM đề ều ,các ,các giá tri lu ng ̣ ́ n nhất ̣lơ ̣ ̛ ơ ̣lu ̣ tƣ ̉ cách đều nhau.Bƣớc lƣợng tử phải đƣợc chọn sao cho đ nhỏ đ có th tối thiu nhiễu lƣợng tƣ ̉ ,nhƣng nhƣng lại lại có th th đ đ lớn đ miền miền giá trị trị ca ca cả cả b ộ lƣợng lƣợng tử có có đ ộ lơ p̣ .Vơ ́ n thích hơ ́ i N tử N bit có bƣớc lƣợ ng một bộ lƣợng tử N ng tử là S,thì miền giá tri =2 *S. là ̣ R =2 ̣là Nếu Nếu N không đu ̉ lơ thì vi vi ệc ć t xé tín hi ệu vư ơ xén tín ṭ qua miền giá tri se ̣ ̃ xa ̉ y ra ̣se ́ n thì nhiều nhiều ho n và đó là d ̃ nhiên là một nguyên nhân khác cu ̉ a nhiê ̃u lư ơ ̃ ng tƣ ̉ . ̛ Phƣơng pháp này có nhƣợc đim là SNR ,tƣ ́ c là chất chất lư ơ ng ̣ không ch ̉ phu ṭ hu ộc vào bư ơ ṭ huộc và ca ̉ biên độ ca tín hiệu lấy lấy mâ ̃u . ng ̣ tƣ ̉ mà còn phu thuộc ́ c lư ơ Lương t hóa kiu PCM đều :Cần N cơ chất ̉ lên đê ̉ có thê ̉ đa ̉ m ba ̉ o chất ̃ 11 bit trơ lƣợng tiếng nói.Điều này làm tốc độ bit độ bit lơ c̣ sƣ ̉ du ng ̣ trong thƣ c̣ tế . ́ n nên chúng ít đư ơ SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 21
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
Lương t hóa Logarithm (logarithmic PCM):Mục tiêu ca phƣơng pháp này là duy trì một ty ̉ số SNR ít thay đô ̉ i trong toán pha ṃ vi giá tri biên đ ộ.Thay vì lư ơ ng ̣ ̣ tƣ ̉ hóa giá tri tu cu ̉ a tín hiệu lấy mâ ̃u ,trƣớc tiên ta tính toán hàm logarithm ca tƣ ̀ ng ̣ ̛ ơ ng tƣ ̣cu ̣tu giá tri rồi ṭ hu ộc vào vào bu bư ơ ng ng ̣ mơ ̣rồi ̣ tƣ ̉ hóa chúng .SNR se ̃ ch ̉ phu thu ̣ tƣ ̉ .Lƣợng tử ́ i lư ơ ́ c lư ơ logarithm là một quá trình nén , chúng làm gia ̉ m miền miền giá tri đầu ̣ vào một cách đáng kê ̉ ̣đầu tùy thuộc vào da ng dùng .Sau .Sau khi nén,một nén,một quá trình trình ngu ngư ơ c̣ dùng c̣ la ị là ̣ hàm logarithm đư ơ mũ hóa đƣợc sử dụng dụng đ tái tạo lại tín hi ệu nguy nguyên ên thu ̉ y ban ban đầ ầu .Toà .Toànn bộ chu trình đư ơ c̣ go ị là Companding (Compressing/expanding). Hai tiêu chuâ ̉ n đư ơ ến hi ện nay là luậtμvà luật A.Lƣợ ng ng tử hoá theo c̣ dùng phô ̉ biếến luật μ sử dụng ở Bắc M ỹ và Nhật B ản, trong khi đó lƣợ ng ng t ử hoá theo luật A đƣợ c s ử ở châu Âu. dụng ở châu Các mẫu tín hiệ u r ờ ời r ạc ạc theo biên độ đƣợc mã hoá nhị phân. nhị phân. Ví dụ, mã hoá theo luật A, ngƣời ta chia đƣờng cong logarith thành 13 đoạ n. Bit thứ nhất là bit có trọ ng số lớ n nhất, là bit đấu. Giá trị 1 chỉ thị tín hiệu dƣơng và giá trị 0 chỉ thị tín hiệu âm. Bit 2, 3, 4 xác định đoạn lƣợ ng ng tử hoá theo mỗi vùng âm và dƣơng. Bit 5, 6, 7, 8 là các bit có trọ ng số nhỏ nhất, xác định vị trí ca giá trị lƣợ ng ng tử hoá trong đoạn. 3.1.1.2 DM(Delta Modulation)
Là một trong nhƣ ̃ ng phư o ng pháp điều chế vi sai ,dƣ ạ trên trên tính tính chấ ất là tín hi ệ u ̛ tiếng nói ta ị thơ ṭ hu ộc vào vào tín tín hiệu hiệu ơ ̉ các thơ ̀ i điê ̉ m có ít nhiều phu thu ̀ i điê ̉ m trư ơ ́ c đó ,vì thế ta có thê ̉ dƣ ̣đoán đoán tín tín hi hi ệu ta ta i ̣ thơ hi ện ta i ̣,và ch ̉ cần cần lư u trƣ bi ệt ̃ giá tri ḳḳ hác bi ̀ i điê ̉ m hi giƣ đoán cu ̉ a tín hi ệu,sƣ ̣sai sai khác này,giúp tiế tiếết ết ki ệm ba ̆ ng ̣ c̣ và giá tri dƣ ̣thƣ ̣ ̣đoán ̣dƣ ̃ a giá tri thƣ thông đê ̉ đa t ̣ hiệu qua ̉ cao. Ý tư ơ ̉ ng cu ̉ a phư ơ ng pháp điều chế Delta là chỉ truyền đi giá trị thay đổ i tuyệt đối ca tín hi hi ệu.Dƣ ạ vào sƣ ̣khác khác nhau cu ̉ a tín hi hi ệu ta i ̣ thơ liền kề nhau mà ta tính ̀ i điê ̉ m liền đư ơ c̣ tín hiệu phải truyền trên đƣờng dây .Phƣơng pháp này chỉ sử dụng 1 bit đê ̉ mã hóa tín hiệu sai khác đó ,nghĩa là cho biết biết tín hi ệu ta i ̣ thơ ̀ i điê ̉ m t +1 là lơ ́ n hơ n hay nho ̉ hơn tín hiệu ta i ̣ thơ ̀ i điê ̉ m t. 3.1.1.3 DPCM(Differential PCM)
Đây là phư o ng pháp cu ̃ ng dƣ ạ trên nguyên t́ t́ c ch ̉ truyền truyền đi sƣ ̣khác khác nhau cu ̉ a tín ̛ hiệu ta i ̣ hai thơ +1.Khác vơ ̀ i điê ̉ m kề nhau là t và t ́ i DM ch ̉ dùng 1 bit đê ̉ gia ̉ i mã,DPCM dùng N bit đê ̉ có thê ̉ biê ̉ u diê ̃n giá tri sai Chất lư ơ ng ̣ khác này .Chất ̣sai ̣ điều chế khá tốt vơ ng ̣ bit cần dùng ít hơ n so vơ ́ i lư ơ ́ i PCM. SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 22
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI 3.1.1.4 ADPCM (Adaptive Differential PCM)-G.726
Là phư o ng pháp mơ Ngƣời ta vẫn dùng m ột số bit nhất nhất đi nh ̣ đê ̉ ̉ r ộng cu ̉ a DPCM . Ngƣời ̛ mã hóa sƣ ̣sai sai khác giƣ tín hi hi ệu ta ta ị 2 thơ ̃ a tín ̀ i điê ̉ m kề nhau ,nhƣng bƣớc lƣợng tử có th đư ơ c̣ điều ch ̉nh ta ị các thơ ̀ i điê ̉ m khác nhau đê ̉ tối ư u hóa việc điều chế . Vơ ộ bit ho n nƣ a mà chất chất lư ơ ệu tư o ng ṇ g tín hi ́ i mu c̣ tiêu làm gia ̉ m tốc đ ̛ ̃ ̛ đư o ng,ngƣời ta sử dụng phƣơng pháp thích nghi động giá tri cu a bu ơ c lu ơ ng tƣ tru ̣ ̣cu ̣ ̉ ̛ ́ ̛ ̉ ̛ ớc ̛ nhƣ biênn đ ộ tín hiệu vào .Mục đích đích là duy trì miền miền giá trị lƣợng lƣợng tử p hù ̃ ng thay đô ̉ i cu ̉ a biê hơ miền giá tri cu p̣ vơ c̣ go ị là phư o ng pháp Adaptive ̣ ̉ a tín hi ệu vào .Đây đư ơ ̣cu ́ i miền ̛ PCM(APCM).Thích nghi bư ơ c lu ơ ng tƣ có thê áp du ng cho ca kiê ng ̣ ̣ ̣ tƣ ̉ đều và ̉ ̉ ̉ u lư ơ ́ ̛ ̉ không đều .Tiêu chuâ ̉ n thay đô ̉ i bư ơ vào m ột số sốố thố ố ng kê kê về tín hi hi ệu có có ng ̣ tƣ ̉ dƣ ạ vào ́ c lư ơ liên liên quan quan đếến ến biên đ ộ ca nó .Có nhiều bư ơ toán đ tính toán toán bƣớc bƣớc lƣợng lƣợng tƣ ̉ . Thông ́ c toán thƣờng có 2 kiê ̉ u là feedforward APCM APCM và feedback APCM .Trong ca ̉ 2 kiê ̉ u ngư ơ ̀ i ta đều dựa trên những tính toán liên liên quan đến m ột khố ố i (block) mâ ̃u thu đư ơ trong ng m ột c̣ tro thơ biến đô ̉ i và nhƣ ng ̣ ,sƣ ̣biến ̃ ng đo đa ̣ c khác .Ta còn go ị là block ̀ i giannǵ n ,về na ̆ ng lư ơ companding.Trong kiê ̉ u feedback ,việc tính toán bu ơ ng c̣ thƣ c̣ hi ện trên ̣ tƣ ̉ đư ơ ̛ ́ c lư ơ mô ̃ i câu khi nó đư ơ c̣ đư a vào xƣ ̉ lý (vâ ̃n dùng giá tri bu ng ̣ ̛ ơ ̣ tƣ ̉ trư ơ ́ c lư ơ ́ c đó ),thì cho ra kết kết qua ̉ là một giá tri bu ̣ ̛ ơ ́ c lư ợng tử mới đƣợc dùng xử lý N mẫu tiếp theo . cách tiếếp ếp c ận khác ,dùng chính ngay giá tri bu Feedforward theo một cách ng ̣ ̛ ơ ̣ tƣ ̉ ́ c lư ơ đư ơ Nhƣ vậy vậ y qua trình xƣ ̉ lý pha ̉ i cần c̣ tính toán ngay trên N mâ ̃u đê ̉ xƣ ̉ lý N mâ ̃u đó . Nhƣ tơ môt bộ b ộ đệm đê ̉ chƣ ́ a khối dƣ ̃ li ệu lấ ấy mâ ̃u .Trong khi kiê ̉ u feedback có ư u điê ̉ m là ́ i môt rất rất nha ỵ ca ̉ m vơ ng ng ̣ tƣ ̉ vì nó có tính toán bư ơ ̣ tƣ ̉ và sƣ ̉ du ng ̣ ngay cho ́ i nhiê ̃u lư ơ ́ c lư ơ chính block mà tƣ ̀ đó nó thƣ c̣ hiện phép tính. 3.1.2 Phƣơng pháp mã hóa tiê ́ ng nói kiê ̉ u Vocoder
Vocoder là kiê ̉ u điều mã hóa nói dƣ ạ trên các tham số mô pho ̉ ng b ộ máy phát âm,khác vơ ng tƣ ̣ , gọi là mã hóa nguồn ̣ sóng cu ̉ a tiếng nói tư ơ ́ i mã hóa da ng Nguyên lý dƣ ạ trên vi ệc cho r r̀ ng tuyế tuyến âm thanh thay đô ̉ i tƣ ̀ tƣ ̀ ,trạng thái (Vocoder). Nguyên và cấu cấu hình cu ̉ a chúng ta i ̣ bất cƣ ́ thơ c̣ mô pho ̉ ng m ột cách gầần ̀ i điê ̉ m nào có thê ̉ đư ơ đúng đúng b̀ b̀ ng m ộ t tập nho ̉ các tham số Nhơ tuyến âm có tố tốốc đ ộ thay đô ̉ i tƣ ̀ tƣ ̀ cho . Nhơ ̀ việc tuyế phép mô ̃ i t ập tham số số có thê ̉ đa ị di di ện cho cho tra tra ng nó qua qua m ột khoảng thơ ̣ thái cu ̉ a nó ̣ng ̀ i gian ̃n đ c tính ính cu ̉ a nguồn nguồn kích thích và v à tuyến tuyến âm ch ̉ 25 ms.Hầu hết các Vocoder biê ̉ u diê b̀ b̀ ng mộ m ột tập tham số Nó gồm khoa ̉ ng 10 đến 15 hệ số cu ̉ a b ộ lọc đ định nghĩa các . Nó gồm đc tính cộng hư ơ nguồn phát ̣ ̛ n gia ̉ n đê ̉ ch ̉ ra nguồn ̣đo ̉ ng cu ̉ a tuyến âm ,1 tham số 2 giá tri đo âm là vô thanh hay hƣ ̃ u thanh ,1 tham số ch ̉ ra na ̆ ng lư ơ ng ̣ kích thích và 1 tham số ch ̉ ra chu kì co ba ̉ n (âm ś c ,chỉ có với hữu âm thanh ).Trạng thái ca tuyến âm đƣợc suy ̛ ra b̀ b̀ ng cách phân tích da ng ̣ sóng tiếng nói trong khoa ̉ ng thơ ̀ i gian 10 đến 25ms và tính toán ra một tập mơ phần c uố uốii cu ̉ a khoa ̉ ng thơ ̃ li ệu) tại phần ́ i cá c tham số (một khung dƣ ̀ i SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 23
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
gian đó.Khung dƣ p̣ ̃ liệu này đƣợ c truyền đi và sau đó dùng đê ̉ điều khiê ̉ n việc tô ̉ ng hơ lại tiếng nói .Vocoder có kha kh a ̉ na ̆ ng chuyê ̉ n giƣ ̃ a 2 kiê ̉ u nguồn kích thích là nguồn xung đốii âm hƣ ̃ u thanh và nhiê ̃u tŕ ng vơ đố p̣ se ̃ dùng 1 trong 2 ́ i âm vô thanh .Bên phía tô ̉ ng hơ nguồn này cho đi qua bộ lọc gồm các hệ số ca khung dữ liệu đê ̉ tô ̉ ng hơ p̣ tiếng nói . Ngoài việc đa t ̣ đư ơ tốc đ ộ bit thấp thấp ,Vocoder còn có ư u điê ̉ m là phân tích đư ơ c̣ tốc c̣ các tham số nguồn nguồn kích thích .Bit biê ̉ u thi ậậ m s ắc, âm lư ơ ng ̣ và âm h ữu thanh/âm vô thay đô ̉ i cu ̉ a chúng có thê ̉ thanh. Bản thân nó là các bit trong khung dƣ ̃ liệu, nên các sƣ ̣thay đư ơ trong khi tô ̉ ng hơ biến m ột âm âm tha thanh nh hƣ hƣ ̃ u c̣ sƣ ̉ a đô ̉ i trư ơ p̣ .Vì thế ta có thê ̉ biế ́ c ho c trong thanh thành một lơ thì thầ thầm ầ khi khi thiế thiếtt đ t la i ̣ giá tri cu ̣ ̉ a bit âm hữu thanh/âm vô ̣cu ̀ i thì Cũng có th th tha thay đổ đổii bản bản thâ thân câ câu nói nói bằng bằng các cách sửa sửa đổ đổii cá các tha tham m số số c ộ ng thanh.Cũng hƣởng. Nhƣợc đim ca phƣơng pháp này là cho tiếng nói có dạng tổng hợp , khó có kha ̉ nng nhận da ng c̣ ngư ơ ̣ đư ơ ̀ i nói. Mô ta ̉ bộ máy phát âm cu ̉ a con ngƣời: Khi chúng ta nói,âm thanh đư ơ c̣ ta ọ ra như sau:
- Không khí đu ơ c̣ đâ ̉ y vào phô ̉ i qua tuyến âm (vocal track) và miệng ta ọ thành câu nói .
̛ thanh thì d ây thanh (vocal (vocal cords) cords) rung rung lên. lên. Tố ố c đ ộ rung cu ̉ a dâ y - Đối với âm hữu thanh quyết đi ṇ h âm s ắc (pitch) ca tiếng nói . Phụ nữ và tre ̉ em thanh nhanh hay chậm quyết thƣờng có giọng thanh (âm ś c cao -dao động nhanh ho n),trong khi nam giơ ́ i thư ơ ̀ ng có ̛ giọng trầm (dao động chậm). - Âm thanh đƣợ c t ạo ra không phả i do sự rung ca các dây thanh mà do không khí bị dây thanh co thắt thì đƣợ c gọi là âm vô thanh. - Hình da ng ̣ âm thanh ta ọ ra . Khi ta nói, tuyến âm thay đô ̉ i ̣ cu ̉ a tuyến âm quyết đi nh hình da ng ̣ đ tạo ra các tiếng khác nhau ,nói chung là hình da ng ̣ cu ̉ a tuyến âm thay đô ̉ i một cách tƣ tƣ ,thƣờng là từ 10ms đến 100ms. ̀ ̀ - Lƣợng không khí từ phổi quyết định âm lƣợng (gain) ca tiếng nói . 3.1.3 Phƣơng pháp mã hóa lai (Hybrid)
Mã hóa dạng sóng nói chung không cho phép đa t ̣ chất lư ơ ng ̣ tiếng nói tốt ơ ̉ tốc độ bit độ bit dư ơ rất thấp thấp ,tuy c̣ tốc đ ộ bit rất ́ i 16Kbps.Mt khác mã hóa vocoder có thê ̉ đa ṭ đư ơ nhiên phư o ng pháp này tô ̉ ng hơ p̣ la i ̣ tiếng nói nên có như ơ c̣ điê ̉ m là rất ấ khó khó nh ậ n diện ̛ đư ơ xuyyên g p vấ ấn đề đề vơ hóa lai lai cố cốố ǵ ǵ ng t ậ n c̣ ngư ơ ̀ i nói và thư ơ ̀ ng xu ́ i nhiê ̃u nền .Mã hóa dụng ƣu đim ca cả hai phư o ng pháp điều chế trên Nó tiếng nói ơ ̉ tố ố c độ thấp, . Nó mã hóa tiếng ̛ mà la ị cho kết qua ̉ tiếng nói tái ta ọ la ị tốt ,có thê ̉ nh ận da da ng c̣ ngư ơ ̣ đư ơ ̀ i nói . Bng thông yêu cầu cầu thư ờng nằm trong khoảng 4.8 kbps đến 16kbps.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 24
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
Vấn đề co ba ̉ n đối vơ Vo coder là nguồn nguồn kích thích đư ơ m ột cách cách đo n c̣ mô pho ̉ ng một ́ i Vo ̛ ̛ giản:tín hiệu tiếng nói đư ơ làm cho cho tiế ếng nói nh ậ n c̣ coi là vô thanh hay hƣ ̃ u thanh ,nó làm đư ơ là v ẻ tự tự nhi nhiêên .Các phư o ng pháp mã hóa lai có ǵ ǵ ng c̣ có da ng c̣ nhân ta ọ ho n là ̣ đư ơ ̛ ̛ cải thiện điều này b̀ b̀ ng cách thay đô ̉ i nguồn kích thích tiếng nói theo các cách khác . Mã hoá lai phổ biến nhất là mã hoá phân tích bằ ng tổng hợ p AbS (Analysis by Synthesis), RPE-LTP, CELP, ACELP, CS-CELP, … Hầu hết các tiêu chuẩn mã hoá tiếng nói trong liên lạc di động đề u sử dụng mã hoá kết hợp mã hoá lai AbS. Do đó, phần này sẽ trình bày chi tiết mã hoá lai AbS. 3.1.3.1 Mã hoá phân tích AbS
Hình 18Hình 3.1 Mô hình chung bộ mã hoá phân tích bằ ng tổng hợ p AbS Cấu trúc cơ bả n ca mô hình chung bộ
mã hoá tiếng nói phân tích bằng tổng hợ p AbS đƣợc mô tả nhƣ hình 2.1. Mô hình trên bao gồ m ba phần chính. Phần đầu tiên là bộ lọc tổng hợp, thƣờng đƣợ c gọi là bộ lọc tƣơng quan ngắn hạn bởi các hệ số đƣợ c tính ra dựa trên dự đoán một mẫu tiếng nói bằng các mẫ u tiếng nói trƣớc đó (thƣờng là 8 đến 16 mẫu, do đó gọi là ngắ n hạn). Bộ lọc tổng hợp cũng có th là bộ lọc tƣơng quan dài hạn nối tầng bộ lọc tƣơng quan ngắ n hạn. Các đoạn tiếng nói hữu thanh có ợ giúp cho quá dạng sóng tuần hoàn và sự tuần hoàn này có th đƣợc khai thác đ tr ợ giúp trình dự đoán tiếng nói. Cũng nhƣ các bộ dự đoán ngắn hạn là các bộ dự đoán tuyến tính nhƣng trong khi bộ dự đoán ngắn hạn thực hiện việc dự đoán dựa trên các mẫu k ề
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 25
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
nhau trƣớc đó thì bộ dự đoán dài hạn d ựa trên các mẫ u t ừ một hay nhiều chu kì pitch trƣớc đó (do đó, gọi là dài hạ n). Phần thứ hai ca mô hình là bộ tạo xung kích thích, tạo ra chuỗi kích thích đƣa vào bộ lọc tổng hợp đ tạo ra tiếng nói tái tạo bên phía thu. Cuối cùng là bộ giảm thiu sai số cung cấp thông tin cầ n thiết cho bộ tạo tín hiệu kích thích. Trong phần sau, ta sẽ trình bày về bộ lọc t ổng hợp LPC và tổng h ợp pitch cũng nhƣ cách tính toán các thông số. ự đoán ngắn hạn STP (Short Term Predictor) a, Dự đoán Dự đoán ngắn hạn mô hình hoá đƣờ ng ng bao phổ ngắn hạn ca tiếng nói. Đƣờ ng ng bao phổ ngắn h ạn ca đoạn tiếng nói có độ dài L mẫu có th đƣợc mô hình hoá bở i b ộ lọc số toàn đim cực có dạng sau: H (z ) =
1 1 P s (z )
1
=
(3.1)
p
ak z
1
k
k =1
vớ i
p
ak z k
P s ( z ) =
(3.2)
k =1
là bộ dự đoán ngắn hạn. Trong đó, các hệ số ak đƣợc tính toán theo phƣơng pháp dự đoán tuyến tính (LP). Tập các hệ số ak đƣợ c gọi là các tham số LPC hay còn gọi là các hệ số dự đoán, p là số lƣợng các hệ số dự đoán hay còn gọi là bậ c dự đoán. Nhƣ vậy, ý tƣở ng ng ca phân tích tuyến tính là các mẫ u tiếng nói có th xấ p xỉ bằng tổ hợ p tuyến tính ca các mẫ u tiếng nói trong quá khứ (8-16 mẫu) p
s (n) =
(3.3)
ak s(n k ) k =1
Trong đó, s(n) là mẫ u ti ếng nói tại thời đim l ấy mẫu n, s(n) là mẫu tiếng nói dự đoán tại thời đim n. Sai số giữa giá trị dự đoán và giá trị thực e(n) là: p
e(n) = s(n) s (n) = s(n)
ak s(n k )
(3.4)
k =1
Biến đổi Z biu thức (3.4) ta có:
æ E (z ) = S( z ) å ak S( z )z = S( z ) ç1 è k 1 p
k
=
vớ i A(z ) = 1
p
å k =1
ö = S( z ) A( z ) ø
ak z k ÷
(3.5)
p
ak z k
(3.6)
k =1
là nghịch đả o ca H(z). Vì vậy, A(z) đƣợ c gọi là bộ lọc đảo. Các hệ số dự đoának đƣợc tính bằng cực ti u hoá sai số bình số bình phƣơng trung bình bì nh trên đoạn ngắn (10-20 ms) ca dạng sóng tiếng nói.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 26
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI é E = å e (n) = å ê s(n) n n ë
ù a s ( n k ) å k ú k 1 û p
2
2
(3.7)
=
Đ tìm các giá trị ak mà E cực tiu, ta đ t E / ai = 0 vớ i i=1, ..., p. ì é ¶ E = å í 2 s(n) ¶ai n ïî êë
p
å a s(n k
ù
ü
û
ïì
k ) ú s(n i ) ì = 0
k =1
(3.8)
p
Û å s(n)s(n i ) = å å ak s(n k )s(n i ) n
n
(3.9)
k =1
p
Û å s(n)s(n i ) = å ak å s(n k )s(n i ) n
k =1
Đt:
(i , k ) =
(3.10)
n
(3.11)
s(n i )s(n k ) n p
(3.10) đƣợ c biến đổi thành:
ak (i , k ) = (i , 0)
, i=1, …, p
(3.12)
k =1
Có hai phƣơng pháp đ thực hiện điều này, đó là phƣơng pháp tự tƣơng quan và phƣơng pháp hiệp phƣơng sai. Phần sau chỉ trình bày về phƣơng về phƣơng pháp tự tƣơng quan. Phƣơng trình (3.12) đư ơ c̣ áp dụng chỉ trong trƣờng hợp nếu mô hình tiếng nói là quá trình ngâ ̃u nhiên dƣ ̀ ng . Tất nhiên tín hiệu tiếng nói không là như thế trong khoa ̉ ng dài cu ̉ a thơ tín hi hi ệu tiế ếng ̀ i gian , cho phép tính dƣ ̀ ng là xác thƣ c̣ ch ̉ trong khoa ̉ ng nǵ n tín nói. Giả sử các đoạn thoại tiến đến 0 khi nằm ngoài giớ i hạn cho trƣớ c 0 n L 1, vớ i L là độ dài ca khung phân tích STP. Điều này tƣơng đƣơng với nhân tín hiệ u tiếng nói đầu vào vớ i cửa sổ w(n) có độ dài hữu hạn và bằng 0 nằm ngoài khoảng trên. Ta xét công thứ c (3.7) trong khoảng 0 n L + p 1: L + p 1
i = 1,..., p
s(n i )s(n k ) ,
(i , k ) =
k = 1,..., p
n=0
(3.11)
Đt m = n i : L 1 ( i k )
(i , k ) =
s(m)s(m + i k )
(3.12)
m= 0
(i , k )
chính là hàm tự tƣơng quan tín hiệu ca s(m) với độ dịch i-k: (3.13)
(i , k ) = R (i k )
vớ i R ( j ) =
L 1 j
L 1
s(n)s(n + j ) = n= 0
s(n)s(n j )
(3.14)
n= j
Nhƣ vậy, công thức (3.12) có th viết lại thành:
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 27
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI p
(3.15)
ak R ( i k ) = R (i ) k =1
ận, ta có: Biu diễn dƣớ i dạng ma tr ận, é R (0) R (1) R (2) ê R (0) R (1) ê R (1) ê R (2) R (1) R (0) ê ... ... ... ê ê R ( p 1) R ( p 2) R ( p 3) êë
... ... ... ... ...
R ( p 1) ù é a1 ù
é ú ê úê R ( p 2) ú ê a2 ú ê R ( p 3) ú ê a3 ú = ê ú ê úê ú ê ... úê R (0) ú ê a p ú ê úû êë úû ë
R (1) ù
ú
R (2) ú R (3) ú
ú ú R ( p) ú û
(3.16)
Do có cấu trúc Toepliz (là ma trận đố i xứng), nên phƣơng pháp đệ quy LevinsonDurbin đƣợc dùng đ giải quyết vớ i giải thuật nhƣ sau: E (0) (0) = R (0) For i=1 to p do i 1
a j i 1R (i j )
R (i ) j =1
k i =
(3.17)
E (i 1)
ai i = k i For j=1 to i-1 do
a j i = a j (i 1) k i ai i j 1
(3.18)
E (i ) = (1 k i 2 )E (i 1)
(3.19)
K ết quả cuối cùng ca giải thuật: a j = a j ( p)
, j = 1, …, p
(3.20)
E(i) ở biu thức (3.19) là lỗi dự đoán ca bộ dự đoán bậc i. k i là hệ số phản xạ và nằm trong khoảng 1 k i 1 .
Ví dụ cho p=2, khi đó: é R (0) R (1) ê êë R (1) R (0)
ù é a1 ù é R (1) ú=ê úê úû êë a2 úû êë R (2)
ù ú úû
Đối vớ i i=1: E (0) (0) = R (0) k 1 = a1(1)
R (1) R (0)
=
k 1 =
R (1) R (0)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 28
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
2
(0) = E (1) = (1 k 1 ) E (0)
R 2 (0) R 2 (1) R (0)
Đối vớ i i=2: k 2
=
R (2) a1R (1) R (2) R (0) R 2 (1) = E (1) R 2 (0) R 2 (1)
a2(2 )
=
k
a1(2 )
=
a1(1) k 2 a1(1) =
R (1)R (0) R (1)R (2) R 2 (0) R 2 (1)
K ết quả: a1 = a1(2 )
và a2 = a2(2 )
Nhƣ đã đề cậ p ở phần trƣớc, các mẫ u tiếng nói s(n) bằng 0 nằm ngoài đoạn 0 n L 1. S ự cắt xén thình lình ca các khung tiếng nói có khả nng tạo ra sự thay đổi l ớ n trong lỗi dự đoán tại đi m b ắt đầu và kết thúc c a khung tiếng nói đƣợc phân tích. Vấn đề này đƣợ c giải quyết bằng cách sử dụng cửa sổ Hamming, có tác độ ng thu hẹp đối với các rìa c a một khối trong khi nó không có tác động nào trong các dả i giữa ca nó: w (n) = 0.54 0.46cos(
2 n
L 1
)
, 0 n L 1
(3.21)
L là độ dài khung phân tích LPC. Độ dài ca cửa sổ Hamming đƣợ c sử dụng thƣờng dài hơn độ dài ca khung thoại. Các cử a sổ chồng lên nhau sẽ tạo hiệu ứng mƣợt trong phân tích LPC, có nghĩa là sẽ làm giảm sự thay đổi đột ngột các hệ số phân tích LPC giữa các khung đƣợc phân tích. Hệ số phản xạ: Trong thực tế, các hệ số dự đoán ak không đƣợc tính toán trự c tiếp. Thay vào đó, mộ t s ố hệ số phản xạ đƣợc tính từ các hệ số tự tƣơng quan ca kh ối tiếng nói. Các hệ số phản xạ k i thu đƣợc trong quá trình giải công thức (3.12) bằng giải thuật Levinson-Durbin. Khi k i tiến đến 1 thì các đi m c ực c a hàm truyền H(z) cũng tiến đến vòng tròn đơn vị . Sự thay đổi nhỏ về k i dẫn đến sự thay đổi lớ n về phổ. Do đó, các hệ số phản x ạ đƣợ c biến đổi thành tập các hệ số khác gọi là các t số vùng logarit LAR. Vì các t số vùng logarit LAR đƣợc nén giả n theo luật logarit có các tính chấ t lƣợ ng ng tử tốt hơn các hệ số k i. LAR LAR (i ) = log
1 k i
(3.22)
1 + k i
Hàm mật độ xác suất (PDF) các tham số LAR ca b ộ lọc bậc tám đƣợc trình bày nhƣ hình 2.2. Ta thấy r ằng dải động ca các tham số LAR(i) giảm khi i tng. Do đó, SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 29
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
các bit đƣợ c ấn định cho các tham số LAR càng nhiều khi bậc ca LAR càng nhỏ . Điều này, lý giải trong trƣờ ng ng hợp lƣợ ng ng tử hoá 8 LAR trên khố i 20 ms tiếng nói bằ ng 6 bit cho LAR(1) và LAR(2), 5 bit cho LAR(3) và LAR(4), 4 bit cho LAR(5) và LAR(6) và 3 bit cho LAR(7) và LAR(8).
Hình 19Hình 3.2 Đồ thị hàm mật độ xác suất của 8 hệ số LAR đầu tiên Nội
suy các tham số LPC: Nhƣ đã nói ở phần trƣớc, độ dài khung kích thích thƣờ ng ng nhỏ hơn độ dài khung LPC. Khung LPC đƣợc chia thành nhiều khung con, và SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 30
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
các tham số kích thích đƣợ c cậ p nhật ở mỗi khung con này. Hình 2.3 sẽ chỉ ra mối quan hệ giữa khung, khung con, và cử a sổ Hamming đƣợ c sử dụng đ tính ra các th am số LPC. Mỗi khung thoại bao gồm 160 mẫu (20 ms), khung con g ồm 40 mẫu (5 ms) và cửa sổ Hamming gồm 200 mẫu (25 ms). Trong ví dụ này, các tham số LPC sẽ đƣợ c truyền đi mỗi 20 ms. Đ làm giảm bớt các thay đổi độ t biến trong bản chất đƣờ ng ng bao tín hiệu tiếng nói quanh rìa khung phân tích LPC, nộ i suy ca các tham số LPC giữa các khung kế cận nhau đƣợ c sử dụng đ thu đƣợc các thông số cho mỗi khung con, bằng cách cậ p nhật chúng mỗi 5 ms trong khi truyền chúng mỗi 20 ms.
Hình 20Hình 3.3 Mối quan hệ giữa khung, khung con và cử a sổ Hamming Các hệ số dự đoán aikhông đƣợ c s ử dụng trong nội suy, bởi các tham số nội suy trong trƣờ ng ng hợp này không đảm bảo cho bộ lọc tổng hợp đƣợ c ổn định. Nội suy đƣợ c sử dụng đ biến đổi các tham số ở các bộ lọc cần sự ổn định, ví dụ nhƣ LARs. Gọi f n là các tham số LPC trong khung hiện tại, f n-1 n-1 là các tham số ở khung k ề trƣớc đó, thì tham số LPC đƣợ c nội suy sf suy sf k k tại khung con k đƣợc tính nhƣ sau: sf k =
f
k n 1 +
(1
) f n
(3.23)
k
vớ i δk thuộc đoạn [0,1], δk giảm dần theo chỉ số ca khung con.
Ở ví dụ dƣới đây, δk = 0.75, 0.5, 0.25 và 0 tƣơng ứng v ớ i k= 1, ..., 4. 4 . Vớ i những giá trị này, tham số LPC đƣợ c nội suy trong bốn khung con nhƣ sau: sf 1 = 0.75 f n 1 + 0.25 f n sf 2
=
0.5 f n 1 + 0.5 f n
sf 3 = 0.25 f n 1 + 0.75 f n
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 31
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI sf 4
=
f n
ự đoán dài hạn LTP (Long Term Predictor) b, Dự đoán Lọc tiếng tiếng nói nói bằng bằng b ộ lọc đảo A(z)có xu hư ơ nhiề iề ều đ ộ thƣ ̀ a b̀ng cách ́ ng loa i ̣ bo ̉ nh trƣ ̀ mô ̃ i mâ ̃u tiế ếng nói m ột giá giá tri tri dƣ đoán cu ̉ a nó dùng bở i pmâ ̃u trong quá khƣ ́ . Tín ̣ ̣đoán ̣dƣ đoán nǵ nǵ n ha ṇ và nói chung nó se ̃ có lư ơ hiệu nhận đu ơ c̣ go ị là dƣ thừ a dƣ ̣đoán ng ̣ chu ̛ c̣ đư ơ kì nhất đi nh c̣ phát âm . Tính ̣ liên quan đến chu kì pitch cu ̉ a tiếng nói gốc khi nó đư ơ ng b ộ dƣ ̣đoán chu kì này thê ̉ hi ện mƣ mƣ ́ c dư thƣ ̀ a nƣ đoán pitch hay ̃ a mà ta có thê ̉ loa i ̣ bo ̉ b̀ ng còn gọi là bộ dƣ ̣đoán đoán dài ha ṇ . Dạng tổng quát ca bộ lọc dự đoán dài hạn nhƣ sau : 1
P ( z )
=
1 1 P l ( z )
1
=
m2
Gk z (
1
+
k )
(3.24)
k ==- m1
Trong đó: m2
Gk z (
P l (z ) =
+
k )
(3.25)
k ==- m1
là bộ dự đoán dài hạn; m1 ,m2 xác định s ố đim trích bộ dự đoán; α là chu kì pitch hay gọi là độ tr ễ LTP và Gk là hệ số khuếch đại LTP. Các tham số αvà Gk đƣợc xác định bằng cực tiu hoá sai số còn dƣ bình phƣơng trung bình sau khi dự đoán dài hạn và ngắn hạn trên chu kì N mẫ u. Đối vớ i dự đoán 1 đim trích, sai số dự đoán LTP e(n) đƣợ c cho bở i: i: e(n) = r (n) Gr (n
)
(3.26)
ở đây, ở đây, r(n) là phần dƣ tạo nên sau dự đoán ngắn hạn. Phần dƣ bình phƣơng trung bình E là: N 1
E =
å
N 1
2
e (n) =
n= 0
å éër (n) Gr ( n
) ùû
2
(3.27)
n=0
E / G = 0nên: N 1
r (n)r (n G
n=0 = N 1
[ r (n
) 2
)]
(3.28)
n= 0
Thế G vào(3.27), ta có
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 32
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI é N 1 êå r (n)r (n N 1 2 E = å r (n) ë n N 0 1
ù )ú û
=
n=0
å[r (n
2
2
)]
(3.29)
n= 0
Cực ti u sai số E, t ức
là tối đa biu th ức th ứ hai ở vế phải đa thức (3.29). Nghĩa là cực đại hoá tƣơng quan chéo giữa STP dƣ r(n) hiện tại và phiên bản tr ễ ca nó. Giá tr ị α đƣợ c chọn là giá trị lớ n nhất. Sự ổn định ca bộ lọc tổng hợ p pitch 1/P(z) không phải lúc nào cũng ổn định. Đối v ớ i d ự đoán 1 đim trích, điề u ki ện ổn định là G 1. Do đó, đ bảo đảm tính ổn định ca bộ lọc thì đt G = 1 khi G 1.
Ứng dụng các phƣơng pháp cơ sở mã hóa âm thanh trong truyền thông. 3.2.
̀ u đô ́ i vơ 3.2.1 . Các yêu câ i ̣ i một bộ mã hóa âm thoa
́ Trong hầu hết các bộ mã hóa âm thoa i,̣ tín hiệu đư ơ c̣ xây dƣ ng ̣ la i ̣ se ̃ khác vơ ́ i tín ǵ ng làm ta ̆ ng chất lư o ng âm thoa i ̣ se ̃ dâ ̃n hiệu nguyên thu ̉ y . Nguyên nhân là do khi cố ǵ ̛ đến việc làm gia ̉ m các các đ c tính tính tố ố t khác cu ̉ a h ệ thống. Các yêu cầu lý tư ơ ̉ n g cu ̉ a m ột bộ mã hóa thoa i ̣ bao gồm : Tô ́ c độ đ ộ bit thâ ́ p : đối vơ ́ i chuô ̃i bit mã hóa có tốc bit t ̉ l ệ thuận vơ ́ i ba ̆ ng thông cần cho truyền dƣ Tốc độ bit thấp thấp se ̃ làm ta ̆ ng hi ệu suấ suấất ất cu ̉ a h ệ thống. Tuy nhiên ̃ li ệu. Tốc yêu cầu này la ị xung đột vơ ng ̣ âm ́ i các các đc tính tốt khác cu ̉ a h ệ thống như chất lư ơ thoại. Tốc độ thoại thoại càng càng cao cao thì thì đòi đòi hỏi hỏi tốc đ ộ bit càng cao , đ bảo đảm âm thoại tại phía nhận đư ơ b̀ ng vơ tốc ố đ ộ ca môt ngƣời bình thƣờng nói c̣ phát ra vơ ́ i tốc đ ộ b̀ ́ i tố chuyện lu u loát. ̛ Châ ́ t lư ơ ơ ng i ̣ cao : tín hiệu âm thoa i ̣ đã gia ̉ i mã pha ̉ i có chất lư ơ ng ̣ có thê ̉ ̣ thoa chấ ấp nh nhận ận đư ơ cần đa ṭ . Có rất rất nhiều khía ca nh ề m t chấ chất ấ lư ơ c̣ đối vơ ng ̣ cần ̣ về ̣ ́ i ƣ ́ ng du ng bao gồm gồm tính dê ̃ hiê ̉ u , tƣ ̣nhiên nhiên , dê ̃ nghe và cu ̃ ng như có thê ̉ nh ận da ng ̣ ngư ơ ̀ i nói l à nam hay nƣ ̃ , già hay trẻ, … Cƣờng độ mạnh ở trong kênh truyền nhiễu : đây là yếu yếu tố quan tro ng ̣ đối vơ ́ i các hệ thống thống truyền truyền thông số vơ chất lư ợng ca tín ̣ đến chất ̉ ng ma nh ́ i các nhiê ̃u a ̉ nh hư ơ hiệu thoa i.̣ Kích thươ ơ ́ c b ộ nhơ p̣ tính toán thâ ́ p : nh̀m mu c̣ đích sƣ ̉ ́ thâ ́ p và đ ộ phƣ ́ c ta dụng đƣợc bộ mã hóa âm thoa i ̣ trong thƣ c̣ tế . Chi phí thƣ c̣ hiện liên quan đến việc triê ̉ n gồm ca ̉ ch i phí phí cho cho bộ bộ nhơ cần thiết đê ̉ hô ̃ trơ khai hệ thống pha ̉ i thấp , bao gồm ̣khi h ệ ́ cần thống hoa ṭ động cu ̃ ng như các yêu cầu tính toán .
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 33
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
Độ trê ̃ mã hóa thâ ́ p : trong quá trình xƣ ̉ lý mã hóa và gia ̉ i mã thoa i ̣ , độ trê ̃ tín ̃ quá mƣ ́ c se ̃ sinh sinh ra nh nhiề iề ề u vấ ấn đề ề trong trong vi ệc thƣ c̣ hi hi ện hiệu luôn luôn tồn ta i ̣ . Việc trê trao đô ̉ i tiếng nói hai chiều trong thơ ̀ i gian thƣ c̣ . Khả nng nng cắt cắt bỏ khoảng khoảng l ng: khi nói chuyện không pha ̉ i âm thoa i ̣ đƣ đƣ ợc ph phát át ra liên tu c̣ mà có nhƣ ̃ ng khoa ̉ ng l ng. ng. Đó Đó là nhƣ là lúc nghe nghe ̃ ng lúc đƣ ̀ ng la i ̣ lấy hơ i h ay là ngƣời khác nói . Nhƣ c̣ nhận ra và ć t bo ̉ có thê ̉ giúp ̃ ng khoa ̉ ng lng này nếu có thê ̉ đư ơ làm gia ̉ m tốc độ bit hệ thống thống mã hóa âm thoa i ̣. ơ ơ ng 3.2.2. Các tham sô ́ liên quan đê ́ n châ ́ t lư i ̣ ̣ thoa Các tham số truyền truyền dâ ̃n co ba ̉ n liên quan đến đến chất lư ơ ng ̣ thoa i ̣ là : ̛ - Tham số đánh giá cu ơ ng ̣ /tô ̉ n hao tô ̉ ng thê ̉ (OLR-Overall Loudness ̛ ̀ ng đ ộ âm lư ơ
Rating)
dâ ̃n tín hiệu giƣ cuối gây ra nhƣ ̃ ng khó kha ̆ n trong trong vi ệc ̃ a hai đầu cuối ̀ i.̣ Trê ̃ bao gồ m: trê ̃ chuyê ̉ n mã thoa ị , trê ̃ mã hóa kênh , trê ̃ ma ng hội thoa ̣ và trê ̃ xƣ ̉ lý tín hiệu thoa i ̣ đê ̉ loa i ̣ bo tiếng vo ng ̣ và gia ̉ m nhiê ̃u ơ ̉ chế độ Handsfree. ̉ - Tiếng vo ng ̣ (echo). ất phần đầầu ầu ho c phầ ần cuố i cu ̉ a cu ṃ tín tín hi ệu ng - Ć t ngu ̣ mấ ̛ ơ ̃ ng (clipping): là hiện tư ơ thoại, do quá trình xƣ ̉ lý khoa ̉ ng lng bi sai ̣ . ̣sai - Các tính chất liên quan đến độ nhạy tần số . - Xuyên âm (sidetone loss). ̃u nền... - Nhiê ̃: thơ truyền - Trê i gian truyền
ơ ơ ng 3.2.3. Các phương pháp đánh giá châ ́ t lư i ̣ cơ ba n ̣ thoa
̉ b̀ ng cách đánh đánh c̣ thƣ c̣ hi ện b̀ Việc đánh giá chất lu ơ ̣ thoa i ̣ trong ma ng ̣ có thê ̉ đư ơ ̛ ng giá các tham số truyền truyền dâ ̃n có a ̉ nh hư ơ chất lư ơ ộng ng ̣ thoa i ̣ và xác đi ṇ h tác đ ̉ ng đến chất ca các tham số này này đối đối với chất lƣợng tổng tổng th . Tuy nhiên, việc đánh giá từng tham tham số rấ rấtt phƣ ́ c ta p tốn kém . Hiện nay, việc đánh giá chất lư ơ ̣ và tốn ng c̣ dƣ ạ trên ̣ thoa i ̣ đư ơ chất lư ơ ng một tham số chất ̣ tô ̉ ng thê ̉ là MOS (Mean Opinion Score). Nhƣ ̃ ng phư ơ ng pháp sƣ ̉ du ng chất chu ̉ quan do chúng phu ṭ huộc vào quan điê ̉ m cu ̉ a ̣ MOS đều mang tính chất ngƣời sử dụng dịch vụ . Tuy vậy, chúng ta có thê ̉ phân chia các phư o ng pháp đánh giá ̛ chất chất lư ơ ng ̣ thoại ra làm hai loại cơ bản : - Các phu o ng pháp đánh giá chu ̉ quan : việc đánh giá theo quan điê ̉ m cu ̉ a ngu ơ ̛̛ ̛ ̀ i sƣ ̉ dụng về mức chất lƣợng đƣợc thực hiện trong thơ ̀ i gian thƣ c̣ . m ột số mô hình đê ̉ ư ơ - Các phu o ng pháp đánh giá khách quan : sƣ du ng ng ̣ một ̣ mƣ ́ c ́ c lư ơ ̉ ̛̛ chất chất lư ơ ng ̣ theo thang điê ̉ m MOS . SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 34
CHƢƠNG 3: CÁC PHƢƠNG PHÁP CƠ SỞ TIẾNG NÓI
3.2.3.1. Phƣơng pháp đánh giá chủ quan (MOS)
Kỹ thuật này đánh giá chất lư ơ lư ơ ng ṇ g là m ột sốố lu ng ̣ thoa i ̣ sƣ ̉ du ng ̣ đối tư ơ ̣ lơ ́ n ngƣời nghe , sƣ ̉ du ng chất lư ơ ng ̣ phư ơ ng pháp thống kê đê ̉ tính điê ̉ m chất ̣ . Điê ̉ m đánh giá bình quân cu ̉ a nhiều nhiều ngư ơ c̣ tính là điê ̉ m Mean Opinion Scoring (MOS).Phƣơng ̀ i đư ơ thƣ ́ c đánh giá theo MOS có thê ̉ đư ơ c̣ thƣ c̣ hi ện theo các bài kiê ̉ m tra h ội thoa ị hai chiều chiều ho c bài nghe một chiề chiềuu . Các bài kiê ̉ m tra tra ng nghe he m ột chiề chiềuu sƣ sƣ ̉ du ng ̣ các mâ ̃u thoại chuẩn . Ngƣời nghe nghe mẫu truyền truyền qua m ột hệ thống và đánh giá chất lư ơ ng ̣ tô ̉ ng thê ̉ cu ̉ a mâ ̃u dƣ ạ trên thang điê ̉ m cho trư ơ ́ c . 3.2.3.2. Các phương pháp đánh giá khách quan truyền dâ ̃n vơ tín - Các phu o ng pháp so sánh : dƣ ạ trên việc so sánh tín hiệu thoa i ̣ truyền ́ i m ột tín ̛̛ biết ết . Tín hiệu dùng đê ̉ so sánh cu ̃ ng có thê ̉ dùng dùng chính chính tín tín hi ệu âm thoa i ̣ hiệu chuâ ̉ n đã biế đầu đầu vào . So sánh có thê ̉ dƣ ạ trên da ng hai tín hi hi ệu hoc so sánh đƣ ạ ̣ sóng âm thanh cu ̉ a hai trên các thông số đc trư ng cho âm thoa ị. tuy ệt đố đối : d ựa trên việc ư ơ tuy ệt đố ố i chấất ất lư ơ - Các phu o ng pháp u ơ ng ng ng ̣ tuy ̣ tuyệt ̣ ́ c lư ơ ̛̛ ̛ ́ c lư ơ tín hiệu thoa i.̣ ̃n : phƣơng pháp này xác định giá trị chất lƣợng thoại - Các mô hình đánh giá truyền dâ mong muốn muốn dƣ ạ trên nhƣ ̣ Ví dụ: mô hình ETSI Model. ̃ ng hiê ̉ u biết về ma ng.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 35
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ TIẾNG NÓI TRONG HỆ THỐNG GSM 4.1 Các bộ mã hoá tiếng nói dự tuyển cho hệ thống GSM Việc ch ọn b ộ mã hoá và giải mã tiếng nói (speech codec) thích hợ p nhất cho hệ thống GSM từ một tập các bộ mã hoá dự truyn đã đƣợ c dựa trên các phép thử so sánh
khái quát giữa một loạt các điề u kiện hoạt động. Các so sánh khắ t khe về chất lƣợ ng ng tiếng nói, sức kháng lỗi kênh, độ tr ễ hệ thống cũng nhƣ độ phức tạ p. 4.1.1 SBC- APCM
SBC-APCM là codec mã hoá bng con với PCM thích nghi theo khối. Codec này sử dụng các bộ lọc gƣơng cầu phƣơng QMF () đ phân
tách tín hiệu lối vào thành 16 bng con rộng 250 Hz, hai bng cao nhấ t trong số đó không đƣợ c truyền đi. Ấn đị nh bit thích t hích nghi n ghi đã đƣợ đƣ ợ c s ử dụng trong các bng con trên cơ sở t lệ công suất ca một loạt bng tạo thành nên thông tin biên cần truyền đi. Tốc độ truyền d ẫn t ổng c ộng c a các tín hiệu bng con là 10 kbps, thông tin biên là 3kbps mà chúng đƣợ c bảo vệ bởi độ dƣ thừa 3kbps ca mã sửa lỗi hƣớng đi FEC (Forward Error Correction). 4.1.2 SBC-ADPCM
SBC-ADPCM
là codec mã hoá bng con với PCM delta thích nghi. Trong sơ đồ này, tiếng nói lối vào đã đƣợc chia thành 8 b ng con, trong số đó chỉ có 6 bng đƣợ c truyền đi. Các tín hiệu bng con đã đƣợc mã hoá bằng mã vi sai với đánh giá ngƣợc và thích nghi đ đổi lại vớ i SBC-APCM đã đƣợc đề nghị, trong đó đánh giá thuận và thích nghi đã đƣợ c sử dụng. Ấn định bit ca các bng con đƣợc đ t cố định, do vậy không có thông tin biên nào đƣợ c truyền đi, nhờ đó ờ đó làm cho hệ thống thích nghi vớ i tạ p nhiễu nhiều hơn và thế không cần mã FEC. Tốc độ mã ca codec này chỉ 15 kbps. 4.1.3 MPE-LTP
MPE-LTP (Multi-Pulse
Excited LPC codec with Long Term Predictor) là codec dự doán tuyến tính kích thích đa xung vớ i bộ dự đoán dài hạn. Việc thực bộ mã hoá và giải mã tiếng nói cụ th đƣợ c sử dụng trong thử nghiệm đso sánh đòi hỏ i tốc độ truyền dẫn 13.2 kbps và mã hoá FEC đƣợ c gắn vào đó vớ i tốc độ 2.8 kbps nữa đã đƣợ c sử dụng đ bảo vệ các bit quan trọ ng nhất ca bộ mã hoá và giải mã tiếng nói. 4.1.4 RPE-LTP
Long Term Prediction) là codec LPC kích thích xung đều. Bộ mã hóa tiếng nói này dƣ ạ trên nền ta ̉ ng kích thích xung đều đoán dài ha ṇ và liên quan tơ (regular (regular pulse excitation excitation ) vơ ́ i dƣ ̣đoán ́ i 2 bộ mã hóa tiếng nói khác là: RELP RELP (Res (Residu idual al Exci Excite ted d Line Linear ar Pred Predic ictio tion n ) và MPE -LPC (Multi Pulse Excited Excited LPC). LPC ). Lơ ị thế cu ̉ a RELP là không quá phƣ ́ c ta p ̣ do sƣ ̉ du ng ̣ mã hóa da ̉ i tần gốc. Bộ mã hóa MPE-LTP phƣ ́ c ta p̣ ho n như ng nó cung cấ ấ p mƣ ́ c độ hiệu qua ̉ cao ho n . ̛ ̛ RPE-LTP (Regular Pulse Excited -
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 36
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM Bộ
tạp.
mã hóa RPE-LTP cho một kết qua ̉ khá tốt , cân b̀ b̀ ng giƣ ̃ a hi hi ệu na ̆ ng và tính phƣ ́ c Bốn
codec này đã đƣợc so sánh vớ i nhau về chất lƣợ ng ng tiếng nói, khả nng kháng tạ p nhiễu, các trễ xử lý và độ phức tạp tính toán ca chúng. Từ kinh nghiệm vớ i hệ thống tham chiếu điều t ần (FM), hai t lệ lỗi bit chỉ tiêu đã đƣợc đề nghị mà tại đó các só sánh về chất lƣợng đƣợ c thực hiện. Đim số ý kiến trung bình MOS (Mean Opinion Score) tính trung bình trên một thang đi m 5 tr ên ên nhiều điều ki ện thử nghiệm khác nhau đã đƣợc tìm ra là: Codec FM SBC-APCM SBC-ADPCM MPE-LTP RPE-LPC RPE-LTP
Bit rate (kbps) 16 15 16 13 13 Bảng 5Bảng 4.1
MOS 1.95 3.14 2.92 3.27 3.54 ~ 4.0
Các kết qu ả này đã nhấn mạnh tín vƣợ t tr ội c a các bộ codec kích thích xung và tầm quan tr ọng c a b ộ dự đoán dài hạn LTP. Codec RPE, do th hiện các đc tính ƣa chuộng nhất, đã đƣợ c c ải thiện hơn nữa bằng cách áp dụ ng m ột LTP; codec RPE-LTP ộng điều kiện hoạt động. bảo đảm một MOS bằng khoảng 4.0 đim trên mộ t dải r ộng 4.2 Bộ mã hoá tiếng nói RPE -LTP
Sơ đồ bộ mã hoá RPE -LTP đƣợ c th hiện nhƣ trên hình 4.1. Trong đó, có các bộ phận chức nng sau:
Tiền xử lý
Lọc phân tích STP
Lọc phân tích LTP
Tính toán RPE
ử lý 4.2.1 Tiền xử lý Tín hiệu tiếng nói đã lấ y mẫu đầu tiên đƣợ c cho qua một b ộ lọc đ loại bỏ bất kì sai lệch DC nào có th tồn tại r ồi cho qua bộ lọc tiền nhấn. tiếng nói nói trong trong b ộ mã hóa ch ̉ ra r̀ r̀ ng na ̆ ng lư ơ Mô hình toán ho c̣ cu a b ộ tạo tiếng ng ̣ ̉ suy gia ̉ m dần vơ tần số ta ̆ ng dầ ần . Do đó, đó, việc tiền nhấn đƣợc áp dụng đ nâng độ ́ i tần chính xác tính toán bằng cách nhấ n phần tần số cao công suất thấ p ca phổ tiếng nói.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 37
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Điều này có th thực hiện đƣợ c bằng bộ lọc một cực với hàm truyền dạng: -1
H(z) = 1 - c1 z
(4.1)
trong đó, c1 ~ 0.9. 4.2.2 Lọc phân tích STP
Tiếng nói đã đƣợ c ti ền nh ấn
đƣợc phân đoạn thành các khố i 160 mẫu tƣơng ứng vớ i khoảng thờ i gian 20 ms trong một bộ đệm. Đối vớ i mỗi một đoạn gồm L=160 mẫu, chín hệ số tự tƣơng quan đƣợc tính từ s(k) theo công thức sau: L 1 i
s(i )s(k + i ) , i = 0,1,...,8
AC ACF (i ) =
(4.2)
k =0
Từ các hệ số tự tƣơng quan ca tiếng nói ACF (i), tám hệ số phản xạ đƣợc tính theo thuật toán lp Schur, là phƣơng pháp tƣơng đƣơng vớ i thuật toán Levision-Durbin
đƣợ c s ử dụng đ giải phƣơng trình then chốt LPC đ tìm các hệ số phản x ạ r(i), cũng nhƣ các hệ số lọc STP. Tuy nhiên, thuật toán Schur chỉ đƣa đến các hệ số phản xạ r(i) mà thôi. Các hệ số phản xạ r(i) đƣợc tính nằm trong khoảng 1 r (i ) 1 ,
i = 1,...,8
(4.3)
Các hệ số phản x ạ r(i) đƣợ c bi ến đổi thành các t số vùng logarit LAR(i), LAR(i), b ởi vì các LAR(i) đƣợc nén-giản theo luật logarit có các tính chất lƣợ ng ng tử hoá tốt hơn các hệ số r(i). r(i). LAR LAR (i ) = lg
1 + r (i ) 1 r (i )
, i = 1,...,8
(4.4)
Tuy nhiên, đ làm đơn giản hoá việ c thực thi thờ i gian thực, một xấ p xỉ tuyến tính kiu từng đoạn với 5 đoạn đƣợ c sử dụng ìr (i ) ; r (i ) < 0.675 ïï LAR LAR (i ) = ísign[ r (i )]. éë 2 r (i ) 0.675ùû ;0.675 r (i ) < 0.950 ï ïîsign[ r (i )]. éë8 r (i ) 6.375ùû ;0.950 r (i ) 1
(4.5)
Các tham số lọc LAR(i), i = 1, 2, …, 8 có các dải động khác nhau và các hàm mậ t độ xác suất có hình dáng khác nhau. Điều này lý giả i cho việc mã hoá các c p LAR thứ nhất, thứ hai, thứ ba, thứ tƣ tƣơng ứng vớ i 6 bit, 5 bit, 4 bit, 3 bit. LARc(i)= Nint {A(i).LAR(i) +B(i)} vớ i Nint(z)=int{z+sign(z).0,5}
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
(4.6) (4.6a)
Trang 39
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Trong đó, hàm Nint(z) đƣợc định nghĩa là giá trị nguyên gần nhất ca z và các hệ số A(i), A(i), B(i) cùng với các giá trị LARc(i) tƣơng ứng vớ i LAR(i) đƣợ c cho theo b ảng 3.2. LAR No i 1 2 3 4 5 6 7 8
A(i)
B(i)
20.000 20.000 20.000 20.000 13.637 15.000 8.334 8.824
Bảng 6Bảng 4.2
0.000 0.000 4.000 -5.000 0.184 -3.500 -0.666 -2.235
Min LAR c(i) -32 -32 -16 -16 -8 -8 -4 -4
Max LAR c(i) +31 +31 +15 +15 +7 +7 +3 +3
Lƣợ ng ử các hệ số L A R c ng tử các c(i )
Các hệ số LARc(i) đƣợ c biến đổi về LAR’’ (i) (i) nhƣ sau: ''(i ) = LAR LAR ''(
LAR LAR c (i ) B(i ) A(i )
(4.7)
Đ làm giảm bớt các thay đổi độ t biến trong bản chất đƣờng bao tín hiệ u tiếng nói quanh các rìa khung phân tích STP, các tham số LAR’’ đƣợ c nội suy tuyến tính thành LAR’ thành LAR’ . Trong mỗi kh ối ch ứa 160 mẫu ti ếng nói, bộ lọc phân tích ngắn h ạn đƣợ c thực hiện vớ i 4 chuỗi tham số khác nhau theo bảng 4.3: k
0… 12 13…26 27…39 40..159
LAR’J (i) = 0.75*LAR’’J-1 (i) + 0.25*LAR’’J (i) 0.50*LAR’’J-1 (i)+0.50*LAR’’J (i) 0.25*LAR’’J-1 (i) +0.75*LAR’’J (i) LAR’’J (i)
Bảng 7Bảng 4.3 Nội suy các tham số LAR (J=khối hiện tại)
Các hệ số phản xạ r’(i) đƣợ c giải mã tại chỗ đƣợc tính bằng cách biến đổi LAR’ (i) (i) thành r’(i) nhƣ sau: ìLAR LAR '( '(i ) ; LAR '(i ) < 0.675 LAR '( ïï '(i ) < 1.225 r '(i ) = í si gn[ LAR '( '(i )]. éë0.005 LAR '( '(i ) + 0.337500 ùû ;0.675 LAR LAR '( ï '(i ) 1.625 LAR '( ïî si gn[ LAR '('(i )]. éë0.125 LAR '('(i ) + 0.796875ùû ;1.225 LAR (4.8)
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 40
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Các hệ số phản xạ r’(i) đƣợc dùng đ tính STP dƣ d(k) bằng bộ lọc phân tích ngắ n hạn có cấu trúc mắt cáo đƣợc mô tả nhƣ hình 4.2.
Hình 21Hình 4.2 Bộ lọc phân tích ngắ n hạn d0(k) = s(k)
(4.8a)
u0(k) = s(k)
(4.8b)
di(k) = di-1(k) + r’ i . ui-1(k-1)
, i=1, …, 8
(4.8c)
ui(k) = ui-1(k-1) + r’i . di-1(k)
(4.8d)
d(k)=d8(k)
(4.8e)
4.2.3 Lọc phân tích LTP
Tín hiệu STP dƣ tƣ ̀ việc lo c̣ nǵ nǵ n ha ṇ có độ dài 160 mẫu, tƣơng ứ ng vớ i 20 ms đư ơ c̣ phân chia thành 4 đoạn con chứa 40 mâ ̃u tƣơng ứng vớ i 5 ms. Ta kí hiệu: j = 0, …, 3 là số thứ tự đoạn con d(k j+k) là tín hiệu dƣ thừ a mỗi đoạn với j = 0, …, 3; k j j = k 0 + j.40 (k 0 là giá trị đầu tiên ca khung chứa 160 mẫu)và k = 0, …, 39 Sai số dự đoán LTP đƣợ c tối thiu hoá bởi độ tr ễ λ mà nó cực đại hoá tƣơng quan chéo giữa STP dƣ hiệ n t ại và giá trị ca nó đã nhận đƣợc và đƣợ c nh ớ đệ ớ đệm với độ tr ễ λ. Cụ th, STP dƣ có độ dài L =160 mẫu đƣợc chia thành bốn đoạ n con với độ dài N=40 mẫu và đối vớ i mỗi đoạn con thì tham số khuếch đại (gain) và độ tr ễ (lag) cho bộ lọc d ự đoán dài hạn LTP đƣợc xác đị nh bằng cách tính tƣơng quan chéo giữa đoạ n hiện đang xử lý và một đoạn dài 40 mẫu đƣợc trƣợt đi một cách liên tụ c ca đoạn STP dƣ dài 120 mẫu trƣớc đó.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 41
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM j = 0,...,3
39
R j ( ) =
d (k j + i ) d '( '(k j + i
,
)
k j = k 0 + j .40 .40
i =0
=
40,...,120
(4.9)
Giá trị tƣơng quan lớ n nhất đƣợc tìm thấ y tại độ tr ễ λ = N j mà tại đó đoạn con hiện đang xử lý giống nhất với quá khứ ca mình. Điều này có khả nng đúng vớ i chu kì pitch hoc tại bội ca chu kì pitch. Do đó, hầu hết độ dƣ thừa có th tách ra khỏi STP dƣ. R j ( N j ) = max{ R j ( );
=
40,...,120} ,
j = 0, ..., 3
(4.10)
Hệ số khuếch đại b j đƣợc tính bằng cách chuẩn hoá hệ số tƣơng quan chéo tại độ tr ễ N j. b j =
R j ( N j )
(4.11)
s j ( N j )
39
d '2 (k j + i N j ) , j = 0, ..., 3
s j ( N j ) =
(4.12)
i =0
Một khi tham số hoá thành Ncj và bcj.
LTP là N j (độ tr ễ) ễ) và b j (độ lợi) đã tìm đƣợc, chúng đƣợc mã
N j có giá trị trong đoạn (40, ..., 120) nên chỉ cần dùng 7 bit đ mã hoá N cj cj là đ. bcj đƣợc mã hoá với 2 bit nhƣ sau:
ì0 ï1 ï bcj = í ï2 ïî3
bcj
,
DLB(0)
DLB(0) < bcj
DLB(1)
DLB(1) < bcj
DLB(2)
DLB(2) < bcj
(4.13)
Trong đó, DLB(i), (i=0, 1..., 2) là mứ c quyết định đƣợ c cho theo bảng 3.4 và bcj là hệ số khuếch đại đƣợc mã hoá. i 0 1 2 3
Decision Level DLB(i) 0.2 0.5 0.8
Quantizing Level QLB(i) 0.10 0.35 0.65 1.00
Bảng 8Bảng 4.4 Bảng lƣợ ng ng tử cho tham s ố khuếch đại LTP
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 42
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Các tham số LTP đƣợc mã hoá ( N cjcjvàbcj) đƣợ c giải mã tạ i chỗ thành c p ( N N j’ vàb j’ ) nhƣ sau. N j’ = N cj (4.14) cj b j’ = QLB(b cj ) , j=0, ..., 3 l ươ ng đươ c tính theo bảng 3.4. với QLB(i), i=0, ..., 3 là mức lươ ng t đươ Với các tham số LTP vừa tính đƣợc, LTP dƣ đƣợc tính bằng sai lệch giữa STP dƣ và ƣớc lƣợ ng ợ giúp ca các tham số LTP đã giải mã ng ca nó (tính đƣợ c nhờ sự tr ợ giúp đƣợ c tại chỗ N j’ và ’ vàb j’ ) nhƣ sau: j = 0,...,3
e(k j+k) = d(k j+k) - d’’(k j+k)
,
k j = k 0 + j .40 .40
(4.15)
k = 0,...,39 j = 0,...,3
vớ i
d’’(k j+k) = b j’ .d ’ (k .d ’ (k j+k-N j’ ) , k j = k 0 + j .40 .40
(4.16)
k = 0,...,39
Ở đây, d ’ ’ (k ’ (k (k j+k-N j’) biu diễn một đoạn đã biế t r ồi ca quá khứ ca d ’ (k j+k), +k), đƣợ c tr ữ trong bộ nhớ đệm ớ đệm tìm kiếm. ớ đệm tìm kiếm đƣợ c cậ p nhật bằng cách sử dụng Cuối cùng, nội dung ca bộ nhớ đệm LTP dƣ đã đƣợ c giải mã tạ i chỗ e’ (k ’’ (k (k j+k) và STP dƣ đã đƣợc ƣớc lƣợ ng ng d ’’ (k j+k) đ ’ (k tạo nên d ’ (k j+k) nhƣ dƣới đây: j = 0,...,3
d’ (k ) = e’ (k (k j+k (k j+k) + d’’(k j+k) ,
k j = k 0 + j .40 .40
(4.17)
k = 0,...,39
4.2.4 Tính toán RPE
Tín hiệu dƣ thừa dài hạn đƣợ c lọc bở i bộ lọc tr ọng số. Đồ thị đáp ứng xung và đáp ứng tần số nhƣ hình 3.3. Bộ lọc tr ọng số là bộ lọc đáp ứng xung hữu hạn 11 đim, về cơ bản là mộ t bộ làm trơn, có tác dụng làm trơn sự thay đổi gi ữa các mẫ u, loại bỏ ở nên mềm m ại hơn. nhiễu t ần s ố cao, và làm cho sự chuyn ti ế p gi ữa các đoạn con tr ở nên Do đó, chất lƣợ ng ng tiếng nói tổng hợp đƣợ c cải thiện.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 43
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Hình 22Hình 4.3 Đáp ứ ng ng xung (trái) và đáp ứ ng ng tần số (phải) của bộ lọc trọng số Phép chậ p giữa 40 mẫu trong chuỗi e(k) và 11 mẫu trong chuỗi h(n) tạo nên 40+11-1=50 mẫu đƣợc mô tả theo công thức 3.18, lƣu ý rằ ng ta chỉ tính 40 mẫu ca phép chậ p. 10
x (k ) =
h(i ) * e(k + 5 i )
(4.18)
i =1
vớ i k= 0, ..., 39 e(k+5-i) = 0 khi k+5-i < 0 hoc k+5-i > 39
mâ ̃u dư thƣ ̀ a dài ha ṇ xuống ̉ thành 4 bộ chuô ̃i con 13 bit thông qua sƣ ̣kết kết hơ thu ật đan đan xen xen và chia chia nh nhoo ̉ p̣ cu ̉ a ky ̃ thu mâ ̃u. x m(i ) = x (k j + m + 3* i ) ; i = 0, … , 12 đều bao gồm gồm vi ệc gia m 40 Giai đoa ṇ kích thích xung đều
m = 0, …, 3 Ta có th minh hoạ (4.19) bằng hình sau:
(4.19)
Hình 23Hình 4.4 Vị trí các mẫ u trong 4 chu ỗi con
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 44
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Nng lƣợ ng ng ca bốn chuỗi con đã đƣợ c chiết ra sẽ đƣợc tính toán, và chuỗ i dự tuyn có nng lƣợ ng ng lớ n nhất sẽ đƣợ c chọn đ biu diễn một cách tốt nhất LTP dƣ. 12
x m2 (i )
E M = max m
; m = 0, … , 3
(4.20)
i =0
Theo 4 vị
trí m ca lƣới ban đầu có th có, 2 bit là đ đ mã hoá dịch trƣợ t ban đầu ca lƣới đối vớ i mỗi đoạn con. Các biên độ xung đƣợ c chuẩn hoá theo biên độ cao nhất ca khối và đƣợc lƣợ ng ng tử hoá bằng 3 bit. Và giá trị cực đại ca khối đƣợc lƣợ ng ng tử hoá bằng 6 bit. Các vị trí lƣới, biên độ xung và giá trị cực đại ca chuỗi đƣợ c giải mã tạ i chỗ đ cho ra LTP dƣ e’ (k) (k), trong đó các xung bị thiếu trong chuỗi đƣợc điền với giá trị 0. 4.3Bộ giải mã tiếng nói RPE -LTP
Sơ đồ khối b ộ giải mã RPE-LTP đƣợc trình bày trong hình 3.3, th hiện m ột cấu trúc ngƣợc hình thành bởi các bộ phận chức nng:
Giải mã RPE
Lọc tổng hợ p LTP
Lọc tổng hợ p STP
Hậu xử lý
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 45
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
RPE decoding
Mcr
RPE grid position
Long Term Prediction
e r
d r d’’r
x’mr
xmaxcr
Inverse APCM
xmcr
Short term synthesis filtering
Short term synthesis filter 1/A(z)
b r
N r
sr
sro Deemphasis
r ’r
-N
z
Postprocessing
Reflection coefficients LAR ’r
bcr
Ncr
LTP parameter decoder
Interpolation
LAR r LAR cr cr
LAR decoder
Hình 24Hình 4.5 Bộ giải mã RPE-LTP 4.3.1Giải mã RPE
Trong bộ giải mã, lƣớ i vị trí M , các giá trị cực đại kích thích ca đoạ n con và các
biên độ xung kích thích đƣợc lƣợ ng ng tử nghịch đảo và các biên độ xung kích thích đƣợ c tính toán bằng cách nhân các biên độ đã giải mã đƣợ c với các trị cực đại khối tƣơng ứng ca chúng. Mô hình LTP dƣ e’ r r đã đƣợc tái tạo lại bằng việc định vị chính xác các biên độ xung theo theo lƣợ ng ban đầu. ng dịch M ch M ban 4.3.2Lọc tổng hợ p LTP
Đầu tiên, các tham số lọc LTP (khuếch đại bcr và độ tr ễ N cr cr ) đƣợ c khôi phục tạo ra b’ r r và N’ và N’ r rvà chúng đƣợc dùng đ xây dựng bộ lọc tổng hợp LTP. Sau đó, tín hiệ u LTP dƣ đã khôi phục đƣợ c er ’ đƣợ c sử dụng đ kích thích bộ lọc tổng hợp LTP này đ khôi phục m ột đoạn mới có độ dài N=40 ca STP dƣ đã đƣợc ƣớc lƣợ ng ng d r r’’ . Đ làm vậ y, một đoạn trong quá khứ ca STP dƣ đã tái tạo đƣợ c d’ đƣợ c sử dụng, đƣợc làm trễ
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 46
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
đúng đi N r r’ ng d’’ r r . theo mẫu và đƣợc nhân vớ i b’ r r đ có đƣợc STP dƣ đƣợc ƣớc lƣợ ng 3.16.
ồi sau đó, R ồi
d’’ r r đƣợ c sử dụng đ tính toán đoạn con gần đây nhất ca STP dƣ đã
đƣợc tái tạo theo 3.17. 4.3.3Lọc tổng hợ p STP
Các tham số LAR’’r đƣợ c giải mã bằng cách sử dụng bộ giải mã LAR từ các LAR’’cr mà nó nhận đƣợc. Và mộ t l ần n ữa l ại đƣợ c n ội suy tuyến tính về phía về phía các rìa ca khung phân tích giữa các tham số ca các khung lân cậ n nh ằm tránh các thay đổi đột ngột trong đc đim ca đƣờ ng ng bao phổ tiếng nói. Cuối cùng, tậ p tham số đã nội suy đã đƣợ c bi ến đổi t ạo thành các hệ số phản x ạ r’r , trong đó tính ổn đị nh c a b ộ lọc tổng h ợp STP đƣợ c b ảo đảm n ếu các hệ số phản x ạ đƣợc khôi phục rơi ra ngoài vòng tròn đơn vị đƣợ c ph p hản xạ ngƣợc vào trong vòng tròn đơn vị nhờ thực hiện lấy giá trị ở lại thành r’r đƣợc cho nhƣ sau nghịch đảo ca chúng. Công thức biến đổi LAR’r (i) tr ở r r '(i ) =
10 LAR r '(i ) 1 10 LAR r '(i ) + 1
(4.18)
ử lý 4.3.4Hậu xử lý Quá trình hậu xử lý đƣợ c thiết lậ p bở i việc giải nhấn bằng cách sử dụng bộ lọc H(z) trong biu thức 3.1. Nhƣ vậy, đố i vớ i một khoảng thời gian 20 ms, tƣơng đƣơng vớ i việc mã hoá 160 mẫu, các bit đƣợc phân bố trong mã hoá tiếng nói RPE -LTP đƣợc trình bày theo bảng 3.5.
Tham số
STP
Tên tham số
Log. Area ratios 1-8
Kí hiệu
Số lƣợng bit
Bit
LAR 1
6
b1-b6
LAR 2 LAR 3 LAR 4 LAR 5 LAR 6 LAR 7
6 5 5 4 4 3
b7-b12 b13-b17 b18-b22 b23-b26 b27-b30 b31-b33
LAR 8
3
b34-b36
N1
7
b37-b43
b1
2
b44-b45
Đoạn con thứ 1 LTP
Độ trễ LTP Khuếch đại LTP
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 47
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM Vị trí lƣới RPE
M1
2
b46-b47
Giá trị cực đại khối RPE
Xmax1
6
b48-b53
Xung RPE thứ 1 Xung RPE thứ 2
3 3
...
x1(0) x1(1) ...
b54-b56 b57-b59 ...
Xung RPE thứ 13
x1(12)
3
b90-b92
Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
N2
7
b93-b99
b2
2
b100-b101
M2
2
b102-b103
Giá trị cực đại khối RPE
Xmax2
6
b104-b109
Xung RPE thứ 1 Xung RPE thứ 2
x2(0) x2(1) ... x2(12)
3 3 3
b110-b112 b113-b115 ... b146-b148
N3
7
b149-b155
RPE
Đoạn con thứ 2 LTP
RPE
...
Xung RPE thứ 13 Đoạn con thứ 3 Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
b3
2
b156-b157
M3
2
b158-b159
Giá trị cực đại khối RPE
Xmax3
6
b160-b165
Xung RPE thứ 1 Xung RPE thứ 2
3 3
...
x3(0) x3(1) ...
b166-b168 b168-b171 ...
Xung RPE thứ 13
x3(12)
3
b202-b204
Độ trễ LTP Khuếch đại LTP Vị trí lƣới RPE
N4
7
b205-b211
b4
2
b212-b213
M4
2
b214-b215
Giá trị cực đại khối RPE
Xmax4
6
b216-b221
Xung RPE thứ 1 Xung RPE thứ 2
3 3
...
x4(0) x4(1) ...
b222-b224 b225-b227 ...
Xung RPE thứ 13
x4(12)
3
b258-b260
LTP
RPE
Đoạn con thứ 4 LTP
RPE
Bảng 9Bảng 4.5 Vị trí bit các tham số
ngõ ra củ a bộ mã hoá tiếng nói RPE -LTP trong khung tho ại 20ms
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 48
CHƢƠNG 4: MÃ HOÁ VÀ GIẢI MÃ M Ã TIẾNG NÓI TRONG HỆ THỐ NG GSM
Tóm lại, tổng số bit truyền dẫn trong một khung là 36+ 4x(2+7+2+6+13x3) = 260 bit.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 49
CHƢƠNG 5: MÔ PHỎ NG
CHƢƠNG 5:
MÔ PHỎNG
là một môi trƣờ ng ng tính toán số và lập trình, đƣợ c thiết k ế bởi công ty MathWorks, Inc. Matlab cho phép tính toán số vớ i ma tr ận, vẽ đồ thịhàm số hay biu đồ thông tin, thực hi ện thuật toán, tạo các giao diện ngƣời dùng và liên kế t v ớ i nh ững chƣơng trình máy tính viết trên nhiều ngôn ngữ lập trình khác. Chƣơng trình mô phỏng quá trình nén và giải nén tiếng nói đƣợ c viết trên ở chƣơng trƣớ c. Matlab, dựa trên kĩ thuật mã hoá RPE -LTP đã trình bày ở chƣơng c. Ngƣờ i sử dụng sẽ chọn file tiếng nói đƣợc mã hoá PCM 13 bit ở đầu vào. Chƣơng trình sẽ mô phỏng quá trình nén và giải nén, cuối cùng ta sẽ thu đƣợ c tiếng nói giải nén ở ngõ ở ngõ ra. So sánh kết quả ngõ vào và ngõ ra ta thấ y k ết quả chất lƣợ ng ng vẫn đảm bảo tốt. Giao diện chƣơng trình mô phỏng nhƣ sau: Matlab
Hình 25Hình 5.1 Giao diện chƣơng trình mô phỏ ng Trong đó: File là tín hiệu tiếng nói ngõ vào. SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 50
CHƢƠNG 5: MÔ PHỎ NG Thờ i gian là độ dài thời gian tín hiệ u tiếng nói ngõ vào. Start là nút bắt đầu thực hiện chƣơng trình mã hoá và giải mã tiếng nói.
Sau khi click vào Start , đợ i một thờ i gian, ta sẽ thu đƣợc đồ thị dạng sóng ca tiếng nói ngõ vào và ngõ ra. Nhấn nút Play tƣơng ứng đ nghe file tiếng nói ban đầu và file tiếng nói sau khi thực hiện mã hoá và giải mã.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 51
K ẾT LUẬ N
K ế ết luận Về cn bản chúng ta có th thấy bộ mã hoá tiếng nói trong GSM là mộ t bộ mã
hoá tiếng nói dạng lai (hybrid) giữa LPC vocoder và mã hoá dạng sóng. Trong đó mô hình lọc từ cấu hình vocoder đƣợ c giữ nguyên song các tham số kích thích lại đƣợ c cải thiện. Điều này nghĩa là phầ n ch yếu ca các tham số đƣợ c truyền đi liên quan tớ i chuỗi kích thích. Bộ mã hoá lai đã san đƣợ c hố ngn cách giữa các bộ mã hoá vocoder và các bộ mã hoá dạng sóng. Quy trình mã hoá tiếng nói trong bộ mã hoá tiếng nói có th tóm tắt lại nhƣ sau. Tín hiệu tiếng nói lối vào đƣợc chia thành từng khung 20 ms đ biến đổi thành tín hiệu số. Các bƣớc cơ bả n ca quá trình mã hoá bao gồ m: Lọc dự đoán tuyến tính LPC, Lọc dự đoán dài hạn LTP và mã hoá kích thích xung đều RPE. Các thông số đƣợc mã hoá do vậy cũng bao gồm bit mã ca các thông số LPC, LTP và RPE. Về mt thực hành, em cũng đã cố gắng mô phỏng đƣợc kĩ thuật mã hoá tiếng nói chạy đƣợc trên PC. Trƣớc tiên, chƣơng trình sẽ thực hiện nén tín hiệu tiếng nói ở file mẫu có sẵn dƣới định dạng .wav bằng codec RPE-LTP. Sau đó, sẽ tổng hợp các thông ở ngõ ra. Với chƣơng trình mô phỏng này, em hy số lại đ tạo thành tín hiệu tiếng nói ở ngõ vọng chƣơng trình này phần nào giúp ta có th hình dung đƣợc kĩ thuật mã hoá này. Em xin cám ơn sự giúp đỡ tận tình ca thầy Phạm Thanh Đàm đã hƣớ ng ng dẫn em thực hiện bài báo cáo này. Do thời gian và kiế n thức có hạn nên báo cáo thự c hiện vẫn còn nhiều thiếu sót, em rấ t mong sự nhận xét, đánh giá, đóng góp từ thầy cô và bạn bè. Em sẽ cố gắng tìm hiu thêm. Mộ t lần nữa, em xin chân thành cám ơn.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 52
TÀI LIỆU THAM KHẢO
Tài liệu tham khảo [1].A.
M. Kondoz, “ Digital Speech – Coding for Low Bit Rate Communication ”, John Wiley & Sons, Ltd, 2004. Systems, 2nd ”, ”, John [2]. Raymond Steele and Lajos Hanzo, “ Mobile Radio Communication 2nd ”, Wiley & Sons, Ltd, 1992. [3]. “GSM 06.10”, ETSI, 1997. [4]. Randy Goldberg and Lance Riek, “ A Practical Handbook of Speech Coders”, CRC Press LLC, 2000.
[5]. Wai C. Chu, “ Speech coding algorithms”, John Wiley & Sons, Ltd, 2003. [6]. Phạm Thanh Đàm, “Thông tin di động”, Họ c viện Công nghệ Bƣu chính Viễn thông Tp.HCM, 2010.
SVTH: NGUYỄN ĐẠI HOÀ
LỚP: Đ08VTA2
Trang 53
CHỮ VIẾT TẮT
Chữ viế t t ắ ắt t A/D AB AbS ADPCM DB DM DPCM FC FEC GMSK
Analog to Digital Access Burst Analysis by Synthesis Adaptive Differently PCM Dummy Burst Delta Modulation Differential PCM Frequency Correction Burst Forward Error Correction Gaussian Minimum Shift Keying Global System For Mobile GSM Communications LAR Logarithm Area Ratio LP Linear Prediction LPC Linear Prediction Coding LTP Long Term Predictor MOS Mean Opinion Score Multi-Pulse Excited LPC Codec MPE-LTP with Long term Predictor NB Normal Burst PCM Pulse Code Modulation PDF Probability Density Function QMF Quadrature Mirror Filter QoS Quality of Service RELP RPE RPE-LTP SB SNR STP
Cụm truy xuất Phân tích bằng tổng hợp Điều chế mã xung vi sai thích ứng Cụm giả Điều chế Delta Điều chế mã xung vi sai Cụm điều chỉnh tần số Mã sửa lỗi hƣớng đi Điều chế khoá chuyn pha cực tiu Hệ thống thông tin di động toàn cầu
Tỉ số vùng logarith Dự đoán tuyến tính Mã hoá dự đoán tuyến tính Dự đoán dài hạn Đim số ý kiến trung bình Dự đoán tuyến tính kích thích đa xung với bộ dự đoán dài hạn Cụm thƣờng Điều chế xung mã Hàm mật độ xác suất Bộ lọc gƣơng cầu phƣơng Chất lƣợng dịch vụ Dự đoán tuyến tính kích thích bằng tín Residual Excited Linear Prediction hiệu sau dự đoán Kích thích xung đều Regular Pulse Excitation
Regular Pulse Excited - Long Term Prediction Synchronization Burst Signal to Noise Ratio Short term Predictor
SVTH: NGUYỄN ĐẠI HOÀ
Kích thích xung đều - Dự đoán dài hạn Cụm đồng bộ Tỉ số tín hiệu trên nhiễu Dự đoán ngắn hạn
LỚP: Đ08VTA2
Trang 54