/
ryAudio.py
576 lines (462 loc) · 13.9 KB
/
ryAudio.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
'''
ryAudio.py
==========
呂仁園
------
2014/04/20
----------
ryAudio00.py
2014/04/08
2014/03/19
-----------
ry音世界00.py
ryaudio.py
即時 音訊 錄放音 物類
2014/0317
'''
#
# Python standard modules
#
import math
import time
import threading as th
#
# PyAudio
#
import pyaudio as pa
#
# Pylab
#(Numpy, Scipy, Matplotlib)
#
import scipy.signal
import pylab as pl
#
# my major audio class
#
class RyAudio:
'''
This class help you
to get audio signal from microphone
and do some simple processing in real time.
class name | aliase
RyAudio | 音類
e.g.
>>> anAudio= RyAudio()
>>> anAudio.start()
>>> # put your code here after
>>> #time.sleep(10)
>>> anAudio.x
>>> anAudio.en
>>> anAudio.f0
>>> anAudio.xBuf
>>> anAudio.specgram
>>> # finally, you should stop it
>>> anAudio.stop()
>>> #你也可以用中文變數名稱
>>> 音= 音類()
>>> 音.開始()
>>> # 把程式碼放在底下。
>>> # time.sleep(10)
>>> 音.x # 振幅
>>> 音.en # 能量
>>> 音.f0 # 基頻, 基本頻率
>>> 音.xBuf # 振幅暫存區, 一段暫存區的振幅
>>> 音.specgram # 頻譜暫存區, 一段暫存區的頻譜
>>> #最後,你要記得「停止」它
>>> 音.停止()
'''
def __init__(self, Fs= 16000, TinSec= 10):
'''
Fs: 取樣頻率,預設值為 16000,
TinSec: 保存語音長度,預設值為 10 sec
'''
print('RyAudio use %s'%pa.get_portaudio_version_text())
self.Fs= Fs
self.spBufferSize= 1024
self.fftWindowSize= self.spBufferSize
self.aP= pa.PyAudio()
self.iS= pa.Stream(PA_manager= self.aP, input= True, rate= self.Fs, channels= 1, format= pa.paInt16)
self.oS= pa.Stream(PA_manager= self.aP, output= True, rate= self.Fs, channels= 1, format= pa.paInt16)
self.iTh= None
self.oTh= None
#self.sound= None
#self.soundTime= 0
self.gettingSound= True
self.playingSound= True
self.t= 0
self.b= None # byte string
self.x= None # ndarray
self.fft= None
self.f0= 0#None
self.en= 0#None
self.fm= 0#None # frequency mean
self.fv= 0#None # frequency var
self.fs= 0#None # frequency std
self.enP= 0#None # AllPass
self.enPL= 0#None # LowPass
self.enPH= 0#None # HighPass
self.entropy= 0#None
self.frameI= 0
#self.frameN= self.spBufferSize/4 #1024/4 = 256
self.TinSec= TinSec #10 # sec
self.frameN= self.Fs*self.TinSec/self.spBufferSize #self.spBufferSize/4 #1024/4 = 256
self.frameN= int(self.frameN)
self.specgram= pl.random([self.frameN, self.spBufferSize/2])
self.xBuf= pl.random([self.frameN, self.spBufferSize])
def getSound(self):
'''
抓音,作即時 DSP,算出 en, f0, fft
利用 self.gettingSound 來中止內部無窮迴圈。
'''
print('self.gettingSound= ',self.gettingSound)
#global globalSound, globalSoundTime, globalGettingSound, iS
spBufferSize= self.spBufferSize
fftWindowSize= self.fftWindowSize
t0= time.time()
while (self.gettingSound is True): # 利用 self.gettingSound= False 來中止此無窮迴圈。
#
# 抓音只需一行,抓成 bytestring
#
self.b= b= self.iS.read(spBufferSize) # 1024
#
# 以下是開始作即時 DSP 了。
#
#
# bytestring --> int16 --> float32
#
x= pl.fromstring(b,'int16')
x= x.astype('float32')
#
# 新鮮的語音波形, 趕快存下來,才能原音重現。
#
self.xBuf[self.frameI%self.frameN]= x
#
# --> zeroMean (zeroMean 最好不要在這裡做,因為這裡只有 1 個 frame)
#
#mu= x.mean()
#x -= mu
#
# 自從 開始錄音以來所經歷的時間,以秒為單位。
#
t= time.time()-t0 # sec
#
# hamming window
#
x *= scipy.signal.hamming(len(x))
#
# 能量,訊號的平方的平均值。
#
en= (x*x).mean()
#
# 訊號的複數頻譜, 只保存 一半 的 頻率資訊
#
xFFT= pl.fft(x)[0:spBufferSize/2] # for x be real, a half range of fft is enough
#
# 訊號的功率頻譜(正實數值), 如上,只保存 一半 的 頻率資訊
#
xP= pl.absolute(xFFT*xFFT.conj()) # Power spectrum
sumXp= xP.sum()
self.t= t # 自從 開始錄音以來所經歷的時間,以秒為單位。
self.x= x # 當下的語音振幅值。 (1 個 音框)
self.en= en # 當下的語音能量值。
self.fft= xFFT # 當下的 fft 複數頻譜
#
# 從當下 第 .frameI 音框,往前算 .frameN 個 音框 的 功率頻譜 (正實數) 以及 語音振幅值。
#
self.specgram[self.frameI%self.frameN]= xP
#
# 在這裡存下的語音 已經被 hamming window 破壞!!必須提前 存下來才行。
#
# self.xBuf[self.frameI%self.frameN]= x
#
# 當下 第 .frameI 音框,遞增。
#
self.frameI +=1
#
# 簡單的 基本頻率 fundamental frequency (f0) 抽取 演算法。
#
startF0= spBufferSize/16
self.f0= startF0 + xP[startF0:spBufferSize/4].argmax() # 0< f0 < spBufferSize/2
# 頻率 範圍, 0<= k < spBufferSize/2
k= pl.arange(spBufferSize/2)
# 頻率平均值
self.fm= (xP*k).sum()/sumXp
# 頻率變異數
self.fv= (xP*k**2).sum()/sumXp - self.fm**2
# 頻率標準差
self.fs= self.fv**0.5
# 頻率亂度 (entropy)
self.entropy= -(xP*pl.log(xP/sumXp)).sum()/sumXp
#
# 把 f0 歸一化 (0< f0 < 0.5) # 注意,以下算式只會讓 f0 最大為 0.5
# f0=1 代表 訊號取樣頻率(Fs)= 16000 Hz, in the default case
# f0=0.5 就代表 真實的 f0= 0.5*Fs = 8000 Hz, in the default case
self.f0 /= self.spBufferSize
#
# fm 也可以 類似的歸一化
#
self.fm /= self.spBufferSize
#
# fv, fs 也如法炮製,但意義不易明白,我也沒運用過,先放著,以後有機會再詳細研究。
#
self.fv /= self.spBufferSize # this is not much meaningful
self.fs /= self.spBufferSize
#
# 功率頻譜的全通(all-pass)平均,低通(low-pass)平均,高通(high-pass)平均
#
self.enP= xP.mean()
self.enPL= xP[0:spBufferSize/16].mean()
self.enPH= xP[spBufferSize/16:].mean()
#
#
# 簡單的 DSP 先做到這裡,還有一些較複雜的比如Formant, mfcc, 更準的 f0 等,需要查閱參考資料。
#
#
print('self.gettingSound= ',self.gettingSound)
self.iS.stop_stream()
def playSound(self):
'''
放音,
利用 self.playingSound 來中止內部無窮迴圈。
'''
self.playingSound= True
#
# 邊錄音,邊放音,但放音時 delay 一下,大約 .frameN//10 的時間 (約 1 秒)
#
i= self.frameI - self.frameN//10
while (self.playingSound is True): # 利用 self.playingSound= False 來中止此無窮迴圈。
#
# 取出 要放音 的聲音資料,1個音框 (frame),第 i 個音框。
#
x= self.xBuf[i%self.frameN]
#
# 轉換格式
#
x= x.astype('int16')
#
# 再轉成 bytestring
#
b= x.tostring()
#
# 真正放音就這一行
#
self.oS.write(b)
#i+=1
#
# 邊錄音,邊放音,但放音時 delay 一下,大約 .frameN//10 的時間 (約 1 秒)
#
# 取用 .frameI 來決定下一個放音音框,強迫 放音音框 與 錄音音框 的同時性,(雖然是相差 .frameN//10)
#
i= self.frameI - self.frameN//10
pass
print('self.playingSound= ',self.playingSound)
self.oS.stop_stream()
def startGet(self):
'''
開始收音,用 多線 程式技巧。
'''
self.iTh= th.Thread(target= self.getSound)
self.iTh.start()
#
# self.getSound() 中的 錄音迴圈 即將開始,
# 只能利用 self.gettingSound= False 來中止此無窮迴圈。
#
pass
def startPlay(self):
'''
開始放音,用 多線 程式技巧。
'''
self.oTh= th.Thread(target= self.playSound)
self.oTh.start()
#
# self.playSound() 中的 放音迴圈 即將開始,
# 只能利用 self.playingSound= False 來中止此無窮迴圈。
#
pass
def start(self):
'''
同時開始錄音,以及放音,
2個分開的執行線。
'''
print('RyAudio will start Get and Play....')
self.startGet()
self.startPlay()
print('RyAudio is started ....')
def stop(self):
'''
結束,停止,收放音。
這個停止聲音的動作對系統的穩定度而言很重要,
需要小心看待。
'''
self.gettingSound = False
self.playingSound = False
#
# the above 2 message are sent to make getSound() and playSound() stop
# need to wait for their stopping
#
#
# wait for iS and oS is closed
#
# self.aP.terminate()
#
print('RyAudio.stop is waiting for iS and oS are both stopped ...')
while not (self.iS.is_stopped() and self.oS.is_stopped() ):
#print('wait for iS and oS are both stopped')
pass
self.iS.close()
self.oS.close()
self.aP.terminate()
print('RyAudio.stop has been completed.')
#
# 建立 中文函數別名。
#
開始收音= 開始錄音= startGet
開始放音= startPlay
開始= start
結束= 停止= stop
pass
#
# 建立 中文物類別名。
#
音類= RyAudio
#
# 本模組到此結束。
#
#
# 寫幾個示範函數。
#
def demo00():
'''
展示最簡單的多線錄放音功能。
'''
#
# 首先,要啟動音訊裝置。
#
音= 音類()
音.開始()
print('主線 睡 10 秒,音線 錄放音 10 秒。')
time.sleep(10) # 主線 睡 10 秒,音線 進入 錄放音 狀態
print('主線 醒來,音線 即將結束。')
音.結束()
def demo01():
'''
錄放音後,把音訊 en, f0 用 pylab 畫出來。
'''
#
# 首先,要啟動音訊裝置。
#
音= 音類() # must (1)
音.開始()
#
# 音 啟動之後 如何抓住?
# 請看以下範例。 抓 T= 10 秒
#
T= 10 # sec
t0= time.time()
n= 0
音訊= []
while time.time()-t0< T:
t= 音.t # 時間 (sec)
en= 音.en # 能量 (energy, en)
f0= 音.f0 # 基頻 (fudamental frequency, f0)
音訊+= [(n, t, en, f0)]
# control sampling period,
# 0.01 sec for en and f0, that is enough
time.sleep(0.01)
# collecting the audio info to plot
tL= [t for (n, t, en, f0) in 音訊]
eL= [en for (n, t, en, f0) in 音訊]
fL= [f0 for (n, t, en, f0) in 音訊]
# Using Pylab to plot it
pl.subplot(211); pl.plot(tL, eL)
pl.subplot(212); pl.plot(tL, fL)
pl.show()
#
# 程式結束前要記得把 音 停止。
#
音.停止()
def demo02():
'''
錄放音後,把音訊 .xBuf , .specgram 用 pylab 畫出來。
'''
#global xBuf, spec
音= 音類()
音.開始()
time.sleep(10)
音.停止()
xBuf= 音.xBuf
spec= 音.specgram
x= xBuf.flatten()
pl.plot(x)
pl.show()
spec= pl.log(spec)
pl.imshow(spec)
pl.show()
import turtle as tt
def demo03():
'''
利用本模組來聲控小烏龜。
'''
###
### step1 to use RyAudio,
### generate it
###
音= 音類()
###
### step2 to use RyAudio,
### start it
###
音.開始()
#
# 中文函數別名
#
時間= time.time
開根號= math.sqrt
對數= math.log
較小值= min
#
# turtle module
# set width and height of the screen
#
幕= tt.Screen()
龜= tt.Turtle()
W= H= 100
幕.setworldcoordinates (0, 0, W, H)
龜.penup()
#
# set time buffer, 10 sec is a good choice
#
T= 10 # sec
aMsg= 'get sound for %d sec, please wait...'%T
print(aMsg)
龜.write(aMsg)
t= t0= 時間()
while t - t0< T:
t= 時間()
x= (t*10)%W
###
### step3 to use RyAudio,
### get infomation (en) from it
###
y= 音.en
if y>0:
y= 對數(y)
y= 較小值(y, H)
龜.goto(x,y)
龜.dot()
aMsg='click X to close the screen and stop the sound.'
print(aMsg)
龜.color('red')
龜.write(aMsg)
幕.mainloop()
###
### step4 to use RyAudio,
### stop it
###
音.結束()
if __name__=='__main__':
#demo00()
#demo01()
#demo02()
demo03()
pass