熱點聚集

在今天的移動網(wǎng)絡(luò)時代,我已經(jīng)不習(xí)慣直播類的產(chǎn)品了,比如看游戲直播、給美女播音員頒獎、聽直播課等。 另外,隨著抖動、快手等短篇視頻類應(yīng)用的爆發(fā),視頻類產(chǎn)品總是充斥著我們的生活。 那么,直播系統(tǒng)和視頻產(chǎn)品背后的音視頻技術(shù)知識有哪些呢? 本文從直播類產(chǎn)品的基礎(chǔ)結(jié)構(gòu)出發(fā),闡述一些基礎(chǔ)的音視頻技術(shù)知識。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

(音視頻行業(yè)非常精密,本文只是從一個pm的角度總結(jié)了最基本的副本)

實時功能通用的基礎(chǔ)架構(gòu)有三個部分:音頻視頻收集端、云服務(wù)端和音頻視頻播放端。

下圖是app實時功能的體系結(jié)構(gòu)。

從上圖可以看出,每個部分都有各自需要解決的地方。

通常,視頻廣播類功能的整體流程由以下副本組成。

在具體理解每個過程之前,先從音視頻的基本知識開始。

聲音:

我們平時用手機和電腦聽的音頻是已經(jīng)數(shù)字化的音頻模擬信號。 最初,這些音頻都是從物理聲音開始的。

中學(xué)的物理都學(xué)過。 聲音是波,是由物體的振動產(chǎn)生的。

聲波有三個要素

模擬信號的數(shù)字化過程:

模擬信號的數(shù)字化過程是將模擬信號轉(zhuǎn)換為數(shù)字信號的過程,包括采樣、量化和編碼。

這個過程可以從下圖中理解。

通過以上流程,實現(xiàn)了語音信號的數(shù)字化。 轉(zhuǎn)換為數(shù)字信號后,可以進行這些數(shù)據(jù)的存儲、再現(xiàn)、復(fù)制獲取等其他操作。

音頻編碼:

以上,編碼是指以一定的模式記錄采樣和量化的數(shù)據(jù),到底為什么需要編碼呢?

收集和量化的數(shù)據(jù)非常大,從存儲和互聯(lián)網(wǎng)實時分發(fā)的角度來看,這個數(shù)據(jù)量太大了。 存儲和傳輸非常困難,需要編碼壓縮。

壓縮編碼的指標(biāo)是壓縮比,壓縮比一般小于1。

壓縮編碼算法分為有損壓縮和無損壓縮兩種。

壓縮編碼的本質(zhì)是壓縮冗馀信號,冗馀信號是人眼感知不到的信號,包括人耳聽覺范圍外的聲音信號和隱蔽的聲音信號。 信號掩蔽可以分為頻域掩蔽和時域掩蔽,關(guān)于信號掩蔽大家可以自己百度進行,但這里不多說。

那么,語音壓縮編碼的一般風(fēng)格有那些嗎?

主要是wma碼mp3碼aac編碼,這是現(xiàn)在比較受歡迎的不可逆壓縮編碼技術(shù),也是現(xiàn)在直播和小動畫中經(jīng)常使用的編碼風(fēng)格。 ogg代碼等。

數(shù)字視頻:

我們平時在手機和pc上看到的視頻由復(fù)印元素、編碼樣式和包裝容器組成。

圖像:

圖像是人類在視覺上感受到的物質(zhì)的再現(xiàn)。 三維圖像的對象包括深度、紋理和亮度新聞,二維圖像包括紋理和亮度新聞,可以簡單地將紋理理解為圖像。

談了圖像的概念,現(xiàn)在視頻:視頻由多個圖像組成,是一組連續(xù)的圖像。 基本的數(shù)字視頻基本上是由“收集-解決-顯示”形成的。

編碼模式:

以上描述了音頻編碼,視頻也同樣有編碼的過程。 視頻編解碼器的過程是壓縮或解壓縮數(shù)字視頻的過程。

進行視頻編解碼時,視頻的質(zhì)量、表現(xiàn)視頻所需的數(shù)據(jù)量(通常稱為編碼率)、編碼算法和解碼算法的復(fù)雜度、比較數(shù)據(jù)丟失和錯誤的魯棒性、便利性、隨機訪問、。

常用的視頻編解碼方法是h.26x系列和mpeg系列,但目前最常用的視頻編碼模式是h.264,其優(yōu)點是低編碼率、畫質(zhì)高、容錯性強、互聯(lián)網(wǎng)適應(yīng)性強、同時真實

再介紹一下關(guān)于h.264的知識。

在h.264中,圖像包括幀、前場和后場,完美的圖像是幀。

如果在收集視頻信號時使用逐行掃描,則每次掃描時得到的信號是圖像,即一幀。 如果使用隔行掃描(奇數(shù)、偶數(shù)行),則掃描的1幀圖像被分為2個部分,分別稱為場,依次分為前場(也稱為偶數(shù)場)和后場(也稱為奇數(shù)場)。

幀和場的概念還帶來了不同的編碼方法:幀編碼和場編碼。 漸進式掃描適于動態(tài)圖像,因此對動態(tài)圖像使用幀編碼比較好。 另一方面,隔行掃描適于非動態(tài)圖像,因此更優(yōu)選在非動態(tài)圖像中使用場編碼。

另外,各幀圖像被分成多個片,各片由宏塊構(gòu)成,各宏塊由子塊構(gòu)成。

包樣式:

視頻封裝風(fēng)格可以看作是承載了視頻、音頻、視頻編解碼方法等新聞的容器。 一種視頻包樣式可以支持多種視頻編解碼方法,包括quicktime(.mov )支持幾乎所有編解碼方法,mpeg(.mp4 )也支持大多數(shù)編解碼方法。

pc中經(jīng)常使用. mov的視頻文件。 通過以上介紹,此視頻的文件樣式為. mov,包樣式為quicktime file format,但不知道視頻編解碼器的方法。 如果我們想專業(yè)記述視頻,可以記述h.264/mov的視頻文件,即其封裝方法為quicktime file format,文件樣式為. mov,編碼方法為h.264。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

h.264:

h.264是高性能的視頻編解碼技術(shù),是“國際電車”和“國際標(biāo)準(zhǔn)化組織iso”共同建立的聯(lián)合視頻集團共同制定的新的數(shù)字視頻編碼標(biāo)準(zhǔn)。

以上敘述了h.264編碼技術(shù)的特征,接下來看看與h.264相關(guān)的重要技術(shù)。

我們首先必須知道無論是視頻還是音頻,其目的都是壓縮。 視頻編碼的目的是提取包括空間冗余、時間冗余、編碼冗余、視覺冗余和知識冗余的冗余新聞。

在此基礎(chǔ)上,h.264的壓縮技術(shù)如下。

a )幀內(nèi)預(yù)測壓縮處理空間數(shù)據(jù)冗馀的問題。 空間冗馀數(shù)據(jù)是指,圖像數(shù)據(jù)在寬高度的空間中含有很多顏色和光,用人類的肉眼很難注意到的數(shù)據(jù)。 對于這些數(shù)據(jù),我們可以直接壓縮。

幀內(nèi)壓縮對應(yīng)于I幀,即關(guān)鍵幀。 那么什么是I幀呢? 在線教程有一個典型的例子。 如果照相機對著你拍的話,一秒內(nèi)你實際發(fā)生的變化非常少。 照相機通常每秒捕捉幾十幀的數(shù)據(jù)。 例如,像動畫一樣,25幀/秒。 視頻文件通常為30幀/秒左右。 哪個對幀組來說變化較小,為了便于壓縮數(shù)據(jù),完全保留第一個幀。 I幀特別重要,因為這個關(guān)鍵幀后面沒有解碼數(shù)據(jù)是不可能的。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

b )幀間預(yù)測壓縮處理時間數(shù)據(jù)的冗馀問題。 在上面的例子中,照相機在一定時間內(nèi)捕獲的數(shù)據(jù)沒有大的變化,壓縮了這段時間內(nèi)的相同數(shù)據(jù)的是時間數(shù)據(jù)壓縮。

幀間壓縮對應(yīng)于p幀和b幀。 p幀是前面參考幀,壓縮時只參考前面的幀。 另一方面,b幀是雙向參照幀,壓縮時即使參照前一幀也參照后一幀。

c )整數(shù)離散余弦變換( dct )將空間相關(guān)性變換為頻域上的無關(guān)數(shù)據(jù)并進行量化。

d)cabac壓縮:無損壓縮。

h.264除了上述重要技術(shù)外,還需要理解一些重要的概念。

進行視頻解碼時,在接收一組幀gof之前,我們先接收sps/pps數(shù)據(jù)。 沒有這一組參數(shù)就無法解碼。

因此,如果解碼時發(fā)生錯誤,首先檢查是否有sps/pps。 否則,檢查是對方?jīng)]送來,還是在對方送來的時候丟失了。

更詳細的h.264編碼原理這里不介紹。 可以在網(wǎng)上查閱宏塊的數(shù)據(jù)包分割、宏塊的搜索、幀內(nèi)預(yù)測、dct壓縮、h.264的碼流結(jié)構(gòu)等資料。

通過以上介紹,我們了解了一點音視頻的基本知識。 接下來,我們再來談?wù)勚辈ヮ悜?yīng)用的整體流程。

音視頻收集階段包括語音收集和圖像收集。

語音收集除了上述采樣率、量化級數(shù)、通道數(shù)的參數(shù)以外,還需要語音幀。

聲音與影像大不相同,影像每1幀是1張圖像,但從聲音的正弦波可以看出,聲音數(shù)據(jù)是流,沒有確定的1幀概念。 在實際的應(yīng)用程序中,為了便于音頻算法的解決/傳輸,通常約定以2.5ms~60ms為單位的數(shù)據(jù)量為1幀音頻。

這個時間被稱為“采樣時間”,其長度沒有特別的基準(zhǔn),根據(jù)編解碼器和具體的應(yīng)用程序的訴求來決定。

如果某個音頻信號是采樣率8khz、雙通道、量化級數(shù)16bit、采樣時間20ms,則1幀的音頻數(shù)據(jù)的大小為8000 *2* 16 bit * 0.02 s = 5120 bit = 640 byte,

圖像捕獲構(gòu)成一組連續(xù)播放捕獲的圖像結(jié)果的動畫,即視頻中肉眼可見的副本。

圖像的取入主要是用照相機等機器拍攝yuv編碼的原始數(shù)據(jù),編碼后一個一個地發(fā)送壓縮成h.264等圖案的數(shù)據(jù)。 在圖像收集階段,涉及圖像傳輸圖案、圖像圖案、傳輸通道、分辨率、采樣率等主要技術(shù)參數(shù)。

在音視頻的收集階段,常用的收集源包括手機前后設(shè)置照相機等照相機。 游戲直播采用的屏幕錄音電視節(jié)目中視頻文件的直接推送流。

音視頻解決分為視頻解決和語音解決。

視頻解決包括美顏、濾鏡、面部識別、水印、剪輯拼接等。 語音解決包括混合、降噪和語音效果。

讓我簡單說明一下美顏和視頻水印的基本原理。

美顏的第一原理是用【去皮】+【美白】達到整體的美顏效果。 剝皮的技術(shù)術(shù)語是去噪,即去除或模糊圖像中的噪聲點,一般的去噪算法有平均模糊、高斯模糊、中值濾波器等。 這個環(huán)節(jié)還提到了人臉和皮膚的檢測技術(shù)。

視頻水印有兩種方法:播放器水印和視頻嵌入水印。 對于播放器的水印來說,如果沒有比較有效的防盜措施,對于沒有再生認證的推送流,客戶端在得到直播流后,無論哪個沒有水印的播放器都可以再生。 這將失去視頻保護的能力。 因此,通常通過選擇在視頻中嵌入水印的方法來將水印嵌入視頻中,在視頻播放中也繼續(xù)顯示。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

再說幾句話,視頻嵌入水印也適用于軟件。 在軟件中播放內(nèi)部版權(quán)保護的視頻片段視頻時,適用于嵌入水印技術(shù)。

語音視頻編碼和視頻打包在上述基礎(chǔ)知識部分進行了介紹,因此在此不進行說明。

現(xiàn)在說說編碼器的知識。 上述知道h.264的編碼技術(shù),編碼過程是基于編碼器進行的。

編碼器的第一個流程是幀內(nèi)預(yù)測(空間冗馀消除) /幀間預(yù)測(時間冗馀消除) -變換(空間冗馀消除) -量化(視覺冗馀消除) -熵編碼(編碼冗馀消除)。 通過這種流程,可以完成語音視頻的編碼過程。

推送流是指通過流媒體協(xié)議將已解決的音頻和視頻數(shù)據(jù)發(fā)送到流媒體服務(wù)器。請參見

推送流協(xié)議:

推送流遵循的協(xié)議是基于rtmp、webrtc和udp的專用協(xié)議。

cdn:

這里需要cdn互聯(lián)網(wǎng),以便為地理位置的每個觀眾展示發(fā)布的流媒體。 cdn是客戶訪問互聯(lián)網(wǎng)資源緩慢而產(chǎn)生的技術(shù)。

cdn包括邊緣節(jié)點、二次節(jié)點和源站。 拷貝供應(yīng)商可以將拷貝放在源站上,客戶可以從邊緣節(jié)點獲取數(shù)據(jù),cdn的輔助節(jié)點用于緩存,減輕源站的壓力。

在直播行業(yè),cdn支持的服務(wù)包括。

流媒體服務(wù)器進行的事件包括數(shù)據(jù)一個一個( cdn )、支持上述cdn的一點服務(wù)、實時轉(zhuǎn)碼、拷貝的檢測(監(jiān)黃)等。

流式提取是指客戶端從流媒體服務(wù)器上拉而取得的上述步驟中的音頻視頻數(shù)據(jù)。。 同樣,這個過程也是基于上述協(xié)議和cdn。

在上述h.264代碼的介紹中,敘述了sps/pps是解碼所需的數(shù)據(jù)。 這個步驟需要向下流解碼編碼的音頻視頻數(shù)據(jù).。

解碼過程是編碼的逆過程,該過程包括熵解碼、變換解碼、預(yù)測解碼[/s2/]。

h.264標(biāo)準(zhǔn)規(guī)定了解碼器的結(jié)構(gòu),解碼過程大致以宏塊為單位,依次進行熵解碼、逆量化、逆變換,得到殘差數(shù)據(jù)。 組合宏塊內(nèi)的預(yù)測消息,找到解碼后的被參照塊,進一步組合解碼后的被參照塊和本塊殘差數(shù)據(jù),得到本塊的實際數(shù)據(jù)。 宏塊解碼后,組合片,片進一步組合圖像。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

這里證明的是,如果h264碼流中的I幀錯誤或丟失,則會引起錯誤的傳播,個別的p幀或b幀無法完成解碼操作。 I幀存儲了完美的視頻幀,是解碼的關(guān)鍵。

音頻視頻數(shù)據(jù)解碼完成后,可以在硬件設(shè)備(手機或pc )上的播放器上渲染和播放音頻視頻文件。

那么,上述架構(gòu)圖中的信令服務(wù)器是做什么的呢?

——信令服務(wù)器用于解決播音員和客戶端的一點信令命令。

網(wǎng)上傳輸著各種各樣的信號。 其中一部分是我們需要的(例如,打電話的語音、連接到互聯(lián)網(wǎng)的分組等),另一部分是我們不需要的(直接不需要的)用于控制電路,對這種類型的信號進行信令(百 即,信令是通信系統(tǒng)中的控制命令。

營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)

在此基礎(chǔ)上說明整個這個過程。

那么,以上是直播類應(yīng)用程序最基本的架構(gòu)和過程。

本文通過直播系統(tǒng)應(yīng)用的架構(gòu),介紹了一點音視頻技術(shù)的相關(guān)知識,同時詳述了直播系統(tǒng)功能的整體流程。

音視頻技術(shù)是一個高度的行業(yè),本文只是做了一點基礎(chǔ)知識總結(jié),如果大家想知道越來越多的音視頻技術(shù),我建議大家可以學(xué)習(xí)雷神(雷霆駿)的博客。

流年,所有人都是產(chǎn)品經(jīng)理的專欄作家。 網(wǎng)絡(luò)產(chǎn)品設(shè)計師,4年網(wǎng)絡(luò)產(chǎn)品設(shè)計經(jīng)驗。 擅長顧客體驗設(shè)計,喜歡在訴求功能背后的技術(shù)實現(xiàn)方法上下功夫。 走上成為綜合型產(chǎn)品設(shè)計師的道路!

上一篇:營銷:怎么為產(chǎn)品定價?這里有4種做法

下一篇:營銷:網(wǎng)絡(luò)產(chǎn)品經(jīng)理必修課:產(chǎn)品訴求管理


標(biāo)題:營銷:產(chǎn)品經(jīng)理,你要了解一點音視頻技術(shù)
地址:http://wenfangge.com.cn/xinwen/35679.html


免責(zé)聲明:文芳閣軟文營銷平臺所轉(zhuǎn)載內(nèi)容均來自于網(wǎng)絡(luò),不為其真實性負責(zé),只為傳播網(wǎng)絡(luò)信息為目的,如有異議請及時聯(lián)系btr2030@163.com,本人將予以刪除。