申請/專利權人:蘋果公司
申請日:2019-02-20
公開(公告)日:2023-09-15
公開(公告)號:CN110321768B
主分類號:G06V40/10
分類號:G06V40/10;G06V40/16;G06V10/98
優先權:["20180329 FI 20185300"]
專利狀態碼:有效-授權
法律狀態:2023.09.15#授權;2022.08.19#專利申請權的轉移;2019.11.05#實質審查的生效;2019.10.11#公開
摘要:本發明題為“用于生成頭部相關傳遞函數濾波器的布置”。本發明公開用于獲取用于產生頭部相關傳遞函數濾波器的圖像的布置。在該布置中,調整移動電話或類似便攜式設備的相機以進行成像。分析所有獲取的圖像,并且僅進一步發送合適的圖像以用于產生頭部相關傳遞濾波器。該布置進一步被配置成向用戶提供指令,以便充分地覆蓋整個頭部和其他相關的身體部分。
主權項:1.一種用于獲取產生頭部相關傳遞函數濾波器的幾何數據所需的圖像的方法,所述方法包括:初始化用戶設備中的相機應用程序,以用于控制所述用戶設備的相機模塊;使用所述相機模塊獲取多個圖像;選擇顯示解剖結構的圖像,其中解剖結構可用于產生頭部相關傳遞函數濾波器;確定所選圖像是否充分地包括解剖結構以便產生所述頭部相關傳遞函數濾波器,其中當應用于檢測到的耳朵的可見度檢測過程已檢測到所述檢測到的耳朵上有毛發時,所述確定的結果是否定的;以及如果所述確定的結果是否定的,則所述方法還包括:向用戶提供指令以去除所述檢測到的耳朵上的毛發并且獲取另外的圖像,以便獲取所選圖像中未被充分覆蓋的區域的圖像。
全文數據:用于生成頭部相關傳遞函數濾波器的布置背景技術具有多個音頻通道的音頻系統通常是公知的,并且被娛樂行業用于例如電影或電腦游戲。這些系統常常稱為環繞音響系統或三維音響系統。最近已經引入了用于實現甚至更好的三維聲音體驗的布置。這些布置不僅具有多個音頻通道,而且提供基于對象的音頻以改善收聽體驗。通常在耳機收聽中,這些布置基于使用所謂的頭部相關傳遞函數濾波器對聲道進行濾波。通過操縱耳機的兩個音頻通道中的聲音使得它們類似于到達耳道的定向聲音來產生三維體驗。通過考慮耳廓、頭部和軀干對進入耳道的聲音的影響,可能實現三維聲音體驗。這些濾波器常常稱為HRTF頭部相關傳遞函數濾波器。這些濾波器用于提供類似于人類體驗來自不同方向和距離的聲音的效果。當已知人的身體部位諸如耳朵、頭部和軀干的解剖結構時,可產生個人HRTF濾波器,使得通過耳機體驗的聲音盡可能逼真。產生這種濾波器所需要的材料包括描述表面點云的三維點云坐標,通過確定耳朵的相關部分的三維點云可實現耳朵。在常規的基于模擬的方法中,通過使用三維掃描裝置來確定身體部位的三維點云,該三維掃描裝置產生耳朵的至少一部分可見部分的三維模型。然而,這需要昂貴的三維掃描裝置,其可以產生準確的耳朵三維幾何模型。因為耳朵可能具有不同的幾何形狀,所以產生兩個濾波器是可能的,使得兩個耳朵分別具有它們自己的濾波器。常規地,HRTF濾波器是預先產生的,并且對于每個人,選擇選自針對小部分個體進行聲學測量或模擬得到的HRTF濾波器庫的濾波器,然而,由于技術的進步,當已知設計濾波器所針對的人的解剖結構時,可能產生個人濾波器??赏ㄟ^獲取充分顯示待測量人員的足夠的圖像或視頻材料來完成解剖結構測量。然而,這在計算上和網絡連接方面非常密集,因為較長的視頻和較大的圖像集需要大量空間。另外,單獨獲取這些圖像并不容易。這增加了所需圖像的數量或視頻的長度。因此,需要一種能夠獲取產生HRTF濾波器所需的圖像的布置。發明內容公開了用于獲取用于生成頭部相關傳遞函數濾波器的圖像的布置。在該布置中,調整移動電話或類似便攜式設備的相機以進行成像。分析所有獲取的圖像,并且僅進一步發送合適的圖像以用于產生頭部相關傳遞濾波器。該布置進一步被配置成向用戶提供指令,以便充分地覆蓋整個頭部和其他相關的身體部位。在本發明的一個方面,公開了一種用于獲取產生頭部相關傳遞函數濾波器的幾何數據所需的圖像的方法。該方法包括初始化用戶設備中的相機應用程序,以用于控制該用戶設備的相機模塊;使用該相機模塊獲取多個圖像;選擇顯示解剖結構的圖像,其中解剖結構可用于產生頭部相關傳遞函數濾波器;確定所選圖像是否充分地包括解剖結構以便產生頭部相關傳遞函數濾波器;以及如果該確定的結果是否定的,則該方法還包括:向用戶提供指令以獲取另外的圖像,以便獲取未被充分覆蓋的區域的圖像。該方面通過提供產生濾波器生產中所需的點云所需的圖像的簡單獲取,有助于更好地產生頭部相關傳遞函數濾波器。此外,減少了在設備或遠程服務處產生濾波器所需的傳輸容量和計算能力。另外,當在圖像獲取期間控制圖像的質量和角度覆蓋時,改善了點云的幾何精度。在實現方式中,該方法還包括:將包括用于產生頭部相關傳遞濾波器的解剖結構的每個所選圖像傳輸到頭部相關傳遞函數濾波器生成服務器。將所選圖像傳輸到具有更多計算容量的內部或外部的服務器或其他計算設施是有益的。當僅發送所選圖像時,待傳輸的數據量得到減少。在實現方式中,該方法還包括:丟棄不包括可用于產生頭部相關傳遞濾波器的幾何形狀的圖像。丟棄不使用的圖像以便為其他目的釋放存儲器是有益的。在實現方式中,該方法還包括:制備用于獲取圖像的用戶設備,其中該制備包括以下項中的至少一者:選擇足夠的分辨率;打開相機用戶設備的照明設備;調整曝光時間;選擇適當的幀速率。在獲取圖像之前確定合適的設置是有益的。該設置可不同于用戶對普通攝影優選的設置。因此,改變的圖像將導致用于該目的的更好的圖像,并且這可以減少要獲取的用于產生點云的圖形的需要。在實現方式中,該方法在提供指令時還包括以下項中的至少一者:在設備的屏幕上顯示視覺指令;向用戶提供語音指令;提供觸覺指令。向用戶提供關于圖像獲取成功的反饋是有益的。這有助于在更短的時間內獲取更高質量的圖像。在實現方式中,該方法還包括:檢測和或標記耳朵界標和面部界標。檢測和標記界標是有益的,因為這些界標是與濾波器的生產相關的解剖學特征。在實現方式中,該方法還包括:將所選圖像布置成至少三個數據集,其中這些集包括:頭部和上軀干的圖像;左耳的圖像;以及右耳的圖像。從對濾波器有重要意義的所有身體部位獲取圖像是有益的。這將改善濾波器的質量。在實現方式中,該選擇是基于以下項中的至少一者:所選解剖學特征的可見度;圖像的質量;圖像的角度覆蓋。有益的是,圖像的選擇可基于各種定性測量,使得圖像既好又顯示相關部位。在一方面,公開了一種用于服務器的計算機程序,該計算機程序包括在數據處理系統上執行時適于引起根據如上所描述的方法的代碼。有益的是,該布置可作為計算機程序提供,使得個人設備可容易地用于圖像獲取。在一方面,一種裝置包括:至少一個處理器,該至少一個處理器被配置成執行計算機程序;至少一個存儲器,該至少一個存儲器被配置成存儲計算機程序和相關數據;至少一個數據通信接口,該至少一個數據通信接口被配置成與外部數據通信網絡通信;以及至少一個成像設備;其中所述裝置被配置成執行根據如上所描述的方法。有益的是,該布置可作為裝置提供,使得用戶在圖像獲取時可容易地使用該裝置。所描述的用于獲取用于產生頭部相關傳遞函數濾波器的圖像的布置有助于個人設計的頭部相關傳遞函數濾波器的生成,而無需昂貴的掃描處理。希望獲得個人頭部相關傳遞函數濾波器的人可通過使用移動電話或類似物來獲取所需要的圖像。所公開的布置是有效的,因為它確定所獲取的圖像是否適合使用并且僅傳輸可使用的圖像。這不僅減少了對數據傳遞的需求,而且還提供了更可靠的結果。在替代示例中,將圖像提供給同一設備內的應用程序。在該方法中,該過程減少了所需要的計算能力,從而可能在較低計算容量的設備中進行此類計算。此外,當需要較少的計算容量時,設備的電池將持續更長時間。當獲取必要圖像的人使用所公開的布置時,他她可以立即獲取所有必要的圖像。此外,該布置能夠提供即時反饋,該即時反饋說明所獲取的圖像是否足夠。因此,用戶可依賴于該服務,這樣他她就不需要多次獲取圖像。這減少了最終頭部相關傳遞濾波器的從命令到傳輸的時間。附圖說明被包括以提供對用于生成頭部相關傳遞函數濾波器的布置的進一步理解并且構成本說明書的一部分的附圖示出了用于生成頭部相關傳遞函數濾波器的布置的實施方案,并且連同說明書幫助解釋該布置的原理。在附圖中:圖1是用于生成頭部相關傳遞函數濾波器的裝置的示例,并且圖2是用于生成頭部相關傳遞函數濾波器的方法的示例。具體實施方式現在將詳細地參考實施方案,這些實施方案的示例在附圖中示出。在下面的描述中,已經參考了多個圖像。在本說明書的上下文中,該多個圖像可以意指一定數量的靜止圖像或從視頻流中提取的圖像、或這兩者的任何組合。需要多個圖像以便從不同角度看到所需的特征,使得可充分準確地確定三維點云。在圖1中,示出了用于獲取產生頭部相關傳遞函數濾波器所需的圖像的裝置10的示例。在圖1的示例中,裝置10是移動電話,然而,可使用遵循下面討論的原理的任何類似設備。此類設備的示例包括平板電腦、膝上型計算機等。圖1的移動電話10包括顯示器11。顯示器11可以是普通的移動顯示器,它們通常是觸敏的,即使在此示例中不是必需的。移動電話10還包括被配置成執行計算機程序和應用程序的至少一個處理器12。該移動電話還包括用于存儲計算機程序、應用程序和相關數據的存儲器13。通常,移動電話具有易失性存儲器和非易失性存儲器兩者。本示例適用于這兩種類型的存儲器。移動電話10還包括數據通信接口14。這種接口的示例為UMTS通用移動通信系統和LTE長期演進。移動電話通??稍L問幾種不同的網絡類型?,F代移動電話的共同特征是相機15。該相機包括至少一個透鏡和至少一個圖像傳感器。在多個透鏡和所獲取傳感器圖像的情況下,組合所獲取傳感器圖像以便提供更高質量的圖像。通常,相機諸如移動電話10的相機15能夠獲取視頻序列。在本示例中,可捕獲所謂的全高清1080p分辨率下的視頻序列,該分辨率為1920×1080像素。還可獲取更高的分辨率。在本示例中,通過使用更高分辨率的靜止圖像來增補視頻序列是可能的?,F代相機還可能夠產生三維圖像、包括至少圖像中的一些對象的深度信息的其他圖像。該圖像還可包括另外的信息,諸如照明條件、設備取向信息和提供關于圖形和圖形內容的另外信息的其他類似信息。這些特征可用在所描述的實施方案中。例如,深度相機、立體相機或其他范圍成像設備可能對確定在產生頭部相關傳遞函數濾波器時所考慮的解剖學特征的三維坐標方面非常有用。移動電話10還包括音頻設備16。該音頻設備可包括揚聲器和麥克風的組合。揚聲器也可用于普通呼叫。移動電話10還包括觸覺設備17,該觸覺設備17可用于向移動電話10的用戶提供反饋。這種特征通常用于例如通過振動警報來通知用戶有關傳入呼叫。在圖2中,示出了用于獲取產生頭部相關傳遞函數濾波器所需的圖像的方法的示例。該方法可用于諸如圖1的移動電話10的設備。然而,這只是示例性的,并且可使用任何類似的設備。通過初始化移動電話的相機應用程序步驟20來發起該方法。該初始化通常包括加載和啟動應用程序,以便移動電話準備好獲取圖像。在圖2的方法中,這還包括設定適于該目的的參數。這些參數可以是例如選擇具有最高的可能分辨率諸如1920×1080或3840×2160、具有適當幀速率的視頻捕獲模式。幀速率不需要適用于觀看目的,然而,更高的幀速率提供更多的材料供以后使用。除了幀速率之外,還可以選擇適當的曝光時間。如果移動電話具有照明設備諸如LED發光二極管或其他燈,則可打開該照明設備以改善捕獲。即使存在若干預設選項,也不需要使用所有選項。設定的目的是改善捕獲濾波器產生所需的特征。因此,可接受的圖像是使得有助于從圖像中提取特征的,但它對人眼來說不一定美觀。例如,當選擇最佳暴露時間時,重要的是重要的像素不會曝光過度或曝光不足。當已經適當地設定了設置時,就獲取多個圖像步驟21。移動電話10的用戶使用移動電話10的相機15來獲取多個圖像。這些圖像可以靜止模式或作為視頻流來獲取??赡芟蛴脩籼峁┲噶?,例如,首先獲取左耳的圖像。在已經獲取圖像之后,例如已經實現了特定時段的視頻流或預先確定數量的圖像,就停止成像。相機將所獲取的圖像存儲到存儲器13。在更先進的實現方式中,停止條件可取決于質量、成像條件等。例如,有可能一直獲取圖像,直到已經實現預先確定的角度覆蓋為止。從所獲取的圖像中選擇用于確定頭部相關傳遞函數所需的圖像步驟22。通過處理器12處理存儲器13中的圖像,以便確定圖像是否可用。此外,因為先前的圖像已經充分覆蓋該區域,所以一些圖像可能被認為是不可用的。在選擇圖像以用于進一步傳輸時可采取若干可選的步驟。首先,可處理圖像中的每一個以檢查技術質量。這可包括例如檢查圖像是否銳化并且適當地曝光。在此過程中,可使用自動校正算法以便檢查是否有可能改善圖像。例如,使用拉普拉斯濾波器Laplacianfilter的方差來評估清晰度。在焦點框中產生比模糊框更高的方差。幀選擇是使用動態閾值水平視頻的平均方差來定義。如果采樣速率不足,則降低閾值水平直到實現所請求的幀速率為止??赏ㄟ^分析目標上的最高像素強度來驗證照明和暴露,以驗證不存在過度曝光。此步驟對應于選擇正確曝光的分析。在技術檢查之后,在通過技術檢查的圖像上進行所需身體部位諸如耳朵、面部和頭部的定位,應用技術檢查。使用機器學習特征檢測方法諸如CNN卷積神經網絡來檢測耳朵和面部。使用所選擇的數據集對檢測器進行預訓練,這些數據集通常由n1000個圖像的大量圖像樣本組成。在視頻捕獲期間,可能使用特征檢測方法來檢測耳朵,并且在圖像上繪制耳朵的ROI感興趣區域。使用預訓練的形狀模型從ROI檢測面部界標和耳朵界標,并且在捕獲過程期間跟蹤這些界標。如果無法檢測到耳朵或面部位置和特征,則應用程序向用戶提供反饋并引導用戶根據先前檢測到的特征調整相機位置。圖形用戶界面可引導用戶從正確的距離和方向獲取多個圖像,諸如視頻。這可例如通過在移動設備的屏幕上顯示頭部或耳朵的輪廓來完成。建議用戶在拍攝視頻時將頭部或耳朵放在該輪廓內。另外,輪廓可旋轉以引導用戶改變拍攝方向??捎闷聊簧系募^指示相機需要移動到的方向。僅當獲取多個圖像的人可以看到指令時,上述反饋才適用。這通常僅在另一個人負責獲取時發生。在無輔助獲取的情況下,可提供觸覺和或音頻反饋,而不是視覺信息。此外,可組合或單獨使用所有視覺、觸覺和音頻反饋,以便可以提供最佳的可能形式的幫助。對于檢測到的身體部位,必須應用在線可見度檢測。耳朵上的毛發將影響最終重建,因而將檢測這些情況并且將通知用戶該問題。從使用上述方法檢測到的ROI進行檢測。首先,使用顏色信息對耳朵區域進行分段?;陬伾姆侄慰衫缡褂酶纳品侄谓Y果的神經網絡來進行。向分段幀應用邊緣檢測諸如Canny方法,該邊緣檢測檢測耳朵上的細毛。如果檢測到不需要的毛發,應用程序將通知用戶去除耳朵上的毛發。在選擇了圖像之后,處理器12被配置成確定所選擇的圖像是否足以用來確定頭部相關傳遞函數濾波器步驟23。為了執行此操作,處理器12可執行頭部耳朵的稀疏重建。稀疏重建是指對于HRTF處理而言不夠準確的點云或表面模型,然而,當使用具有提供這種重建的能力的計算設備進行最終重建時,該稀疏重建足以用來提供圖像是否足夠準確的估計。稀疏點云是使用例如快速同時定位和映射SLAM方法在線生成的。表面模型可使用例如使用主成分分析PCA生成的可變形形狀模型來生成。當執行稀疏重建時,提取和跟蹤來自所獲取視頻流或圖像的特征。跟蹤的特征用于改善對攝像機位置和角度的估計。從另外的移動電話傳感器諸如陀螺儀和加速度計接收的信息的使用可用于改善相機定位和絕對縮放。在此階段,可能向用戶提供在必要時獲取更多圖像的指令??衫缤ㄟ^將來自相機的原始圖像與從稀疏3d重建生成的虛擬圖像進行比較來分析稀疏重建的質量。如果稀疏重建的特征諸如耳朵的輪廓與原始圖像不一致,則指示用戶獲取更多圖像。然而,也可能嘗試確定是否有可能創建三個足夠的集步驟23。在此示例中,存在用于頭部和雙耳的集,然而,可能包括例如用于用戶身體的單獨的另外集。相應地,可能通過包括僅用于耳朵的集來創建較低質量的濾波器。如果這些集并不足夠,則該方法返回到通過指令獲取圖像步驟21。如果圖像足夠,則將所獲取的圖像發送到服務器、類似用于產生實際的頭部相關傳遞濾波器的云服務。從稀疏重建獲取的信息可與該圖像一起發送。如果這些集足夠,則該方法繼續進一步傳輸所選擇的圖像步驟24。進一步傳輸圖像可以意指將圖像傳輸到外部設備或服務,諸如計算機、服務器或云服務。然而,進一步傳輸到另外的應用程序是在用于獲取圖像的設備中執行的。例如,移動電話應用程序可被配置成使得要求苛刻的計算在后臺進行,可能在諸如夜晚的低活動時段期間,以及當設備可能連接到充電器時。因此,即使在低計算容量的設備中也可以進行復雜的過程。在上述示例中,該方法被示出為步驟序列,然而,該過程不需要是順序的,但可以至少部分地并行地實現。例如,當用戶開始獲取圖像時,可立即開始第一視頻幀的處理。因此,可能從一開始就立即向用戶提供信息和指令。如上所述,示例性實施方案的部件可包括計算機可讀介質或存儲器,這些介質或存儲器用于保存根據本發明的教導內容編程的指令,并用于保存本文所述的數據結構、表格、記錄和或其他數據。計算機可讀介質可包括參與向處理器提供指令以供執行的任何合適的介質。常見形式的計算機可讀介質可包括,例如,軟盤、軟性磁盤、硬盤、磁帶、任何其他合適的磁性介質、CD-ROM、CD±R、CD±RW、DVD、DVD-RAM、DVD±RW、DVD±R、HDDVD、HDDVD-R、HDDVD-RW、HDDVD-RAM、藍光光盤、任何其他合適的光學介質、RAM、PROM、EPROM、FLASH-EPROM、任何其他合適的存儲器芯片或盒、或計算機可從其讀取的任何其他合適的介質。對于本領域技術人員顯而易見的是,隨著技術的進步,可以各種方式實現用于生成頭部相關傳遞函數濾波器的布置的基本想法。用于生成頭部相關傳遞函數濾波器的布置及其實施方案因此并不限于上述示例;相反,它們可以在權利要求的范圍內變化。
權利要求:1.一種用于獲取產生頭部相關傳遞函數濾波器的幾何數據所需的圖像的方法,所述方法包括:初始化用戶設備中的相機應用程序,以用于控制所述用戶設備的相機模塊;使用所述相機模塊獲取多個圖像;選擇顯示解剖結構的圖像,其中解剖結構可用于產生頭部相關傳遞函數濾波器;確定所選圖像是否充分地包括解剖結構以便產生所述頭部相關傳遞函數濾波器;以及如果所述確定的結果是否定的,則所述方法還包括:向用戶提供指令以獲取另外的圖像,以便獲取未被充分覆蓋的區域的圖像。2.根據權利要求1所述的方法,其中所述方法還包括:將包括用于產生所述頭部相關傳遞濾波器的解剖結構的每個所選圖像傳輸到頭部相關傳遞函數濾波器生成服務器。3.根據權利要求1或2所述的方法,其中所述方法還包括:丟棄不包括可用于產生所述頭部相關傳遞濾波器的幾何形狀的圖像。4.根據前述權利要求1-3中任一項所述的方法,其中所述方法還包括:制備用于獲取所述圖像的所述用戶設備,其中所述制備包括以下項中的至少一者:-選擇足夠的分辨率;-打開所述相機用戶設備的照明設備;-調整曝光時間;以及-選擇適當的幀速率。5.根據前述權利要求1-4中任一項所述的方法,其中所述方法在提供指令時還包括以下項中的至少一者:-在所述設備的屏幕上顯示視覺指令;-向所述用戶提供語音指令;以及-提供觸覺指令。6.根據前述權利要求1-5中任一項所述的方法,其中所述選擇還包括:檢測和或標記耳朵界標和面部界標。7.根據權利要求6所述的方法,其中所述方法還包括:將所述所選圖像布置成至少三個數據集,其中所述集包括:-頭部和上軀干的圖像;-左耳的圖像;和-右耳的圖像。8.根據前述權利要求1-7中任一項所述的方法,其中所述選擇是基于以下項中的至少一者:-所選解剖學特征的可見度;-所述圖像的質量-所述圖像的角度覆蓋。9.一種用于服務器的計算機程序,包括在數據處理系統上執行時適于引起根據權利要求1-8中任一項所述的方法的代碼。10.一種裝置,所述裝置包括:至少一個處理器12,所述至少一個處理器12被配置成執行計算機程序;至少一個存儲器13,所述至少一個存儲器13被配置成存儲計算機程序和相關數據;至少一個數據通信接口14,所述至少一個數據通信接口14被配置成與外部數據通信網絡通信;和至少一個成像設備15;其中所述裝置被配置成執行根據權利要求1-8中任一項所述的方法。
百度查詢: 蘋果公司 用于生成頭部相關傳遞函數濾波器的布置
免責聲明
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。