蘋果AI視覺技術大躍進?SHARP號稱1秒將2D轉3D場景

蘋果AI視覺技術大躍進?SHARP號稱1秒將2D轉3D場景
圖/AI示意圖

商傳媒|記者責任編輯/綜合外電報導

蘋果在人工智慧領域的布局正加速前進,根據科技媒體《Wccftech》報導,蘋果日前發表一項名為《Sharp Monocular View Synthesis in Less Than a Second》的技術研究,正式公開旗下全新AI視覺模型「SHARP」,標榜能在不到一秒內,從單一張2D圖片即時生成逼真的3D場景。

報導進一步指出,SHARP(Sharp Hallucination of Augmented Realistic Perspectives)是一種透過單次前饋神經網路運算,即可完成3D重建的新型AI模型。根據蘋果工程團隊說明,SHARP能從單一2D視角預測場景的深度資訊與鄰近視角,再建構出完整的3D影像,其處理時間在「標準GPU環境下僅需不到一秒」。

此技術最關鍵的突破,在於SHARP運用3D高斯分佈(3D Gaussian Splatting),這是一種將場景拆解為無數個「splats(彩色點狀雲粒)」的建模方法,過往需依賴多視角輸入才能建立完整模型;蘋果的SHARP則能突破限制,僅需單一影像便能推論出完整立體景象,並即時呈現。

研究指出,SHARP所生成的3D模型具備公制比例(metric scale)與絕對尺度,這意味著使用者可以自由移動攝影機視角,系統會自動呈現各角度的高畫質視圖。此特性極具應用潛力,從虛擬實境(VR)、擴增實境(AR)到即時遊戲畫面生成與虛擬攝影棚,都可能受益於此技術。

蘋果研究團隊表示,SHARP模型透過資料集訓練後,能夠生成接近真實攝影品質的圖像,即使在角度變化顯著的情境下,也不會出現常見的圖像模糊或失真問題。

與此同時,蘋果已將該模型開放給全球開發者與研究人員試用,並設立[GitHub專頁](https://github.com/apple)提供下載與使用說明,期望推動該項技術於開發社群內的實驗與創新。

SHARP的開放象徵蘋果在AI研究策略上的轉變,逐漸從封閉系統走向更多元開源合作;對比Google的NeRF、Meta的3D GAN、NVIDIA的Instant-NGP,蘋果此次公開SHARP模型,顯示其有意在生成式AI與3D視覺技術領域爭取主導權。