โ arXiv โ Hugging Face โ Papers with Code
TL;DR#
Traditional methods for separating an object’s true color and material from lighting effects in images (intrinsic decomposition) struggle with long processing times and inaccuracies. Optimization-based methods require hours and often mix lighting with material, while learning-based methods, though faster, are inconsistent across different viewpoints. Existing datasets for this task are also limited in scope and diversity, making it hard to train truly robust models. Accurate intrinsic decomposition is crucial for applications like relighting objects in images, editing materials, and even creating realistic 3D models.
IDArb tackles these challenges using a new AI model that can handle any number of images of an object under different lighting conditions. It employs clever attention mechanisms to ensure consistent results across all viewpoints and disentangles material from lighting. Itโs also trained on a new, massive dataset, ARB-Objaverse, containing millions of images with diverse objects and lighting, resulting in more accurate and robust intrinsic decomposition. This enables significantly better results in various applications like relighting, material editing, and 3D reconstruction.
Key Takeaways#
Why does it matter?#
IDArb presents a significant advancement in intrinsic image decomposition, impacting researchers in computer vision and graphics. It offers a robust, efficient solution for multi-view decomposition under varied lighting, which is crucial for realistic 3D content creation. The introduction of ARB-Objaverse dataset enables future research on robust intrinsic decomposition models. Its application in relighting, material editing, and 3D reconstruction opens new possibilities for realistic content creation and editing.
Visual Insights#
๐ผ IDArb๋ ์ ์ฝ ์๋ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ค์ํ ์์ ๋ทฐ๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ด์ฌ ๋ถํด๋ฅผ ์ํํฉ๋๋ค. ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ๋ค์ค ๋ทฐ ์ผ๊ด์ฑ์ ๋ฌ์ฑํ๊ณ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ฌ ํ์ต๋ ์ฌ์ ์ง์์ ํตํด ์กฐ๋ช ํจ๊ณผ์์ ๋ด์ฌ ์์๋ฅผ ๋ ์ ๋ถ๋ฆฌํฉ๋๋ค. ์ด๋ฏธ์ง ์ฌ์กฐ๋ช ๋ฐ ์ฌ์ง ํธ์ง, ์ฌ์ง ์ธก๋ ์คํ ๋ ์ค, 3D ์ฌ๊ตฌ์ฑ๊ณผ ๊ฐ์ ๋ค์ํ ์์ฉ ๋ถ์ผ๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค.
read the caption
Figure 1: IDArb tackles intrinsic decomposition for an arbitrary number of views under unconstrained illumination. Our approach (a) achieves multi-view consistency compared to learning-based methods and (b) better disentangles intrinsic components from lighting effects via learnt priors compared to optimization-based methods. Our method could enhance a wide range of applications such as image relighting and material editing, photometric stereo, and 3D reconstruction.
Albedo | Normal | Metallic | Roughness | |||
---|---|---|---|---|---|---|
SSIMโ | PSNRโ | Cosine Similarity โ | MSE โ | MSE โ | ||
IID | 0.901 | 27.35 | - | 0.192 | 0.131 | |
RGBโX | 0.902 | 28.09 | 0.834 | 0.162 | 0.347 | |
IntrinsicAnything | 0.901 | 28.17 | - | - | - | |
GeoWizard | - | - | 0.871 | - | - | |
Ours(single) | 0.935 | 32.79 | 0.928 | 0.037 | 0.058 | |
Ours(multi) | 0.937 | 33.62 | 0.941 | 0.016 | 0.033 |
๐ผ IDArb๊ฐ ๋ค๋ฅธ ๊ธฐ์ค ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๋ชจ๋ ์งํ(์๋ฒ ๋, ๋ ธ๋ฉ, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค)์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ๋ณด์ฌ์ฃผ๋ ์ ๋์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ ํ์ ๋๋ค. IDArb๋ ๋จ์ผ ๋ทฐ ๋ฐ ๋ค์ค ๋ทฐ ์ค์ ๋ชจ๋์์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
read the caption
Table 1: Quantitative evaluation of IDArb against baselines.ย IDArb consistently achieves the best results among all albedo, normal, metallic and roughness metrics.
In-depth insights#
Intrinsic Decomp#
**๋ณธ์ง์ ๋ถํด(Intrinsic Decomp)**๋ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ์์ ์ด๋ฏธ์ง์ ๊ธฐ๋ณธ ๊ตฌ์ฑ ์์๋ฅผ ์ถ์ถํ๋ ํต์ฌ ๊ณผ์ ์ ๋๋ค. ์ด๋ 3D ์ฅ๋ฉด ์ดํด, ์ฌ์ง ํธ์ง, ์ฌ์กฐ๋ช ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค. ๋ณธ์ง์ ๋ถํด๋ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์๋ฒ ๋, ๋ฒ์ , ๊ธ์์ฑ, ๊ฑฐ์น ๊ธฐ์ ๊ฐ์ ๊ณ ์ ์์ฑ์ ๋ถ๋ฆฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฌํ ์์ฑ์ ๊ฐ์ฒด์ ๋ชจ์, ์ฌ์ง, ์กฐ๋ช ๊ณผ ๋ฌด๊ดํ๋ฉฐ ์ฅ๋ฉด์ ์ง์ ํ ๋ณธ์ง์ ๋ํ๋ ๋๋ค. ์ ํต์ ์ธ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๊ณ์ฐ์ ์ผ๋ก ๋น์ธ๊ณ ์กฐ๋ช ๊ณผ ์ฌ์ง์ ๋ชจํธ์ฑ์ ํด๊ฒฐํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์ต๊ทผ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ฌ์ ์ ๋ณด ํ์ฉ์ ํตํด ๊ณ ํ์ง ๋ถํด๋ฅผ ๋ฌ์ฑํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋จ์ผ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๋ทฐ์์ ์ผ๊ด์ฑ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค. ๋ค์ค ๋ทฐ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ๋ณธ์ง์ ๋ถํด๋ฅผ ์ํํ๋ ๊ฒ์ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์ ์์ผ๋ฉฐ, ๋ทฐ ๊ฐ์ ์ ๋ณด ์ตํฉ ๋ฐ ๋ชจํธ์ฑ ํด๊ฒฐ์ ์ํ ํจ๊ณผ์ ์ธ ์ ๋ต์ด ํ์ํฉ๋๋ค.
Diffusion Model#
ํ์ฐ ๋ชจ๋ธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ํตํ ์ญ ํ์ฐ ํ๋ก์ธ์ค๋ก ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค. Stable Diffusion๊ณผ ๊ฐ์ ์ต์ ๋ชจ๋ธ์ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ์์ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ค์ํ ์์ฉ ๋ถ์ผ์ ๊ฑธ์ณ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ด์ฌ์ ๋ถํด๋ฅผ ์ํด ๊ต์ฐจ ๋๋ฉ์ธ ์ดํ ์ ๋ชจ๋์ ํ์ฉํ์ฌ ๋ค์ํ ์ ๋ ฅ ๋ทฐ์ ์กฐ๋ช ์กฐ๊ฑด์ ์ฒ๋ฆฌํ๋ ํ์ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ํตํด ์ฌ์ค์ ์ธ 3D ์ฝํ ์ธ ์ ์์ ์ํ ๋ฉํฐ๋ทฐ ์ผ๊ด์ฑ ๋ฐ ๊ณ ์ฃผํ ๋ํ ์ผ์ ๊ฐ์ถ ์ ํํ ๋ด์ฌ์ ๊ตฌ์ฑ ์์ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Multi-view Data#
๋ฉํฐ ๋ทฐ ๋ฐ์ดํฐ๋ ๋ฌผ์ฒด๋ ์ฅ๋ฉด์ ๋ํ ํ๋ถํ๊ณ ๋ค์ํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋ค์ํ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ ์์ ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์ฌ๋ฌ ๊ฐ๋์์ ์บก์ฒ๋ ์ด๋ฏธ์ง๋ ๊ฐ์ฒด์ 3์ฐจ์ ํ์, ์ฌ์ง ์์ฑ, ์ฃผ๋ณ ์กฐ๋ช ์ ๋ณด๋ค ์๋ฒฝํ๊ฒ ํํํฉ๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ๋ ๊น์ด ์ถ์ , 3D ์ฌ๊ตฌ์ฑ, ๋ฌผ์ฒด ์ธ์ ๋ฐ ์ฅ๋ฉด ์ดํด์ ๊ฐ์ ์์ ์์ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ๋ฉํฐ ๋ทฐ ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ์ ์๊ณผ ๋ค์์ฑ ๋๋ถ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์์ผ ๋ณด๋ค ์ ํํ๊ณ ๊ฐ๋ ฅํ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ํ, ๋ฉํฐ ๋ทฐ ์ผ๊ด์ฑ์ ํตํด ์ฌ๋ฌ ์์ ์์ ์์ธก์ ์ ํ์ฑ๊ณผ ์์ ์ฑ์ ๋ณด์ฅํ ์ ์์ต๋๋ค. ๋ฉํฐ ๋ทฐ ๋ฐ์ดํฐ์ ์ฃผ์ ๊ณผ์ ์ค ํ๋๋ ์ฌ๋ฌ ์์ ์์ ์บก์ฒ๋ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ ๊ฒ์ ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ต์ฐจ ๋ทฐ ์ดํ ์ ๋ฉ์ปค๋์ฆ๊ณผ ๊ฐ์ ๋ค์ํ ๊ธฐ์ ์ด ๊ฐ๋ฐ๋์์ต๋๋ค. ์ด๋ฌํ ๋ฉ์ปค๋์ฆ์ ๋ค๋ฅธ ๋ทฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ ์ ์ญ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ์ผ๊ด๋๊ณ ์ ํํ ๋ฉํฐ ๋ทฐ ์ฌ๊ตฌ์ฑ์ ๋ณด์ฅํฉ๋๋ค. ์์ฝํ๋ฉด, ๋ฉํฐ ๋ทฐ ๋ฐ์ดํฐ๋ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ ๋ถ์ผ์ ๋ค์ํ ์์ ์์ ์ค์ํ ์ญํ ์ ํ๋ฉฐ, ๋ฉํฐ ๋ทฐ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๊ธฐ์ ์ ๋์ฑ ๊ฐ๋ ฅํ๊ณ ์ฌ์ค์ ์ธ 3D ๋ชจ๋ธ ๋ฐ ์ฅ๋ฉด ํํ์ ํฅ์์ํค๋ ๋ฐ ์ค์ํฉ๋๋ค.
Relighting App#
์ฌ์กฐ๋ช ์ฑ์ ์ด๋ฏธ์ง์ ๊ณ ์ ํ ์์ฑ(์๋ฒ ๋, ํ๋ฉด ๋ฒ์ , ๊ธ์์ฑ, ๊ฑฐ์น ๊ธฐ)์ ๋ถํดํ์ฌ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ์ฌ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์ ํ๋ฆฌ์ผ์ด์ ์ ๋๋ค. ์ด๋ฌํ ์ฑ์ ์ญ๋ ๋๋ง ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ๊ธฐํํ์ ๋ฐ ์ฌ์ง ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ์กฐ๋ช ์ ์์ ํ๊ฑฐ๋ ํธ์งํ์ฌ ์๋ณธ ์ด๋ฏธ์ง์ ๋ชจ์์ ๋ณ๊ฒฝํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋์ด ์ด๋ฏธ์ง๋ฅผ ๋ฐ๊ฒ ํ๊ฑฐ๋, ์กฐ๋ช ์ ์์์ ๋ณ๊ฒฝํ๊ฑฐ๋, ๊ทธ๋ฆผ์๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ๋ฅ์ ์ฌ์ง ํธ์ง, ๊ฒ์ ๊ฐ๋ฐ, ์ํ ์ ์, ๊ฑด์ถ ๋์์ธ๊ณผ ๊ฐ์ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋ ์ ์์ต๋๋ค. ํนํ, ๊ฐ์ ํ๊ฒฝ์์ ์ฌ์ค์ ์ธ ์กฐ๋ช ํจ๊ณผ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ฑฐ๋, ์ ํ์ ์ธ๊ด์ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ฏธ๋ฆฌ ํ์ธํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค. ์ฌ์กฐ๋ช ์ฑ์ ์ฌ์ฉ์์๊ฒ ์ฐฝ์์ ์ธ ํํ์ ์ํ ๊ฐ๋ ฅํ ๋๊ตฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ๋ชฐ์ ํ ๊ฒฝํ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค. ์ด๋ฌํ ์ฑ์ ๋ฐ์ ์ ์ปดํจํฐ ๋น์ ๋ฐ ๊ทธ๋ํฝ ๊ธฐ์ ์ ๋ฐ์ ๊ณผ ๋ฐ์ ํ๊ฒ ์ฐ๊ด๋์ด ์์ผ๋ฉฐ, ์์ผ๋ก ๋์ฑ ์ฌ์ค์ ์ด๊ณ ๋ค์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
Dataset & Limits#
ARB-Objaverse ๋ฐ์ดํฐ์ ์ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ ๋๋ง๋ ๋๊ท๋ชจ ๊ฐ์ฒด๋ค์ ์ ๊ณตํ์ฌ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค. 68k๊ฐ์ 3D ๋ชจ๋ธ์ Objaverse์์ ์ ํํ๊ณ , ๊ฐ ๊ฐ์ฒด์ ๋ํด ๋ค์ํ ์กฐ๋ช ์ผ๋ก 7๊ฐ์ ์ด๋ฏธ์ง๋ฅผ 12๊ฐ ์์ ์์ ๋ ๋๋งํ์ฌ 5.7M๊ฐ์ RGB ์ด๋ฏธ์ง์ ์กฐ๋ช ์กฐ๊ฑด์ ๋ฐ๋ฅธ ๋ณธ์ง์ ์์๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๋ ๋ค์ํ ์กฐ๋ช , ์์ , ๊ฐ์ฒด์ ์กฐํฉ์ผ๋ก ํ๋ จ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํ๋ณดํ๊ณ , ์กฐ๋ช ๊ณผ ์ฌ์ง์ ๋ชจํธ์ฑ ๋ฌธ์ ๋ฅผ ์ํํ๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค. ํ์ง๋ง ์ค์ ๋ฐ์ดํฐ ๋ถ์กฑ์ ์ฌ์ ํ ํ๊ณ๋ก ๋จ์์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ์ฌ์ง ๋ณํ๋ฅผ ๊ฐ์ง ๊ฐ์ฒด์ ๊ฒฝ์ฐ ๊ณผ๋ํ๊ฒ ๋จ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๋ ๋น์ง๋ ํ์ต ๊ธฐ๋ฒ ๋ฑ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ, ํ์ฌ ๊ต์ฐจ ์์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ O(Nยฒ) ๋ณต์ก๋๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ๋๋ ๋ง์ ์์ ์์์ ์ฒ๋ฆฌ๋ฅผ ์ด๋ ต๊ฒ ํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํจ์จ์ ์ธ ๊ต์ฐจ ์์ ์ดํ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ์ค์ํฉ๋๋ค.
More visual insights#
More on figures
๐ผ IDArb๋ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ์ดฌ์๋ ์์ ๊ฐ์์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ๋ฐ์ intrinsic decomposition์ ์ํํ๋ ํ์ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๋ค. ๊ทธ๋ฆผ์ IDArb์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ์ UNet ๋ด๋ถ์ attention block์ ๋ณด์ฌ์ค๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง๋ค์ N_v๊ฐ์ ์์ ๊ณผ N_i๊ฐ์ ์กฐ๋ช ์กฐ๊ฑด์์ ์ํ๋ง๋๋ฉฐ, ๊ฐ ์ด๋ฏธ์ง์ latent vector๋ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ์ ์ฐ๊ฒฐ๋์ด denoising์ ์ฌ์ฉ๋ฉ๋๋ค. Intrinsic component๋ Albedo, Normal, Metallic&Roughness์ ์ธ ๊ฐ์ง triplet์ผ๋ก ๋๋๋ฉฐ, ๊ฐ๊ฐ ํน์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์๋ดํฉ๋๋ค. UNet ๋ด๋ถ์ attention block์ cross-component attention๊ณผ cross-view attention ๋ชจ๋์ ํตํด component์ ์์ ๊ฐ์ ์ ๋ณด ๊ตํ์ ์ด์งํ์ฌ, ์ ์ญ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
read the caption
Figure 2: Top: Overview of ย IDArb. Bottom: Illustration of the attention block within the UNet. Our training batch consists of N๐Nitalic_N input images, sampled from Nvsubscript๐๐ฃN_{v}italic_N start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT viewpoints and Nisubscript๐๐N_{i}italic_N start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT illuminations. The latent vector for each image is concatenated with Gaussian noise for denoising. Intrinsic components are divided into three triplets (D๐ทDitalic_D=3): Albedo, Normal and Metallic&Roughness. Specific text prompts are used to guide the model toward different intrinsic components. For attention block inside UNet, we introduce cross-component and cross-view attention module into it, where attention is applied across components and views, facilitating global information exchange.
๐ผ ARB-Objaverse ๋ฐ์ดํฐ์ ์ ๋ค์ํ ๋ฌผ์ฒด๋ค์ ์ฌ๋ฌ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ ๋๋งํ์ฌ ์กฐ๋ช ๋ณํ์ ๊ฐ์ธํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ฐ ๋ฌผ์ฒด๋ albedo, normal, metallic, roughness์ ๊ฐ์ intrinsic ์์๋ค๊ณผ ํจ๊ป ์ ๊ณต๋ฉ๋๋ค. ๊ทธ๋ฆผ์์ ABO, G-Objaverse, A12-Objaverse ๋ฐ์ดํฐ์ ๊ณผ ๋น๊ตํ์ฌ ARB-Objaverse์ ๋ค์ํ ๋ฌผ์ฒด ๋ฐ ์กฐ๋ช ์กฐ๊ฑด์ ํ์ธํ ์ ์์ต๋๋ค.
read the caption
Figure 3: Overview of the Arb-Objaverse dataset. Our custom dataset features a diverse collection of objects rendered under various lighting conditions, accompanied by their intrinsic components.
๐ผ (a) ์๋ฒ ๋ ์ถ์ . IDArb๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ ํ์ด๋ผ์ดํธ์ ๊ทธ๋ฆผ์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ์ฌ ๋ ์ ํํ ์๋ฒ ๋ ๋งต์ ์์ฑํฉ๋๋ค. ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ ๋, IDArb๋ ์กฐ๋ช ํจ๊ณผ๋ฅผ ์๋ฒ ๋์ ์ฝ์ ํ์ง ์๊ณ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ ๋๋ค.
read the caption
(a) Albedo estimation. Our method effectively removes highlights and shadows.
๐ผ IDArb๊ฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค(RGBโX, GeoWizard)๊ณผ ๋น๊ตํ์ฌ, ํ๋ฉด์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ๋ฉด์๋ ๋ฌผ์ฒด์ ํํ๋ฅผ ์ ๋ํ๋ด๋ ๋ ธ๋ฉ ๋งต์ ์์ฑํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. RGBโX๋ ๋ฌผ์ฒด์ ํ ์ค์ฒ์ ์ํด ๊ฐ์ญ์ ๋ฐ๋ ๋ชจ์ต์ ๋ณด์ด๋ฉฐ, GeoWizard๋ ํ๋ฆฟํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
read the caption
(b) Normal estimation. Our method gives shape geometry while correctly predicting flat surface.
๐ผ IDArb๋ ํ ์ค์ฒ ํจํด ๋ฐ ์กฐ๋ช ์ ๊ฐ์ญ ์์ด ์ค์ ์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ์ฌ ๊ธ์์ฑ ์ถ์ ์์ IID ๋ฐ RGBโX๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ฉ๋๋ค.
read the caption
(c) Metallic estimation. Our method outperforms IID and RGBโโ\leftrightarrowโX with plausible results free of interference from texture patterns and lighting.
๐ผ IDArb๊ฐ ํ ์ค์ฒ ํจํด ๋ฐ ์กฐ๋ช ์ ๊ฐ์ญ ์์ด ๊ทธ๋ด๋ฏํ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ์ฌ IID์ RGBโX๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ผ๋ก ๊ฑฐ์น ๊ธฐ๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
read the caption
(d) Roughness estimation. Our method outperforms IID and RGBโโ\leftrightarrowโX with plausible results free of interference from texture patterns and lighting.
๐ผ IDArb ๋ชจ๋ธ์ ํฉ์ฑ ๋ฐ์ดํฐ์์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ ์ฐ์ํ ๋ด์ฌ์ ์ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆผ์ albedo, normal, metallic, roughness ์ถ์ ๊ฒฐ๊ณผ๋ฅผ IID, RGBโX, IntrinsicAnything, GeoWizard ์ ๊ฐ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ๊ณ ์์ต๋๋ค. IDArb๋ albedo์์ ํ์ด๋ผ์ดํธ์ ๊ทธ๋ฆผ์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๊ณ , normal์์ ์ ํํ ๊ธฐํํ์ ํํ๋ฅผ ์ ๊ณตํ๋ฉฐ, metallic๊ณผ roughness์์ ํ ์ค์ฒ ํจํด ๋ฐ ์กฐ๋ช ์ ๊ฐ์ญ์ ์ ๊ฑฐํ์ฌ ์ฌ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
read the caption
Figure 4: Qualitative comparison on synthetic data. ย IDArb demonstrates superior intrinsic estimation compared to all other methods.
๐ผ ์ด ๊ทธ๋ฆผ์ ์ค์ ๋ฐ์ดํฐ์ ๋ํ IDArb์ ์ ์ฑ์ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. IDArb์ ์ค์ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์ผ๋ฐํ๋์ด ์ ํํ๊ณ ์ค๋๋ ฅ ์๋ ๋ถํด๋ฅ๊ณผ ๊ณ ์ฃผํ ๋ํ ์ผ์ ์ ๊ณตํฉ๋๋ค. ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ ๋ ฅ ์ด๋ฏธ์ง, IntrinsicAnything๋ก ์์ธกํ ๊ฒฐ๊ณผ, IDArb์ผ๋ก ์์ธกํ ์๋ฒ ๋, ๋ ธ๋ง, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค๋ฅผ ๋ณด์ฌ์ค๋๋ค. IDArb์ IntrinsicAnything๋ณด๋ค ๋ ๋์ ๋ํ ์ผ๊ณผ ์ฌ์ค์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
read the caption
Figure 5: Qualitative comparison on real-world data. ย IDArb generalizes well to real data, with accurate, convincing decompositions and high-frequency details.
๐ผ (a) ์ฌ๋ฌ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ์ํ์ ๋ค์ค ๋ทฐ ์ผ๊ด์ฑ ์๊ฐ์ ๋น๊ต์ ๋๋ค. IDArb๋ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(IntrinsicAnything)๊ณผ ๋น๊ตํ์ฌ ๋ค์ค ๋ทฐ ์ผ๊ด์ฑ์ ๋ฌ์ฑํ๊ณ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํตํด ํ์ต๋ ์ฌ์ ์ ํตํด ์กฐ๋ช ํจ๊ณผ์์ ๋ด์ฌ์ ๊ตฌ์ฑ ์์๋ฅผ ๋ ์ ๋ถ๋ฆฌํฉ๋๋ค.
read the caption
(a)
๐ผ (b) ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(NVDiffRecMC)๊ณผ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(IntrinsicAnything)์ ๋จ์ ์ ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ ๋๋ค. NVDiffRecMC๋ ์กฐ๋ช ํจ๊ณผ๊ฐ ์ฌ์ง์ ์๋ชป ๋ฐ์๋์ด(์: ๊ธ์์ฑ ์ค๋ธ์ ํธ์ ์ด๋์ด ์์), IntrinsicAnything๋ ๋ฉํฐ ๋ทฐ ์ ๋ ฅ์ ๋ํด ์ผ๊ด์ฑ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค. ์ด์ ๋ฐํด IDArb๋ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ์์ผ๋ก ๋ฉํฐ ๋ทฐ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ์กฐ๋ช ํจ๊ณผ์ ์ฌ์ง์ ๋ ์ ๋ถ๋ฆฌํฉ๋๋ค.
read the caption
(b)
๐ผ ์ด ๊ทธ๋ฆผ์ ๊ต์ฐจ ๊ตฌ์ฑ ์์ ์ฃผ์ ๋ฐ ํ๋ จ ์ ๋ต์ ๋ํ ์ ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. (a)๋ ๊ต์ฐจ ๊ตฌ์ฑ ์์ ์ฃผ์๊ฐ ์์ ๋ ๊ธ์ ๋ฐ ๊ฑฐ์น ๊ธฐ์ ๊ฐ์ ๋ณธ์ง์ ์ธ ๊ตฌ์ฑ ์์์ ์์ธก์ด ์ ํ๋จ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์ด๋ฌํ ๊ตฌ์ฑ ์์ ๊ฐ์ ์ํธ ์์ฉ์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. (b)๋ ๋ค์ค ๋ทฐ ์ ๋ ฅ๊ณผ ๋จ์ผ ์ด๋ฏธ์ง ์ ๋ ฅ์ ๋ชจ๋ ์ฌ์ฉํ ํ๋ จ ์ ๋ต์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ค์ค ๋ทฐ ์ ๋ ฅ๋ง ์ฌ์ฉํ์ฌ ํ๋ จํ๋ฉด ๋จ์ผ ์ด๋ฏธ์ง ์ ๋ ฅ์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฐ๋ฉด, ์ ์๋ ํ๋ จ ์ ๋ต์ ๋ค์ํ ์ ๋ ฅ ์ ํ์ ๋ํ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๊ธฐ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ๋์ ๋ ธ์ด์ฆ ๋ ๋ฒจ๋ก ๋ ธ์ด์ฆ ์ค์ผ์ค๋ฌ๋ฅผ ์ด๋ํ๋ฉด ๊ธ์ ๋ฐ ๊ฑฐ์น ๊ธฐ ๊ตฌ์ฑ ์์์ ์์ธก์ด ํฅ์๋ฉ๋๋ค.
read the caption
Figure 6: Ablative studies on (a) cross-component attention and (b) training strategy.
๐ผ ์ด ๊ทธ๋ฆผ์ ๋ค์ํ ์์ ๋ทฐํฌ์ธํธ์ ์กฐ๋ช ์กฐ๊ฑด์์ IDArb ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ทฐํฌ์ธํธ ์(#V)์ ์กฐ๋ช ์กฐ๊ฑด ์(#L)๋ฅผ ๋ค์ํ๊ฒ ๋ณ๊ฒฝํ๋ฉฐ ์คํํ ๊ฒฐ๊ณผ, ๋ทฐํฌ์ธํธ์ ์กฐ๋ช ์กฐ๊ฑด์ ์๊ฐ ์ฆ๊ฐํ ์๋ก ์ ๋ฐ์ ์ธ ๋ถํด ์ฑ๋ฅ์ด ํฅ์๋จ์ ์ ์ ์์ต๋๋ค. ํนํ ๊ธ์์ฑ ๋ฐ ๊ฑฐ์น ๊ธฐ ์์ธก์ ๊ฒฝ์ฐ, ๋ค์ค ์กฐ๋ช ์บก์ฒ๊ฐ ์กฐ๋ช ํจ๊ณผ๋ก ์ธํ ๋ชจํธ์ฑ์ ํด๊ฒฐํ๋ ๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค. 8๊ฐ ์ด์์ ๋ทฐํฌ์ธํธ๋ฅผ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ ํฅ์์ด ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. x์ถ์ ๋ทฐํฌ์ธํธ ์๋ฅผ ๋ํ๋ด๊ณ , y์ถ์ ์๋ฒ ๋, ๋ ธ๋ฉ, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค ๊ฐ๊ฐ์ ์ฑ๋ฅ ์งํ ๊ฐ์ ๋ณํ๋ฅผ ๋ํ๋ ๋๋ค. ์์ ๋ณํ๋ฅผ ํตํด ๋ทฐํฌ์ธํธ ์์ ์กฐ๋ช ์กฐ๊ฑด ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค.
read the caption
Figure 7: Effects of number of viewpoints and lighting conditions. We find increasing the number of viewpoints and the lighting conditions generally improves decomposition performance.
๐ผ ์ด ๊ทธ๋ฆผ์ ์ค์ ํ๊ฒฝ์์ ์ดฌ์๋ ์ด๋ฏธ์ง(a)๋ฅผ ์ฌ์ฉํ์ฌ ์๋ก์ด ์กฐ๋ช ์กฐ๊ฑด์์์ ๋ฆฌ๋ผ์ดํ ๊ฒฐ๊ณผ(b)์ ์ฌ์ง ์์ฑ ๋ณ๊ฒฝ ๊ฒฐ๊ณผ(c)๋ฅผ ๋ณด์ฌ์ค๋๋ค. IDArb ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์๋ฒ ๋, ๋ ธ๋ง, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค ๋ฑ์ ๊ณ ์ ์์๋ฅผ ์ถ์ถํ์ฌ ์ฌ์ง ๋ฐ ์กฐ๋ช ํธ์ง๊ณผ ๊ฐ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์ ํ์ฉํ ์ ์์ต๋๋ค.
read the caption
Figure 8: Relighting and material editing results. From in-the-wild captures (a), our model allows for relighting under novel illumination (b) and material property modifications (c).
๐ผ ์ด ๊ทธ๋ฆผ์ ์ต์ ํ ๊ธฐ๋ฐ ์ญ๋ ๋๋ง ๊ธฐ๋ฒ์ธ NVDiffRecMC์ ์ ์๋ค์ด ์ ์ํ ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ์ฌ์ง ์ถ์ ๊ฒฐ๊ณผ๋ฅผ ํฅ์์ํจ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ ์๋ค์ ๋ฐฉ๋ฒ์ ๊ฐ ํ์ต ์ด๋ฏธ์ง๋ฅผ ํด๋นํ๋ ์ฌ์ง ์์๋ก ๋ถํดํ๊ณ , ์ด๋ฅผ pseudo-material label๋ก ์ฌ์ฉํฉ๋๋ค. ๋งค ๋ฐ๋ณต๋ง๋ค NVDiffRecMC์์ ์์ธกํ ์ฌ์ง ์์์ ์ ์๋ค์ ๋ฐฉ๋ฒ์ผ๋ก ์์ธกํ ๊ฐ ์ฌ์ด์ L2 ์ ๊ทํ ํญ์ ์ถ๊ฐํ์ฌ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ๋ณด์ฅํฉ๋๋ค. ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ์ ์๋ค์ ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ฉด NVDiffRecMC์์ ์ฌ๊ตฌ์ฑ๋ albedo์ ์์ ๋ณํ ๋ฌธ์ ๊ฐ ํฌ๊ฒ ์ํ๋์ด, ๋ ๋์ ํ์ง์ ๋ ๋๋ง ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
read the caption
Figure 9: Optimization-based inverse rendering results. Our method guides NVDiffecMC generate more plausible material results.
๐ผ ์ด ๊ทธ๋ฆผ์ OpenIllumination ๋ฐ NeRFactor ๋ฐ์ดํฐ์ ์์ 4๊ฐ์ OLAT(One-Light-At-a-Time) ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์์ธกํ ์ฌ์ง ์ธก๋ ์คํ ๋ ์ค ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. OLAT ์กฐ๊ฑด์์๋ ๊ฐ ์ด๋ฏธ์ง๊ฐ ์ฃผ๋ณ ์กฐ๊ด ์์ด ๋จ์ผ ์ ๊ด์์ผ๋ก ์กฐ๋ช ๋์ด ๊ทธ๋ฆผ์๊ฐ ์๊น๋๋ค. ๊ทธ๋ฆผ์๋ ์ ๋ ฅ OLAT ์ด๋ฏธ์ง, ์์ธก๋ ์๋ฒ ๋ ๋ฐ ๋ฒ์ ๋งต์ด ํ์๋์ด ์์ต๋๋ค. IDArb์ OLAT์ ๊ฐ์ ๊น๋ค๋ก์ด ์กฐ๊ฑด์์๋ ์ค์ ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ ๋ชจ๋์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
read the caption
Figure 10: Photometric stereo results using 4 OLAT images in OpenIllumination and NeRFactor.
๐ผ ์ด ๊ทธ๋ฆผ์ ์ค์ ๋ฐ์ดํฐ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฐ ํ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํด๋น ์ด๋ฏธ์ง์์ ์ถ์ถํ ์๋ฒ ๋, ๋ ธ๋ฉ, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค ๋งต์ ๋ํ๋ ๋๋ค. IDArb์ ๋ค์ํ ์ค์ ๋ฌผ์ฒด์ ๋ํด ์ฌ์ค์ ์ด๊ณ ์ธ๋ถ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ IDArb์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ๋ จ๋์์์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ์ด๋ฏธ์ง์ ์ ์ผ๋ฐํ๋จ์ ๋ณด์ฌ์ค๋๋ค.
read the caption
Figure 11: More results on real-world data.
๐ผ ์ด ๊ทธ๋ฆผ์ ์ค์ ๋ฐ์ดํฐ์ ๋ํ ์ถ๊ฐ ๊ฒฐ๊ณผ์ ์ฌ๊ตฌ์ฑ ๋ฐ ์ฌ์กฐ๋ช ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์์ธก๋ albedo, normal, metallic, roughness๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๋๋ง๋ ์ด๋ฏธ์ง(Recon)์ ๋ค์ํ ์กฐ๋ช ์กฐ๊ฑด์์ ์ฌ์กฐ๋ช ๋ ์ด๋ฏธ์ง(Relit 1, 2, 3)๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค. ์คํ ๋ฐ์ด, ์๋์ฐจ, ํธ๋ผํซ, ๋นต๊ณผ ์ผ ๋ฑ ๋ค์ํ ์ข ๋ฅ์ ๋ฌผ์ฒด์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ์ฌ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
read the caption
Figure 12: More results on real-world data. We also provide the reconstructed and relighting images.
๐ผ ์ด ๊ทธ๋ฆผ์ ์ฌ๋ฌ ์์ ์์ ์ดฌ์๋ ๋ฐ์ดํฐ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฐ ํ์ ์๋ก ๋ค๋ฅธ ๋ค์ค ์์ ๋ฐ์ดํฐ์ ์ ๋ํ๋ด๋ฉฐ, ์ ๋ ฅ ์ด๋ฏธ์ง์ ํจ๊ป ์์ธก๋ ์๋ฒ ๋, ๋ ธ๋ฉ, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค ๋งต์ด ํ์๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ ํ์ ๋๋ผ ์ธํธ, ๋ ๋ฒ์งธ ํ์ ๋ค์ํ ์์์ด ๋ด๊ธด ์ ์, ์ธ ๋ฒ์งธ ํ์ ์๋์์น์ ํซ๋๊ทธ๊ฐ ๋ด๊ธด ์ ์์ ๋๋ค. ์ด ๊ทธ๋ฆผ์ ํตํด IDArb ๋ชจ๋ธ์ด ๋ค์ํ ๋ค์ค ์์ ๋ฐ์ดํฐ์์ ์ผ๊ด์ฑ ์๋ ๋ณธ์ง์ ์์๋ฅผ ์ถ์ถํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
read the caption
Figure 13: More results on multi-view data.
๐ผ NeRD ๋ฐ์ดํฐ์ (Boss ์ธ, 2021a)์ ๊ฐ ์ฅ๋ฉด์ ๋ํด 4๊ฐ์ ๋ทฐ๋ฅผ ์ ๋ ฅํ์ฌ ๊ทน๋จ์ ์ธ ์กฐ๋ช ๋ณํ๊ฐ ์๋ ๋ค์ค ๋ทฐ ์ด๋ฏธ์ง์์ ๋ณธ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ๊ฐ ๋ทฐ๋ ์๋ก ๋ค๋ฅธ ์กฐ๋ช ์กฐ๊ฑด์์ ๋ ๋๋ง๋ฉ๋๋ค. ์ ๋ ฅ ์ด๋ฏธ์ง, ์๋ฒ ๋, ๋ ธ๋ฉ, ๋ฉํ๋ฆญ, ๋ฌํ๋์ค๋ฅผ ์์ธกํ ๊ฒฐ๊ณผ๊ฐ ํ์๋ฉ๋๋ค.
read the caption
Figure 14: Multiview images with extreme lighting variation. For each scene in NeRD datasetย (Boss etย al., 2021a), we input 4 views.
๐ผ ์ด ๊ทธ๋ฆผ์ IDArb ๋ชจ๋ธ์ ์คํจ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฒซ ๋ฒ์งธ ํ์ ์ผ์ธ ์ฅ๋ฉด์ผ๋ก, ๋ชจ๋ธ์ด ๊ฐ์ฒด ์ค์ฌ ๋ฐ์ดํฐ์ ๋ํด ์ฃผ๋ก ํ๋ จ๋์๊ธฐ ๋๋ฌธ์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ๋ ๋ฒ์งธ ํ์ ํ ์คํธ๊ฐ ์๋ ์ด๋ฏธ์ง๋ก, ๋ชจ๋ธ์ด ์ฌ๋ฐ๋ฅธ ํ ์คํธ ๊ตฌ์กฐ๋ฅผ ๋ณต๊ตฌํ์ง ๋ชปํฉ๋๋ค. ์ธ ๋ฒ์งธ ํ์ ์ ํ๊ธฐ ์ด๋ฏธ์ง๋ก, ๋ชจ๋ธ์ด ๋ฏธ๋ฌํ ์ฌ์ง ๋ํ ์ผ์ ๋ณด์กดํ์ง ๋ชปํ๊ณ ์ง๋์น๊ฒ ๋จ์ํ๋ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ํฉ์ฑ ํ๋ จ ๋ฐ์ดํฐ๊ฐ ์ข ์ข ๋ ๋จ์ํ ์ฌ์ง ๋ณํ์ ํฌํจํ๊ณ ์์ด ๋ชจ๋ธ์ด ์ธ๋ฐํ ์ฌ์ง ์์ฑ์ ๊ณผ๋ํ๊ฒ ๋จ์ํํ๊ฒ ๋ง๋๋ ๊ฒ์์ ๋น๋กฏ๋ฉ๋๋ค.
read the caption
Figure 15: Failure cases.
๐ผ Mip-NeRF 360 ๋ฐ์ดํฐ์ ์ ์ผ์ธ ์ฅ๋ฉด์ ๋ํ IDArb์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฐ ์ฅ๋ฉด์ ๋ํด 4๊ฐ์ ๋ทฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ต๋๋ค. ๊ทธ๋ฆผ์๋ ์ ๋ ฅ ์ด๋ฏธ์ง, ์์ธก๋ ์๋ฒ ๋, ๋ฒ์ , ๋ฉํ๋ฆญ, ๋ฌํ๋์ค ๋งต์ด ํฌํจ๋์ด ์์ต๋๋ค. IDArb์ ๋ค์ํ ์ผ์ธ ์ฅ๋ฉด์์ ์ผ๊ด๋๊ณ ์ ํํ ๋ด์ฌ์ ์ด๋ฏธ์ง ๋ถํด๋ฅผ ์ํํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
read the caption
Figure 16: Results on Mip-NeRF 360ย (Barron etย al., 2022) (Part 1, outdoor). We input 4 views for each scene.
More on tables
# OLAT Images | 2 | 2 | 4 | 4 | 8 | 8 |
---|---|---|---|---|---|---|
Methods | Albedo\uparrow | Normal\uparrow | Albedo\uparrow | Normal\uparrow | Albedo\uparrow | Normal\uparrow |
IID | 22.23 | - | 22.40 | - | 22.86 | - |
RGB <->X | 21.29 | 0.71 | 22.08 | 0.77 | 23.29 | 0.81 |
SDM-UniPS | 22.95 | 0.74 | 23.20 | 0.76 | 23.37 | 0.81 |
Ours | 23.50 | 0.83 | 23.64 | 0.84 | 25.15 | 0.85 |
๐ผ NeRFactor ๋ฐ์ดํฐ์ ์์ Photometric Stereo์ ๋ํ ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ์ ๋๋ค. 2, 4, 8๊ฐ์ OLAT(One-Light-At-a-Time) ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ์ผ๋ฉฐ, ์ ์๋ ๋ฐฉ๋ฒ(Ours)์ด ๋น๊ต๋ ๋ชจ๋ ๋ฐฉ๋ฒ ์ค์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. OLAT์ ๊ฐ ์ด๋ฏธ์ง๊ฐ ์ฃผ๋ณ๊ด ์์ด ๋จ์ผ ์ ๊ด์์ผ๋ก๋ง ๋น์ถฐ์ง๋ ๊น๋ค๋ก์ด ์กฐ๊ฑด์ผ๋ก, ๊ทธ๋ฆผ์๋ ๊ฐํ๊ฒ ๋๋ฆฌ์์ง๋๋ค. ์ด๋ฌํ ์กฐ๊ฑด์์๋ ๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ albedo ๋ฐ normal ์์ธก ์ ํ๋๊ฐ ๊ฐ์ฅ ๋์์ต๋๋ค.
read the caption
Table 2: Quantitative results for photometric stereo on NeRFactor. We evaluate performance using 2, 4, and 8 OLAT images, and achieve the best performance among all compared methods.
Nerfactor | Synthetic4Relight | |||||||
---|---|---|---|---|---|---|---|---|
Albedo (raw) | Albedo (scaled) | Relighting | Albedo (raw) | Albedo (scaled) | Relighting | Roughness | ||
NVDiffRecMC | 17.89 | 25.88 | 22.65 | 17.03 | 29.64 | 24.05 | 0.046 | |
NVDiffRecMC w/ Ours | 20.90 | 26.61 | 27.20 | 26.42 | 30.73 | 31.01 | 0.014 |
๐ผ IDArb๋ฅผ pseudo label๋ก ์ฌ์ฉํ์ฌ ์ต์ ํ ๊ธฐ๋ฐ ์ญ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ NeRFactor ๋ฐ Synthetic4Relight ๋ฐ์ดํฐ์ ์ ๋ํด ๋ํ๋ธ ํ์ ๋๋ค. albedo, relighting, roughness์ ๋ํ ์ ๋์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ IDArb๋ฅผ ์ฌ์ฉํ์ง ์์ ๊ฒฝ์ฐ์ ๋น๊ตํ์ฌ ์ ์ํฉ๋๋ค.
read the caption
Table 3: Ablation onย IDArb pseudo labels for optimization-based inverse rendering on NeRFactor and Synthetic4Relight datasets.
# L | # V | 1 | 2 | 4 | 8 | 12 |
---|---|---|---|---|---|---|
1 | 29.16 | 28.72 | 30.12 | 30.49 | 30.77 | |
2 | 29.96 | 30.26 | 30.96 | 31.13 | 31.26 | |
3 | 30.25 | 30.73 | 31.16 | 31.33 | 31.40 |
๐ผ ์ด ํ๋ ๋ค์ํ ์์ ๋ทฐํฌ์ธํธ(# V) ๋ฐ ์กฐ๋ช ์กฐ๊ฑด(# L)์ ๋ฐ๋ฅธ ์๋ฒ ๋ ์ฑ๋ฅ(PSNR, โโ๋ ๊ฐ์ด ํด์๋ก ์ข์)์ ๋ณด์ฌ์ค๋๋ค. ๋ทฐํฌ์ธํธ ์์ ์กฐ๋ช ์กฐ๊ฑด ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์๋ฒ ๋ ์ถ์ ์ฑ๋ฅ์ด ํฅ์๋จ์ ์ ์ ์์ต๋๋ค.
read the caption
Table 4: Albedo Performance โโ\uparrowโ across different numbers of viewpoints (# V) and lightings (# L).
# L | # V | 1 | 2 | 4 | 8 | 12 |
---|---|---|---|---|---|---|
1 | 0.909 | 0.910 | 0.925 | 0.930 | 0.932 | |
2 | 0.922 | 0.927 | 0.930 | 0.933 | 0.934 | |
3 | 0.926 | 0.931 | 0.931 | 0.934 | 0.935 |
๐ผ ๋ค์ํ ์์ ๋ทฐํฌ์ธํธ(# V)์ ์กฐ๋ช ์กฐ๊ฑด(# L)์ ๋ฐ๋ฅธ ๋ฒ์ ์์ธก ์ฑ๋ฅ(Cosine Similarity)์ ๋ณด์ฌ์ฃผ๋ ํ์ ๋๋ค. ๋ทฐํฌ์ธํธ์ ์กฐ๋ช ์กฐ๊ฑด ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ฒ์ ์์ธก ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
read the caption
Table 5: Normal Performance โโ\uparrowโ across different numbers of viewpoints (# V) and lightings (# L).
# L | # V | 1 | 2 | 4 | 8 | 12 |
---|---|---|---|---|---|---|
1 | 0.105 | 0.116 | 0.068 | 0.059 | 0.050 | |
2 | 0.061 | 0.068 | 0.047 | 0.044 | 0.042 | |
3 | 0.061 | 0.056 | 0.048 | 0.045 | 0.040 |
๐ผ ์ด ํ๋ ๋ค์ํ ์์ ๋ทฐํฌ์ธํธ(# V)์ ์กฐ๋ช ์กฐ๊ฑด(# L)์ ๋ํ ๊ธ์์ฑ ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ๋ทฐํฌ์ธํธ ์์ ์กฐ๋ช ์กฐ๊ฑด์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ธ์์ฑ ์ถ์ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค. ์ซ์๊ฐ ๋ฎ์์๋ก ์ฑ๋ฅ์ด ๋ ์ข๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
read the caption
Table 6: Metallic Performance โโ\downarrowโ across different numbers of viewpoints (# V) and lightings (# L).
# L | # V | 1 | 2 | 4 | 8 | 12 |
---|---|---|---|---|---|---|
1 | 0.049 | 0.050 | 0.024 | 0.019 | 0.021 | |
2 | 0.043 | 0.026 | 0.019 | 0.016 | 0.015 | |
3 | 0.031 | 0.022 | 0.016 | 0.014 | 0.013 |
๐ผ ์ด ํ๋ ๋ค์ํ ์์ ๋ทฐํฌ์ธํธ(# V)์ ์กฐ๋ช ์กฐ๊ฑด(# L)์ ๋ฐ๋ฅธ ๊ฑฐ์น ๊ธฐ ์ฑ๋ฅ์ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ๋ทฐํฌ์ธํธ ์์ ์กฐ๋ช ์กฐ๊ฑด์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฑฐ์น ๊ธฐ ์์ธก ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
read the caption
Table 7: Roughness Performance โโ\downarrowโ across different numbers of viewpoints (# V) and lightings (# L).
SSIMโ | PSNRโ | LPIPSโ | |
---|---|---|---|
Ours | 0.876 | 27.98 | 0.117 |
IntrinsicAnything | 0.896 | 25.66 | 0.150 |
๐ผ MIT-Intrinsic ๋ฐ์ดํฐ์ ์์ albedo ์์ธก ์ ํ๋๋ฅผ IntrinsicAnything์ ๋น๊ตํ ํ์ ๋๋ค. SSIM, PSNR, LPIPS ์ฒ๋๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฐํ์ต๋๋ค.
read the caption
Table 8: Quantitative comparisons on MIT-Intrinsic.
Normal Cosine Distanceโ | Albedo SSIMโ | Albedo PSNRโ | Albedo LPIPSโ | Re-rendering PSNR-Hโ | Re-rendering PSNR-Lโ | Re-rendering SSIMโ | Re-rendering LPIPSโ | |
---|---|---|---|---|---|---|---|---|
Ours(single) | 0.041 | 0.978 | 41.30 | 0.039 | 24.11 | 31.28 | 0.969 | 0.024 |
Ours(multi) | 0.029 | 0.978 | 41.46 | 0.038 | 24.36 | 31.43 | 0.970 | 0.024 |
StableNormal | 0.038 | |||||||
IntrinsicNeRF | 0.981 | 39.31 | 0.048 |
๐ผ Stanford-ORB ๋ฐ์ดํฐ์ ์์์ ์ ๋์ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ์ ๋๋ค. ๋จ์ผ ์ด๋ฏธ์ง ์ ๋ ฅ๊ณผ ๋ค์ค ์ด๋ฏธ์ง ์ ๋ ฅ์ ๋ํ ์ ํฌ ๋ชจ๋ธ(Ours)์ ์ฑ๋ฅ์ StableNormal ๋ฐ IntrinsicNeRF์ ๋น๊ตํฉ๋๋ค. ๋ ธ๋ฉ ์ถ์ , ์๋ฒ ๋ ์ถ์ , ๊ทธ๋ฆฌ๊ณ ๋ฆฌ๋ ๋๋ง ๊ฒฐ๊ณผ์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํฌํจํ๋ฉฐ, ๊ฐ ๋ฉํธ๋ฆญ์ ๋ํ ์ต๊ณ ์ฑ๋ฅ์ ๋ณผ๋์ฒด๋ก ํ์๋ฉ๋๋ค.
read the caption
Table 9: Quantitative comparisons on Stanford-ORB.