近日,来自清华大学的一个研究团队发布了一项名为CRM(Convolutional Reconstruction Model)的新技术,用户只需上传一张目标物体的照片,算法就能自动理解其三维结构,生成逼真的3D模型。
CRM采用了一种独特的两阶段建模方法:第一阶段利用生成对抗网络(GAN)从输入图像生成多个视角的图像,并预测它们之间的对应关系;第二阶段使用一个类似U-Net的卷积网络,将不同视角的特征融合为一个完整的3D表示。通过巧妙的网络设计和海量数据训练,CRM在合成图像的真实感和3D重建的准确性上都达到了比较高的水平。
CRM能够生成六个正射视图,这为3D模型提供了一个全方位的视角。这些视图是由CRM的核心组成部分——U-Net卷积神经网络处理产生的。U-Net在图像分割领域有着卓越性能,现在被应用于生成清晰的三平面表示,这对于精确重建3D模型至关重要。
研究团队已经在GitHub上开源了CRM模型的代码和训练数据,并通过Hugging Face平台提供了一个简单易用的在线演示。访问 https://huggingface.co/spaces/Zhengyi/CRM即可使用
上传图像:选择一张清晰的2D图像用于转换,并上传到CRM平台。
调整设置:根据需要修改种子值、指导尺度和采样步骤等参数。
生成模型:点击“生成3D形状”按钮,CRM将处理图像并创建3D模型。
预览和导出:观察生成的3D模型,并在满意后导出OBJ文件以在其他软件中使用。
当然,CRM目前还不能完美处理所有场景,特别是对复杂背景、精细纹理和不常见形状的重建还有待加强。整体来看效果稍逊于TripoSR。刚兴趣的快去试试吧!