该研究认为图像 x_s 可以最好地描绘出文本描述 y,因为它可以以最小的信息损失将内容传递给接收者。此外,该研究将与文本 y 相对应的图像视为 y 的参考表示(reference presentation),并将最佳图像量化为它与参考图像的接近程度。实验结果图 3 中的左侧图表显示了两个数据集上图像重建质量和描述文本质量之间的相关性。对于每个给定图像,重建图像质量(在 x 轴中显示)越好,文本描述质量(在 y 轴中显示的)也越好。图 3 的右侧图表揭示了恢复的文本质量和生成的图像质量之间的关系:对于每个给定的文本,重建的文本描述(显示在 x 轴上)越好,图像质量(显示在 y 轴上)就越好。图 4(a)和(b)显示了图像重建质量和基于源图像的平均文本质量之间的关系。图 4(c)和(d)显示了文本距离(text distance)与重建图像质量之间的相关性。表 1 显示出该研究的采样方法在每个度量标准下都优于核采样,模型的相对增益可以高达 7.7%。图 5 显示了两个重建任务的定性示例。