背后的引擎真的有效吗?

这是个合理的问题——大多数"颜值评分器"从不出示任何证据。所以这里是我们的,毫无保留。我们选取了数千张真实人脸,这些人脸已由大量人群评过分,然后运行支撑我们分析的模型,检验它与人们意见的吻合频率。我们还检验了它在不同族裔间是否公平。(你自己的报告是描述性的——它呈现你的比例,而非这个分数。)

引擎有多准?(数据)

我们分析背后的模型在 一个大型公开研究基准(由大型评审团评过分的 5,500 张人脸)上训练。下面是它在训练时从未见过的留出人脸上的准确度。"一致率"指它对一对人脸排序与人们相同的频率;ρ 是秩相关(50% / 0.0 = 随机水平)。你自己的报告是描述性的,并不显示这个分数。

女性人脸数一致率ρ
全部女性2,75088%0.92
亚裔2,00087%0.92
白人75087%0.91
男性人脸数一致率ρ
全部男性2,75087%0.90
亚裔2,00087%0.91
白人75084%0.87

它在不同族裔间公平吗?(在另一个数据库的人脸上测试)

最严苛的测试:我们在 一个独立的第三方人脸数据库 上运行它——这是一个模型从未训练过的完全独立数据集,涵盖六个族裔群体——并测量它在每个群体内部与该数据库评分者一致的频率。

群体(未见过的数据)女性男性
亚裔66%77%
白人75%70%
黑人78%64%
拉丁裔65%69%
印度裔67%62%
混血70%67%

诚实的说明:在这个未见过的数据库上,准确度低于同域水平(相机、评分人群和品味各不相同),而且非亚裔群体样本较小(n ~25–100),因此那些数字噪声更大。模型在各群体间也带有小幅水平偏移。我们仅用该数据库来检验公平性,而非用来设定分数——它的照片刻意中性,且在高端有取值范围限制。这是一份指南,而非客观定论。

想深入了解——这是如何测量的

我们分析背后的模型会产生一个性别内分数,我们在此仅用它来对照人类评分进行验证。你自己的报告并不显示这个分数——它单独测量并描述古典比例,作为可解释的明细。准确度是在模型训练时从未见过的人脸上测量的,而公平性则在一个独立、均衡覆盖各族裔群体的数据集上检验。我们不在此公布底层数据集或原始人脸。这衡量的是引擎,而不是对任何人外貌的评判。