그 뒤의 엔진은 정말 작동하나요?

당연한 질문입니다 — 대부분의 "얼굴 평가기"는 어떤 근거도 보여주지 않습니다. 그래서 여기, 숨김없이 공개합니다. 이미 많은 사람들이 평가한 수천 장의 실제 얼굴을 가져와 저희 분석을 구동하는 모델을 돌린 뒤, 그것이 사람들의 의견과 얼마나 자주 일치하는지 확인했습니다. 인종 전반에 걸쳐 공정한지도 점검했습니다. (당신의 보고서는 서술적입니다 — 이 점수가 아니라 당신의 비율을 보여줍니다.)

엔진은 얼마나 정확한가요? (수치)

저희 분석 뒤의 모델은 대규모 공개 연구 벤치마크(대규모 평가단이 매긴 5,500장의 얼굴)에서 학습했습니다. 아래는 학습 중 한 번도 본 적 없는 보류된 얼굴에서의 정확도입니다. "일치율"은 한 쌍의 얼굴 순위를 사람들과 같게 매긴 빈도이며, ρ는 순위 상관(50% / 0.0 = 우연 수준)입니다. 당신의 보고서는 서술적이며 이 점수를 보여주지 않습니다.

여성얼굴 수일치율ρ

전체 여성2,75088%0.92

아시아계2,00087%0.92

백인75087%0.91

남성얼굴 수일치율ρ

전체 남성2,75087%0.90

아시아계2,00087%0.91

백인75084%0.87

인종 전반에 공정한가요? (다른 데이터베이스의 얼굴로 테스트)

가장 까다로운 테스트: 모델이 한 번도 학습하지 않은 완전히 별개의 세트인 별개의 독립 얼굴 데이터베이스에서 여섯 개 인종 그룹에 걸쳐 돌려보고, 각 그룹 내부에서 그 데이터베이스의 평가자와 얼마나 자주 일치하는지 측정했습니다.

그룹(미공개 데이터)여성남성

아시아계66%77%

백인75%70%

흑인78%64%

라틴계65%69%

인도계67%62%

혼혈70%67%

솔직한 유의사항: 이 미공개 데이터베이스에서는 정확도가 동일 도메인보다 낮으며(카메라, 평가자 풀, 취향이 다름), 비아시아 그룹은 표본이 작아(n ~25–100) 그 수치는 더 noisy합니다. 모델은 그룹 간에 약간의 수준 오프셋도 가집니다. 우리는 그 데이터베이스를 공정성 점검에만 사용하며 점수 설정에는 쓰지 않습니다 — 그 사진들은 의도적으로 중립적이고 상단에서 범위가 제한되어 있습니다. 이는 안내일 뿐, 객관적 평결이 아닙니다.

궁금하다면 — 어떻게 측정했는지

저희 분석 뒤의 모델은 성별 내 점수를 산출하며, 여기서는 오직 사람의 평가에 대조해 검증하는 데에만 사용합니다. 당신의 보고서는 이 점수를 보여주지 않습니다 — 고전 비율을 별도로 측정해 설명 가능한 세부 항목으로 서술합니다. 정확도는 모델이 학습 중 한 번도 본 적 없는 얼굴에서 측정하며, 공정성은 인종 그룹 전반에 균형 잡힌 별도의 독립 세트에서 점검합니다. 여기서는 기반 데이터셋이나 원본 얼굴을 공개하지 않습니다. 이것은 엔진을 측정하는 것이지, 누군가의 외모에 대한 평결이 아닙니다.