가끔 정리해서 올리는 Paper
Snorkel: Rapid Training Data Creation with Weak Supervision(Stanford DAWN, AAAI 2019)
후로링
2020. 5. 28. 11:17
최근 semi-supervised learning에서 data augmentation을 사용한 contrastive learning방법이 대세이기는 하지만, 실제 필드에서 새로 얻어지는 데이터에 대해 학습을 수행하고 싶을 때 가장 걸림돌이 되는 부분은 새로 얻은 데이터에 대한 labeling입니다.
이 논문에서는 서로 연관성이 있는 labeling model여러개를 조합하여 신뢰성이 높은 weak label을 생성하는 방법에 대해 설명하고 있습니다.
사람은 어떤 물체를 판단할때 하나의 knowledge만 가지고 판단하지 않습니다. 물론 눈에 보이는것이 가장 크기는 하지만 여러가지 정보를 조합해 사과를 사과다, 강아지를 강아지다 라고 판단합니다. 현재의 image classification이나 object detection도 이와 같이 다양한 정보를 조합해서 사용할 수 있다면 신뢰성이 높은 label을 생성할 수 있을 것입니다. 이 논문에서는 주로 text데이터를 이용한 실험을 진행했지만 pixel기반으로 판단할수있는 다양한 근거(조도, 물체가 놓인 곳, 상대적인 크기 등등)를 shape를 판단하는 네트워크와 결합한다면 더 좋은 결과를 낼 수 있을 것 같습니다.