전체 글
-
Learning Transferable Visual Models From Natural Language Supervision (CLIP 심플 요약)카테고리 없음 2022. 7. 23. 14:49
Contrastive pre-training의 서막을 알린 CLIP에 대해서 알아보자. 사실 내용은 상당히 심플하다. 인터넷에서 각종 사진과 거기에 대한 cpationing들을 데이터셋으로 모았다. image and text pairs 총 400 million pairs 4억개의 데이터셋을 확보했고 2개의 embedding을 dot product를 통해 pretrain 시켰다. vision의 경우 여러가지 모델을 시도하였고 vision transformer가 가장 결과가 좋아 이미지와 텍스트 모두 각각의 트랜스포머를 트레이닝 시켰다. 예를들어 트레이닝을 mini-batch형태로 10개씩 시킨다고 해보자, 왼편에는 10개의 사진이, 오른편에는 10개의 해당 텍스트들이 있다. 이를 각각의 트랜스포머에 넣는다..
-
Reward is enough 논문 리뷰카테고리 없음 2022. 7. 20. 15:48
딥마인드의 David Silver가 1저자로 또한 Richard Sutton이 참여한 논문이다. 논문에서 수학식을 찾을 수 없는 점이 재미있다. 그들이 주장하는 Reward-is-enough hypothesis이 무엇인지를 알아보자 딥마인드하면 사실 RL을 빼놓을 수 없다. 알파고부터 (허나 사실, 근래 딥마인드의 히트작들인 알파폴드는 transformer 기반이며 근래 장안을 떠들석하게 만들었던 gato 또한 multimodal transformer이다. GPT처럼 sequential하게 action return state들을 토큰화한뒤 여러개의 이전행동과 리워드 상태 토큰들을 차례차례 트랜스포머에 input으로 넣은뒤 action을 예측하게 만든것이며 그당시 offline RL sota볻 좋은 결과를..