self-attention은 order-invariant하다.
왜 그럴까?
일단 생각해보자.
Q, K, V weight를 학습 시켰다.
단어를 one-hot vector나 아무튼 다른 representation으로 표현한다.
그렇다면 Q, K, V는 문장의 순서가 아닌, 단어에 따라서 값들이 나오게 되고,
결국 문장 구조와 관계없이 동일한 단어가 사용된다면 동일한 값이 나오게 되는 것일까?
----------------------------
RuntimeError: "topk_cpu" not implemented for 'Half'
--> torch를 gpu에 올려놓은 상태인데,
similarity.softmax(dim=-1).cpu().flatten()
와 같이 cpu에 올려둔 결과를 torch.topk(Tensor, K) 인 top-K 값을 찾는 함수를 실행하려니 에러났다.
아마 torch가 gpu에 올라가 있으니 문제가 났다고 생각. cpu()를 제거하니 잘 되었다
'네이버 부스트캠프 AI Tech' 카테고리의 다른 글
CNN Visualization, grad_CAM 관련 끄적끄적 (0) | 2023.12.10 |
---|---|
12.08 주간 회고록 (2) | 2023.12.08 |
cGAN (2) | 2023.12.07 |
12.01 주간 회고록 (0) | 2023.12.01 |
11.24 주간 회고록 (1) | 2023.11.24 |