본문 바로가기

네이버 부스트캠프 AI Tech

끄적끄적 궁금증

self-attention은 order-invariant하다.

왜 그럴까?

일단 생각해보자.

Q, K, V weight를 학습 시켰다.

단어를 one-hot vector나 아무튼 다른 representation으로 표현한다.

그렇다면 Q, K, V는 문장의 순서가 아닌, 단어에 따라서 값들이 나오게 되고,

결국 문장 구조와 관계없이 동일한 단어가 사용된다면 동일한 값이 나오게 되는 것일까?

----------------------------

 

RuntimeError: "topk_cpu" not implemented for 'Half'

--> torch를 gpu에 올려놓은 상태인데, 

similarity.softmax(dim=-1).cpu().flatten()

와 같이 cpu에 올려둔 결과를 torch.topk(Tensor, K) 인 top-K 값을 찾는 함수를 실행하려니 에러났다.

아마 torch가 gpu에 올라가 있으니 문제가 났다고 생각. cpu()를 제거하니 잘 되었다

'네이버 부스트캠프 AI Tech' 카테고리의 다른 글

CNN Visualization, grad_CAM 관련 끄적끄적  (0) 2023.12.10
12.08 주간 회고록  (2) 2023.12.08
cGAN  (2) 2023.12.07
12.01 주간 회고록  (0) 2023.12.01
11.24 주간 회고록  (1) 2023.11.24