끄적끄적 궁금증

self-attention은 order-invariant하다.

왜 그럴까?

일단 생각해보자.

Q, K, V weight를 학습 시켰다.

단어를 one-hot vector나 아무튼 다른 representation으로 표현한다.

그렇다면 Q, K, V는 문장의 순서가 아닌, 단어에 따라서 값들이 나오게 되고,

결국 문장 구조와 관계없이 동일한 단어가 사용된다면 동일한 값이 나오게 되는 것일까?

----------------------------

RuntimeError: "topk_cpu" not implemented for 'Half'

--> torch를 gpu에 올려놓은 상태인데,

similarity.softmax(dim=-1).cpu().flatten()

와 같이 cpu에 올려둔 결과를 torch.topk(Tensor, K) 인 top-K 값을 찾는 함수를 실행하려니 에러났다.

아마 torch가 gpu에 올라가 있으니 문제가 났다고 생각. cpu()를 제거하니 잘 되었다

CNN Visualization, grad_CAM 관련 끄적끄적 (0)	2023.12.10
12.08 주간 회고록 (2)	2023.12.08
cGAN (2)	2023.12.07
12.01 주간 회고록 (0)	2023.12.01
11.24 주간 회고록 (1)	2023.11.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

끄적끄적 코딩하는 블로그