반응형 gelu2 [ML][용어] GELU 함수 GELU는 입력을 양수일 확률만큼 부드럽게 통과시키는 활성화 함수로, 매끄러운 비선형성과 죽은 뉴런 완화라는 장점이 있지만 ReLU보다 계산이 복잡한 단점이 있습니다. 1. GELU 함수의 정의 GELU(Gaussian Error Linear Unit) 함수는 입력값 x를 확률적으로 통과시키는 활성화 함수입니다.ReLU는 0보다 작으면 아예 끊어버리지만, GELU는 작은 음수도 조금은 통과시켜서 부드러운 출력 곡선을 만듭니다. 수학적으로 정의하면 다음과 같습니다.더보기 Φ(x)는 표준정규분포의 누적분포함수(CDF) 입니다.즉, 평균 0·분산 1인 정규분포에서 임의로 뽑은 값이 x 이하일 확률입니다.따라서 x Φ(x)는 입력 x를 확률 Φ(x) 만큼 통과시킨 값으로 볼 수 있습니다. 여기서, Φ(x)는 .. 2025. 10. 10. [ML][용어] GELU 함수 GELU(Gaussian Error Linear Unit)함수는 입력 값을 정규 분포의 확률로 변환하여 활성화하는 방식입니다. 입력이 클수록 더 많이, 작을수록 덜 활성화되며, 이를 통해 부드럽고 확률적인 활성화가 이루어집니다. 최신 신경망 모델에서 자주 사용되며, 학습의 안정성과 성능 향상에 기여합니다.GELU (Gaussian Error Linear Unit) 함수는 신경망에서 활성화 함수로 사용되는 함수 중 하나입니다.ReLU (Rectified Linear Unit)와 유사하게 비선형성을 제공하지만, 보다 매끄럽고 자연스러운 방식으로 동작합니다. 특히, Transformer와 같은 최신 신경망 구조에서 ReLU 대신 종종 사용되며, BERT 모델에서도 활성화 함수로 사용됩니다.1. GELU 함수의.. 2024. 10. 7. 이전 1 다음 반응형