studies

studies

6.2.1 Simpe Monte Carlo Estimator / 몬테카를로 시뮬레이션.

임의의 함수 g(x)에 대해서 [0,1]구간의 적분한 값을 theta로 하여 추정하는 문제를 생각해보자. 여기서 X는 U(0,1)에서 추출된 샘플이다. theta가 g(x)의 평균이라 할때, 대수의 법칙에 의해서 theta를 으로 추정할 수 있게된다. monte carlo method는 과정을 이용한다. 이 친구를 계산해보자. 접근법이 두가지가 있지만 난 첫번째가 아닌 두번째 접근법을 사용하겠다. 왜냐하면 교수님께서 두 번째 접근법이 더 확장성이 좋다고 하셨음. X~ U(a,b)라고 하고, 우리는 위의 식을 아래와 같이 변환할 수 있다. (b-a)/(b-a) = 1 이므로. 근데 1/b-a 은 균일분포의 pdf이고 같은 구간에서 적분한 값은 1이 된다. 때문에 (b-a)Ex~U(0,1)[g(x)]라는 결..

studies

3.6.1 Spectral decomposition method(특이값 분해) for generating Nd(mu,Sigma) samples

특이값 분해에 대해서는 선형대수를 공부할 때 공부했던 개념이지만, 정규분포 샘플링 과정에서 Z에 대한 선형변환 시에 나타나는 ZQ+b에서 Q값을 찾기 위해 우리가 원하는 분산 값인 sigma를 factoring하는 과정을 이해하기 위해 다시 한번 개념과 함께 분해 후에 Q가 어떻게 유도되는지 확인해보자. 우선. 이 사실에 대해서는 인지하고 있다 가정을 하겠다.! 하지만 우리가 찾고 있던 Q는 이 놈이다. 여기서 Idea는 처음에 특이값 분해한 값을 제곱근하는 방법이다. 이 방법을 사용할 수 있는 이유는 Singular values matrix(가운데 있는놈)이 diagonal하고 Left,Right Singular vector가 Sigma의 Singular value에 해당하는 sigma의 eigen ..

studies

3.6 Generate random vector from Multivariate Normal Distribution / 다변량 정규분포에서 샘플링

우선. vector X = (x1,x2,...,xd)를 d차원의 MVN(Multivariate normal dist)에서 추출해보자. 그럼 X~ Nd(mean, var)임을 알 수 있다. 여기서 matrix 연산을 위해서 mu = (mu1, mu2, ..., mud)^T var = cov matrix (dxd)로 표현할 수 있다. 그럼 이제 우리가 원하는 평균 mu와 분산 sigma를 갖는 정규분포의 샘플을 만드는 과정에 대해서 공부해보자. 1. iid 조건을 갖는 vector Z를 생성한다. 즉 Z = (Z1, Z2, ..., Zd) 이고 iid standard normal variates이다. 서로 독립이고 같은 분포에서 나왔다는 말이다. 그다음 2. vector Z를 linear transform(..

studies

3.2 The Inverse Transform Method.

1. Continuous case Continuous case에서 역변환 방법에 대해서 공부해보자. 이번에 공부할 부분은 inverse transform method(역변환 방법)를 사용하여 으로부터 random sample을 simulate하는 것이다. 과정을 먼저 읊자면, 1. pdf의 cdf를 구한다. 2. cdf를 inverse transform(역변환)한다. 3. [0,1] ~ U의 샘플을 역변환함수에 인수로 넣는다. 4. 반환된 값이 pdf에 나온 값이 맞는지 확인한다. pmf를 적분하여 cdf를 구하면 cdf는 다음과 같고, cdf를 역변환하면 u^1/3이 나온다는 것을 확인할 수 있다. 다음 균등분포에서 추출한 1000개의 샘플을 인수로하여 cdf의 역변환 함수에 넣는다. 반환된 값으로 ..

studies

data mining 1_3 (Model Selcetion, Underfitting, overfitting)

Over/Underfitting이란 나는 사실 Overfitting / underfitting에 대해서 나름 잘 이해하고 있다. 쉽게 말해서 내가 학습시킨 모델이 train data에 대해서만 예측을 잘하고 test나 validation data에 대해서 예측을 못하면 우리는 overfitting 되었다고한다. 근데 train data에 대해서도 너무 예측을 못한다면 underfitting이라고 한다.. underfitting 모델에게서는 test나 validation data에서도 좋은 예측 점수를 기대하면 안된다. 기대하는게 바보라고 할 수 있겠다. 첫 번째 그림(1st order)은 underfitting이라고 볼 수 있다. 그럼 우리는 이 모델을 사용하면 안되겠구나 라는 판단을 하게 될 것이고. ..

studies

data mining 1_2(importance of database /lr ML's objective function / 목적함수)

Data generation process란. artificial situation의 예를 들어보자. 한 주사위 게임에서 x가 나오면 y = (x-7)^2 +1 만큼의 포인트를 준다고 가정하자. 우린 이런 상황에 대해서 data generation process(데이터 생성 과정)를 완벽히 알고 있다고 말할 수 있다. 위의 상황에서 우리는 x의 값만 알면 y값을 정확하게 예측할 수 있다. 또한 x가 나올 확률 (1/6)을 알기 때문에 P(x)에 대해서도 정확히 알 수 있다. 그리고 P(x)를 알기 때문에 새로운 데이터를 생성할 수도 있다. 하지만.!!!!!!!!!!!!!!!!!!! 머신러닝에서 우리는 데이터 생성 과정을 알 수 없다. 오직 train set을 가지고 estimate model or gen..

studies

data mining 1(machine learning, feature space, 차원의 저주)

The definition of machine learning. 머신러닝이란 무엇인가. 우선 러닝. 학습이 무엇인지에서부터 시작해 보자. 학습이란 새로이 혹은 기존에 갖추고 있었던 무언가(지식,행동,능력,가치 등)을 개선해 나가거나 습득해 나가는 과정을 의미한다. 그렇다면 머신러닝이란 무엇인가. 어떤 한 관점에서는 가장 정확한 최적의 파라미터를 찾기라고도 말할 수 있겠다. 그렇게 해서 최적화된 머신(모델은) 학습 데이터에 없던 test set을 통해 min error을 보이고, generalization 과정을 거치게 될 것이다. Understanding Feature Space feature space에 대해서 공부해 보자. 먼저 1-dim feature space를 보자. 특정 단일 x값에 대해서 y..

studies/수리통계학1

3.2 The exponential, gamma and chi-squared dist 지수, 감마, 카이제곱 분포

3.2 The exponential, gamma and chi-squared dist 지수분포의 파생. W를 unit구간 lamba에서 평균적으로 성공이 발생하는 포아송분포를 관찰할 때의 그 첫번째 성공 기다리는 시간이라고 하자. 그럼 F(w)는 1-P[no occurrences] 와 같다. 우리는 여기서 람다를 1/theta로 둘 수 있고, 확률변수 X의 pdf가 위와 같은 함수로 정의된다면, X가 지수분포를 갖는다고 말한다. Ex 3.2-1 확률변수 X가 평균에 대한 모수 theta= 20을 갖는 지수분포를 갖는다고 하자. 그럼 X의 pdf는 위와 같다. 또한 X가 18보다 작을 확률도 f(x)를 적분하여 구할 수 있을 것이다. Ex 3.2-2 어떤 가게에서 고객의 방문자 수가 시간당 평균 20명인..

Abokadoh
'studies' 카테고리의 글 목록