텐서플로우 Linear Regression 예시 설명 Part 1(합성 데이터)!

합성 데이터(Synthetic Data)를 이용한 Linear Regression
(*합성데이터 = 실제 데이터가 아닌 컴퓨터가 만든 데이터)

머신러닝에 사용할 라이브러리 가져오기(import)

import pandas as pd #pandas는 데이터 분류/네이밍을 위한 라이브러리.
import tensorflow as tf #tensorflow는 딥러닝을 하는데 사용하는 라이브러리.
from matplotlib import pyplot as plt #matplotlib는 데이터로 그래프를 그리는데 사용되는 라이브러리.

데이터를 학습시킬 모델 만들기

def build_model(my_learning_rate): #학습할 모델을 만드는 function
model = tf.keras.models.Sequential() #Sequential한 빈 모델을 만듦
model.add(tf.keras.layers.Dense(units=1,input_shape=(1,))) #모델에 하나의 뉴런을 가진 hidden layer 형성
model.compile(optimizer=tf.keras.optimizers.RMSprop(lr=my_learning_rate),loss=”mean_squared_error”,metrics=[tf.keras.metrics.RootMeanSquaredError()]) #모델의 학습방식 설정
return model #학습한 모델 가져옴

<Keypoint>

  • Sequential: 가장 간단한 모델 형태(단일 Layer가 hidden layer로 쌓이는 것).
    • Functional(단일하지 않은 Layer가 hidden layer로 쌓이는 것), Subclassing 모델도 존재 (아래 그림 1 참조)
  • Units: 해당 Layer안에 있는 뉴런의 수 (아래 그림 2 참조)
  • Input_shape: 해당 Layer의 Input 형태
  • RMSprop: loss를 줄이고 더 정확한 모델을 만드는 과정에서 어떤 식으로 모델을 학습시킬 건지 결정하는 최적화 방법 중 하나.
    • Optimizer(최적화 방법)는 RMSprop, SGD, Adam, Adadelta, Adagrad, Adamax, Nadam, Ftrl이 있음. 다 다른 방법으로 loss function에서 최소 값을 찾으며 모델을 학습시키며 잘못된 최적화 방법을 찾으면 모델의 정확도가 떨어지므로 우리에게 적합한 최적화 방법을 잘 골라야 함(최적화 방법에 대해서는 추후에 또 포스팅하겠음).
그림 1. 모델 형태, Sequential, Functional, Subclassing 차이 (출처는 여기에)
그림 2. Hidden Layer의 unit이 1개(=뉴런 1개)인 신경망 모델(Neural Network), 엄청 심플한 모델



모델 학습시키는 function 만들기

def train_model(model, feature, label, epochs, batch_size): #모델 학습시키는 function
history = model.fit(x=feature,y=label,batch_size=batch_size,epochs=epochs) #데이터를 넣어주고 모델 학습시키기

trained_weight = model.get_weights()[0] #학습이 끝난 모델의 비중 값
trained_bias = model.get_weights()[1] #학습이 끝난 모델의 편향 값
epochs = history.epoch #학습이 끝난 모델이 전체 데이터 셋을 몇번이나 처음부터 끝까지 학습했는지, 그 횟수가 epochs
hist = pd.DataFrame(history.history)
rmse = hist[“root_mean_squared_error”] #학습이 끝난 모델이 어떤 방식으로 학습했는지(어떤 식으로 loss를 줄여나갔는지), 각각의 epoch마다 root_mean_squared_error구함
return trained_weight, trained_bias, epochs, rmse #학습을 끝난 모델의 중요한 정보들 가져옴(위에 나열한 값들)

Feature, Label 그래프 만들기 (matplotlib 사용)

def plot_the_model(trained_weight, trained_bias, feature, label): #모델 그래프 만드는 function
plt.xlabel(“feature”) #x축 feature(input)값으로 설정
plt.ylabel(“label”) #y축 label(output)값으로 설정
plt.scatter(feature, label) #(x,y)값 그래프에 그리기

x0 = 0
y0 = trained_bias #[x0,y0] = [0,편향(bias)]
x1 = feature[-1]
y1 = trained_bias + (trained_weight * x1) #[x1,y1] = [x1, 비중(weight)*x1(input)+편향(bias)]
plt.plot([x0, x1], [y0, y1], c=’r’) # [x0,y0]에서 [x1,y1]를 잇는 빨간 선 그래프 그리기(c는 color, r은 red 뜻)
plt.show() #전체 그래프 보여주기

plot_the_model function 예시(아래에 다시 언급함)

Loss 그래프 만들기 (matplotlib 사용)

def plot_the_loss_curve(epochs, rmse): #Loss 그래프 만드는 function
plt.figure() #그래프 그릴 영역 확보
plt.xlabel(“Epoch”) #x축 epoch값으로 설정
plt.ylabel(“Root Mean Squared Error”) #y축 rmse값으로 설정
plt.plot(epochs, rmse, label=”Loss”) #Loss 그래프 그리기
plt.legend() #범례 형성
plt.ylim([rmse.min()*0.97, rmse.max()]) #y축 영역 정하기(y최소 값: rmse.min()*0.97, y최대 값: rmse.max())
plt.show() #전체 그래프 보여주기

plot_the_loss_curve 예시(아래에 다시 언급함)

모델을 학습시킬 데이터 셋 만들기

my_feature = ([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0])
my_label = ([5.0, 8.8, 9.6, 14.2, 18.8, 19.5, 21.4, 26.8, 28.9, 32.0, 33.8, 38.2])

모델 학습시키기 & Feature, Label 그래프 그리기 & Loss 그래프 그리기 & 분석

learning_rate=0.01 #학습 속도(=step size)
epochs=10 #모든 데이터 셋을 몇번이나 학습시키는지, 그 횟수
my_batch_size=12 #한번 학습시킬 때 몇개의 데이터를 넣는지

my_model = build_model(learning_rate) #모델 만들기(위에 언급한 build_model function 사용)
trained_weight, trained_bias, epochs, rmse = train_model(my_model, my_feature,my_label, epochs,my_batch_size) #모델 학습시키기(위에 언급한 train_model function 사용)
plot_the_model(trained_weight, trained_bias, my_feature, my_label) #plot_the_model 함수 불러오기(Feature, Label 그래프 그리기)
plot_the_loss_curve(epochs, rmse) #plot_the_loss_curve 함수 불러오기(Loss 그래프 그리기)

train_model 함수 실행(함수 안 모델 학습시킴)
그림 3. plot_the_model, plot_the_loss_curve 함수 실행(Feature, Label 그래프+ Loss 그래프 그림)

분석: 모델을 learning rate가 0.01이고 epochs가 10이고 batch_size가 12로 학습시키면

  1. 그림 3 왼쪽 그래프처럼 데이터와 모델 학습된 결과가 동떨어지고(파란 점: 데이터들, 빨간 선: 모델이 학습한 결과, 빨간 선이 파란 점들의 행동 양식을 보여주지 못한다. 데이터 학습 실패, 모델 정확도 떨어짐)
  2. 그림 3 오른쪽 그래프처럼 Loss값이 학습을 끝내도 너무 높고 특정 값에 수렴하지 않는다(모델 학습 시작 때 Loss값이 28을 좀 넘었는데 학습을 마친 후 26.75정도가 되었다. Loss값이 별로 줄어들지 않았으며 어떤 값에 수렴하지 않았다, 모델 정확도 떨어진다는 뜻).
    -> learning rate, epochs, batch size를 변화시키며 모델 정확도를 올려야 한다. 하나하나 조금씩 건드려보자!

정확도 높은 모델을 만들기 위해 Epochs 값을 올려보자!

learning_rate=0.01
epochs=450
my_batch_size=12

my_model = build_model(learning_rate)
trained_weight, trained_bias, epochs, rmse = train_model(my_model, my_feature, my_label, epochs, my_batch_size)
plot_the_model(trained_weight, trained_bias, my_feature, my_label)
plot_the_loss_curve(epochs, rmse)

그림 4. Epoch를 높였더니 모델의 정확도가 확연히 높아졌다.

분석

Epoch를 10에서 450로 모델 학습 횟수를 올렸더니(그림 3, 그림 4 비교) 모델의 정확도가 크게 올라갔다. 빨간선(모델의 학습결과)이 데이터의 행동양식을 잘 설명할 수 있게 되었으며 그 결과로 Loss 값이 0으로 plateau(특정 값에 수렴)되는 걸 볼 수 있다.
Epoch이 너무 작으면 모델 학습에 부정적 영향을 준다는 것을 확인할 수 있다.




이번엔 Learning Rate를 높여보면 어떨까?

learning_rate=100
epochs=450
my_model = build_model(learning_rate)
trained_weight, trained_bias, epochs, rmse = train_model(my_model, my_feature, my_label, epochs, my_batch_size)
plot_the_model(trained_weight, trained_bias, my_feature, my_label)
plot_the_loss_curve(epochs, rmse)

그림 5. Learning Rate를 높여봤더니 모델의 정확도가 낮아졌다.

분석

Epoch가 450인 상태에서 이번엔 Learning Rate를 올려보자. 어머나! 이것은 잘못된 판단이었군,,ㅜ 빨간선(학습 결과)와 데이터가 또 따로 논다. 그리고 Loss값이 진동한다. 
이 경우 모델 학습에 실패했다는 것이고 loss 값이 진동한다는 것은 learning rate(학습 속도, step size)가 너무 크다는 걸 의미한다. Learning Rate가 너무 크면 모델 학습에 부정적인 영향을 준다는 걸 확인할 수 있다. 
여기서 우리는 알 수 있다. 적절한 Epoch과 Learning Rate가 모델 학습에 꼭 필요하다는 것을!

적절한 Epoch과 Learning Rate를 가진 모델을 만들어보자.

learning_rate=0.14
epochs=70
my_batch_size=12

my_model = build_model(learning_rate)
trained_weight, trained_bias, epochs, rmse = train_model(my_model, my_feature, my_label, epochs, my_batch_size)
plot_the_model(trained_weight, trained_bias, my_feature, my_label)
plot_the_loss_curve(epochs, rmse)

Learning Rate를 0.14로 정하고 Epoch를 70으로 정했더니 모델 학습에 또 성공했다!

분석

learning_rate 0.01, epochs 450 였을 때도 모델 학습에 성공했지만(그림 4) 이번에도(learning_rate 0.14, 
epochs 70) 모델 학습에 성공했다. 하지만 엄밀히 말하면 이번이 더 최적화된 모델 학습 방법이다!!
이 경우 Learning Rate는 높고 Epoch는 낮아서 모델이 더 빠르게 데이터를 학습할 수 있다(컴퓨터의 연산 시간이 적게 걸림).

이번엔 Batch Size를 건드려볼까?

learning_rate=0.05
epochs=125
my_batch_size=1

my_model = build_model(learning_rate)
trained_weight, trained_bias, epochs, rmse = train_model(my_model, my_feature, my_label, epochs, my_batch_size)
plot_the_model(trained_weight, trained_bias, my_feature, my_label)
plot_the_loss_curve(epochs, rmse)

Batch Size를 12에서 1로 바꿨는데도 모델 학습에 성공했다!(꽤나 정확한 모델 만듦)

분석

Batch Size * Batch = Full Data Size(이해가 안되면 이 글을 보세요).
Batch Size가 작을수록 Batch가 커진다. Batch는 iteration과 같으며 매 iteration마다 모델 학습의 편향(bias)와 비중(weight)가 달라진다. 
만약 Batch Size가 6이라면 매 6개의 examples마다 loss 값을 구하고 그에 따라 모델의 편향과 비중 값을 적절하게 바꾼다.
그냥 Batch Size를 우리의 데이터 셋 수(examples 수)로 정할 수도 있지만 Batch Size를 줄이면 모델 학습 시간이 단축된다. 하지만 Batch Size가 너무 작으면 모델 학습에 실패하고 정확도가 떨어지는 모델을 만들 수 있으니 유의하자.
(Batch Size가 너무 작으면 모델의 Loss값이 수렴하지 않는다.)

요약!

  • Loss 값은 점차적으로 줄어들어야한다. 처음에는 가파르게 줄어들다가 나중에는 천천히 줄어들어야 하며 결국엔 0에 수렴해야 한다.
  • Loss 값이 0에 수렴하지 않으면 epoch 수를 늘려보자
  • Loss 값이 처음부터 너무 작게 줄어들면 Learning Rate를 늘려보자(하지만 Learning Rate가 너무 크면 또 Loss 값이 수렴하지 않게되니 유의, Loss 값 진동하게 됨!).
  • Learning Rate를 낮추며 Epoch와 Batch Size를 높이는 것은 종종 좋은 모델 학습 방법일 수 있음(절대적인 것 아님, 상황마다 다름).
  • Batch Size가 너무 작으면 모델 학습에 실패할 수 있음. 처음엔 Batch Size를 크게 시작하되 점점 작게 Batch Size를 넣어보는 걸 추천
  • 현실 세계의 진짜 데이터 셋 같은 경우 데이터 수가 너무 방대하므로(examples 수 많음), 전체 데이터 셋이 메모리 안에 안 들어갈 수 있음. 이 경우 Batch Size를 줄여서 메모리 안에 데이터 셋을 넣을 수 있게 해야함.
  • (★★★) 모든 hyperparameter(Learning Rate, Epoch, Batch Size 등)은 학습하고자 하는 데이터에 맞춰 그 값을 설정해야 함. 계속 자신이 가지고 있는 데이터를 가지고 정확한 모델을 만들기 위해 노력해야 함.

*오늘 공부한 자료는 여기에 있어요~ 실데이터를 이용한 Linear Regression은 여기서 보세요~




Leave a Comment