13장 텐서플로에서 데이터 적재와 전처리하기

핸즈온 머신러닝 2판

13장 텐서플로에서 데이터 적재와 전처리하기

NowChan 2022. 1. 10. 19:27

모르는 부분:
save_to_multiple_csv_files 에서 repr(), np.c_, print(end파라미터), interleave(),
interleave 다시 복습
모르는 부분:

메모리 용량보다 큰 규모의 데이터셋으로 딥러닝 시스템을 훈련해야 하는 경우가 많습니다. 텐서플로는 데이터 API를 통해 이를 쉽게 처리할 수 있습니다.

데이터셋 객체를 만들고 데이터 위치와 변환 방법을 지정하면 됩니다. 멀티스레딩, 큐, 배치, 프리페치(prefetch)같은 상세한 사항을 모두 대신 처리해줍니다.

데이터 API는 텍스트 파일(CSV 등), 고정 길이의 이진 파일, 텐서플로의 TFRecord 포맷을 사용하는 이진 파일에서 데이터를 읽을 수 있습니다.

데이터 API는 SQL 데이터베이스에서 읽는 기능을 지원합니다. 구글의 BigQuery같은 데이터 소스에서 읽을 수 있는 오픈 소스도 있습니다.

대용량 데이터를 효율적으로 읽으려면 정규화 같은 전처리가 필요합니다. 모든 전처리 과정을 처맇기 위해 사용자 정의 전처리 층을 만들거나 케라스에서 제공하는 표준 전처리 층을 사용할 수 있습니다.

13장에서는 데이터 API, TFRecord 포맷을 다루고 사용자 정의 전처리 층을 만드는 법과 표준 케라스 전처리 층을 사용하는 방법을 다룹니다. 또한, 텐서플로 생태계에 있는 관련된 프로젝트도 몇 가지 알아봅니다.

TF 변환 (tf.Transform)

실행 속도를 높이기 위해 훈련 전에 전체 훈련 세트에 대해 실행하는 전처리 함수를 작성할 수 있습니다. 그 다음 텐서플로 함수로 변환하고 상용 환경에 배포된 다음 훈련된 모델과 협업하여 새로운 샘플에 대해 동적으로 전처리를 수행할 수 있습니다.

TF 데이터셋 (TFDS)

각종 데이터 셋을 다운로드할 수 있는 편리한 함수입니다.

데이터 API

전체적인 데이터 API의 중심에는 데이터셋(dataset) 개념이 있습니다. dataset은 연속된 데이터 샘플을 나타내며 디스크에서 데이터를 점진적으로 읽습니다.

tf.data.Dataset.from_tensor_slices()

X = tf.range(10) dataset = tf.data.Dataset.from_tensor_slices(X) # tf.data.Dataset.range(10) dataset ''' <TensorSliceDataset shapes: (), types: tf.int32> '''

from_tensor_slices() 함수는 텐서를 받아 (첫 번째 차원을 따라) X의 각 원소가 item으로 표현되는 tf.data.Dataset을 만듭니다.

아래와 같이 아이템을 순회할 수 있습니다.

for item in dataset: print(item) ''' tf.Tensor(0, shape=(), dtype=int32) ... tf.Tensor(8, shape=(), dtype=int32) tf.Tensor(9, shape=(), dtype=int32) '''

연쇄 변환

데이터 셋에 여러 종류의 변환을 수행할 수 있습니다.

dataset2 = dataset.repeat(3).batch(10) for item in dataset2: print(item) ''' tf.Tensor([0 1 2 3 4 5 6 7 8 9], shape=(10,), dtype=int32) tf.Tensor([0 1 2 3 4 5 6 7 8 9], shape=(10,), dtype=int32) tf.Tensor([0 1 2 3 4 5 6 7 8 9], shape=(10,), dtype=int32) ''' dataset1 = dataset.repeat(3).batch(7) for item in dataset1: print(item) ''' tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32) tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32) tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32) tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32) tf.Tensor([8 9], shape=(2,), dtype=int32) '''

Dataset.repeat(3)
데이터셋의 아이템을 3차례 반복하는 하나의 데이터 셋을 만듭니다.

Dataset.batch(7)
데이터 셋의 아이템을 7개씩 그룹으로 묶습니다. 모자란 크기는 drop_remainder=True로 호출하면 마지막 배치를 버리고 모든 배치를 동일한 크기로 맞춥니다.

Dataset.map()

dataset3 = dataset.map(lambda x: x*2) #[0, 2, 4, 6, 8, .., 16, 18]

map() 함수는 각 아이템 x에 원하는 어떤 전처리 작업도 적용할 수 있습니다. 이미지 크기 변환이나 회전 같은 복잡한 계산도 포함합니다. num_parallel_calls 매개 변수로 스레드 개수를 설정해 계산 속도를 높일 수 있습니다. map() 메서드에 전달하는 함수는 텐서플로 함수로 변환 가능해야 합니다.

Dataset.apply()
map() 메서드가 각 아이템에 변환을 적용한다면, apply() 메서드는 데이터셋 전체에 변환을 적용합니다. 데이터셋에 unbatch() 함수를 적용합니다. 새로 만들어진 데이터셋의 각 아이템은 7개의 정수로 이루어진 배치가 아니라 하나의 정수 텐서가 됩니다.

dataset4 = dataset1.apply(tf.data.experimental.unbatch()) # 0, 2, 4, ...

Dataset.filter()
데이터를 필터링합니다.

dataset5 = dataset.filter(lambda x: x<6) # [0, 1, 2, 3, 4, 5]

Dataset.take(3)
3개의 아이템만 보여줍니다.

dataset6 = dataset.take(3) # [0, 1, 2]

데이터 셔플링

경사 하강법은 샘플이 독립적이고 동일한 분포일 때 최고의 성능을 발휘합니다.(4장 참조) 이를 구현하는 간단한 방법은 shuffle() 메서드를 사용하는 것입니다.

shuffle() 메서드는 원본 데이터 셋에서 아이템을 buffer_size 개수만큼 추출해 버퍼에 채웁니다. 아이템이 요청되면 이 버퍼에서 랜덤하게 하나를 꺼내 반환합니다. 그리고 원본 데이터셋에서 새로운 아이템을 추출하여 비워진 버퍼를 채웁니다.

이 과정을 원본 데이터 셋의 모든 아이템이 사용될 때까지 반복한 후, 모두 사용되면 버퍼가 비워질 때까지 계속하여 랜덤하게 아이템을 반환합니다.

shuffle() 메서드를 사용할 때 버퍼 크기를 충분히 크게 지정하는 것이 중요합니다. 너무 작으면 셔플링 효과가 감소됩니다. 단, 보유한 메모리 크기를 넘지 않아야 합니다. 프로그램 실행 시마다 셔플링되는 순서를 동일하게 만들려면 랜덤 시드를 부여합니다.

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31