* 작업 환경
Ubuntu 18..04.4 Tensorflow-qpu-2.2.0 |
* 사용한 데이터
https://www.kaggle.com/c/microsoft-malware-prediction
1. 작업환경(jupyter notebook)
2. 데이터 다루기
2.1 jupyter 환경에서 csv 파일 불러오기
import os
import pandas as pd
DATA_PATH="/home/malware/dataset"
def load_data(data_path=DATA_PATH):
csv_path = os.path.join(data_path, "train.csv")
return pd.read_csv(csv_path)
이 함수는 모든 데이터를 담은 pandas의 dataframe 객체를 반환
2.2 데이터 구조 확인
DataFrame의 head(): 처음 다섯 행을 확인
data=load_data()
data.head()
info(): 데이터에 대한 간략한 설명과 그 중에서 전체 행 수, 각 특성의 데이터 타입과 널(NULL)이 아닌 값의 개수를 확인
데이터셋에 8921483개의 샘플이 존재한다.
각 필드의 속성이 출력이 되는데, object dtype은 범주형(categorical) 일 것이다.
value_counts(): 어떤 카테고리가 있고 각 카테고리마다 얼마나 많은 구역이 있는지 확인, 각각의 값이 나온 횟수
SmartScreen 필드의 구성을 확인해보았다.
describe(): 숫자형 특성의 요약 정보
loc | 인덱스를 기준으로 행 데이터 추출
iloc | 행 번호를 기준으로 행 데이터를 추출
참고
'AI > deep learning' 카테고리의 다른 글
[Tensorflow] CUDA, cuDNN 설치(오류 해결) (10321) | 2020.10.20 |
---|---|
[Microsoft Malware Prediction] Model Train (0) | 2020.06.15 |
Object Detection: Faster-RCNN Model (0) | 2020.05.07 |
[DeepLearning] Tensorflow Object Detection을 통한 실시간 객체 탐지 (1513) | 2020.04.02 |
[Tensorflow] 아나콘다(Anaconda) 설치하기 (2) | 2020.04.02 |