ML/Git

Git 시작하기

KAU 2020. 7. 26. 17:06

Git의 탄생배경 부터 우선 알아보도록 하자.

버전 관리란? 

버전 관리는 파일 변화를 시간에 따라 기록했다가 나중에 특정 시점의 버전을 다시 꺼내올 수 있는 시스템이다.

VCS(Version Control System)을 사용하면 각 파일을 이전 상태로 되돌리거나 프로젝트를 통째로 이전 상태로 되돌릴 수 있고,시간에 따라 수정내용을 비교해 볼 수 있고,누가 문제를 일을켰는지도 추적할 수 있고,누가 언제 만들어낸 이슈인지도 알 수 있다.VCS를 사용하면 파일을 잃어버리거나 잘못 고쳤을 때도 쉽게 복구할 수 있다.

 

로컬 버전 관리

가장 많이 쓰는 VCS 도구 중에 RCS(Revision Control Systerm)

기본적으로 Patch Set(파일에서 변경되는 부분)을 관리한다.

이 Patch Set은 특별한 형식의 파일로 저장한다.

그리고 일련의 Patch Set을 적용해서 모든 파일을 특정 시점으로 되돌릴 수 있다.

 

중앙집중식 버전 관리(CVCS)

다른 개발자와 함께 협업을 할 때 발생하는 문제를 해결하기 위해 CVCS가 개발되었다.

CVS,Subversion,Perforce 같은 시스템은 파일을 관리하는 서버가 별도로 있고

클라이언트가 중앙 서버에서 파일을 받아서 사용(Checkout)한다. 

CVCS 환경은 로컬 VCS에 비해 장점이 많다. 모두 누가 무엇을 하고 있는지 알 수 있다.

관리자는 누가 무엇을 할지 관리 할 수 있으며 모든 클라이언트의 로컬 데이터베이스를 관리하는 것보다 

하나의 VCS를 관리하기가 훨씬 쉽다.

하지만 CVCS 환경은 몇 가지 치명적인 결점이 있다. 

가장 대표적인 것이 중앙 서버에 발생한 문제다. 

만약 서버가 한시간 동안 다운되면 그동안 아무도 다른 사람들과 협업할 수도 백업할 수도 없다.

 

분산 버전 관리 시스템

DVCS는 Git,Mecurial,Bazaar,Darcs 같은 DVCS에서의 클라이언트는

단순히 파일의 마지막 스냅샷을 Checkout 하지 않는다.

그냥 저장소를 전부 복제한다. 서버에 문제가 생기면 이 복제물로 다시 작업을 시작할 수 있다.

클라이언트 중에서 아무거나 골라도 서버를 복원할 수 있다. 모든 Checkout은 모든 데이터를 가진 진정한 백업이다.

대부분의 DVCS 환경에서는 리모트 저장소가 존재한다. 리모트 저장소가 많을 수도 있다. 

그래서 사람들은 동시에 다양한 그룹과 다양한 방법으로 협업할 수 있다. 

계층 모델 같은 중앙집중식 시스템으로는 할 수 없는 워크플로를 다양하게 사용 가능하다.

 

Git 기초

차이가 아니라 스냅샷

CVS,Subversion,Perforce,Bazaar등의 시스템은 각 파일의 변화를 시간순으로 관리하면서 파일들의 집합을 관리한다.

Gir은 이런 식으로 데이터를 저장하지도 취급하지도 않는다.

대신 Git은 데이터를 파일 시스템 스냅샷으로 취급하고 크기가 아주 작다.

Git은 커밋하거나 프로젝트의 상태를 저장할 때마다 파일이 존재하는 그 순간을 중요하게 여긴다.

파일이 달라지지 않았으면 Git은 성능을 위해서 파일을 새로 저장하지 않는다. 

단지 이전 상태의 파일에 대한 링크만 저장한다.

Git은 데이터를 스냅샷의 스트림처럼 취급한다. Git은 단순한 VCS가 아니다.

 

Git의 장점

속도

거의 모든 명령이 로컬 파일과 데이터만 사용하기 때문에 네트워크에 있는 다른 컴퓨터는 필요 없다.

대부분의 명령어가 네트워크의 속도에 영향을 받는 CVCS와 달리 Git은 영향을 받지 않기에 

Git의 속도는 굉장히 빠르다. 프로젝트의 모든 히스토리가 로컬 디스크에 있기 때문에 모든 명령이 

순식간에 실행된다.

Git은 프로젝트의 히스토리를 조회할 때 서버 없이 조회한다. 

그냥 로컬 데이터베이스에서 히스토리를 읽어서 보여준다.

파일을 비교하기 위해 리모트에 있는 서버에 접근하고 나서 예전 버전을 가져올 필요가 없다.

네트워크에 접속하고 있지 않아도 커밋할 수 있다.

 

Git의 무결성

무결성이란 데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제값이 일치하는 정확성을 의미한다

 

Git은 데이터를 저장하기 전에 항상 체크섬을 구하고 그 체크섬으로 데이터를 관리한다. 

그래서 체크섬을 이해하는 Git 없이는 어떠한 파일이나 디렉토리도 변경할 수 없다. 

체크섬은 Git에서 사용하는 가장 기본적인(Atomic) 데이터 단위이자 Git의 기본 철학이다. 

Git 없이는 체크섬을 다룰 수 없어서 파일의 상태도 알 수 없고 심지어 데이터를 잃어버릴 수도 없다.

 

Git은 SHA-1 해시를 사용해여 체크섬을 만든다. 만든 체크섬은 40자 길이의 16진수 문자열이다.

파일의 내용이나 디렉토리 구조를 이용하여 체크섬을 구한다. SHA-1 아래 처럼 생겼다.

24b9da6552252987aa493b52f8696cd6d3b00373

Git은 모든 것을 해시로 식별하기 때문에 이런 값은 여기저기서 보인다. 

실제로 Git은 파일을 이름으로 저장하지 않고 해당 파일의 해시로 저장한다.

 

Git은 데이터를 추가할 뿐

Git으로 무얼 하든 Git 데이터베이스에 데이터가 추가된다. 

되돌리거나 데이터를 삭제할 방법이 없다.

다른 VCS처럼 Git도 커밋하지 않으면 변경사항을 잃어버릴 수 있다. 

하지만, 일단 스냅샷을 커밋하고 나면 데이터를 잃어버리기 어렵다.

 

세 가지 상태

Git은 파일을 Committed, Modifiedm Staged 이렇게 세 가지 상태로 관리한다. 

Committed란 데이터가 로컬 데이터베이스에 안전하게 저장됐다는 것을 의미한다.

Modified는 수정한 파일을 아직 로컬 데이터베이스에 커밋하지 않은 것을 말한다.

Staged란 현재 수정한 파일을 곧 커밋할 것이라고  표시한 상태를 의미한다.

 

세 가지 상태는 Git 프로젝트의 세 가지 단계와 연결돼 있다. 

Git 디렉토리, 워킹 트리, Staging Area 이렇게 세 가지 단계를 이해해 보자.

Git it 디렉토리는 Git이 프로젝트의 메타데이터와 객체 데이터베이스를 저장하는 곳을 말한다.

Git 디렉토리가 Git의 핵심이다.

다른 컴퓨터에 있는 저장소를 Clone 할 때 Git 디렉토리가 만들어진다.

 

워킹 트리는 프로젝트의 특정 버전을 Checkout 한 것이다. Git 디렉토리는 지금 작업하는 디스크에 있고

그 디렉토리 안에 압축된 데이터베이스에서 파일을 가져와서 워킹 트리를 만든다.

 

Staging Area는 Git 디렉토리에 있다. 단순한 파일이고 곧 커밋할 파일에 대한 정보를 저장한다.

종종 "Index" 라고 불리기도 한다.

 

Git으로 하는 일은 아래와 같다.

1. 워킹 트리에서 파일을 수정한다.

2. Staging Area에 파일을 Stage 해서 커밋할 스냅샷을 만든다.

3. Staging Area에 있는 파일들을 커밋해서 Git 디렉토리에 영구적인 스냅샷으로 저장한다.

 

Git 디렉토리에 있는 파일들은 Committed 상태이다. 

파일을 수정하고 Staging Area에 추가했다면 Staged이다. 

그 Checkout하고 나서 수정했지만, 아직 Staging Area에 추가하지 않았다면 Modified이다.

Staging Area는 생략할 수도 있다.

 

CLI

Git을 사용하는 방법은 많다. CLI로 사용할 수도 있고 GUI를 사용할 수도 있다. 

Git의 모든 기능을 지원하는 것은 CLI 뿐이다. 

==>Terminal 혹은 Powershell에서 실행하는것을 의미한다. 

 

'ML > Git' 카테고리의 다른 글

git 을 간단하게 알아보자!  (0) 2020.09.23
Git 브랜치 기초  (0) 2020.07.27
Git의 기초 (2) 리모트 저장소  (0) 2020.07.27
Git의 기초  (0) 2020.07.26