1. EDA
- 정의 : 관찰된 현상 그대로를 통계모형으로 만드는 대상데이터 구조에 대한 탐색적 분석 기법
- 목적 : 수집된 데이터 탐색을 통한 가설 도출
- 절차 : 데이터 수집 > 시각화 탐색 > 패턴 도출 > 인사이트 발견
- 핵심요소 : 저항성/잔차 해석, 자료 재표현, 자료의 현시성
- 기법 : 히스토그램, 줄기잎그림, 상자수염그림, 산점도
- 활용 : 모형정립, 데이터 마이닝, 가설도출, 빅데이터
2. CDA
- 정의 : 모형의 검증을 위하여 데이터를 수집하여 재현성과 유의성을 평가하는 추론 기법
- 목적 : P-Value 통한 가설 검정
- 절차 : 가설설정 > 데이터수집 > 통계분석 > 가설검증
- 핵심요소 : 중심극한정리, P-Value(유의확률)
- 기법 : T/F Test, 분산분석(ANOVA), 상관분석, 회귀분석
* EDA에서 제안한 모형은 CDA통해 검증되어 예측에 활용
3. 옵티마이저
- 정의 : 요청 SQL의 최적의 실행을 위해 탐색 비용을 고려하여 실행계획을 수립하는 DBMS엔진
- 절차 : Parsing > Oprimization(Query Transformer, Estimator, Plan Generator) > Row Source Generation > Execution
- 유형 : RBO, CBO
1) RBO 정의: 규칙 및 우선순위의 Rule Based로 실행계획을 수립하는 옵티마이저
2) RBO 특징: 규칙적 수행및 실행 절차 예측 가능,, 통계정보 현실요소를 무시하여 오차 발생, 오라클10g부터 RBO사용 불가
3) CBO 정의: Dictionary의 통계치 기반으로 비용산정하여 최적의 실행 계획을 수립하는 옵티마이저
4) CBO 특징: 형실정보 감안 실행계획 수립/최소 성능 보장, 실행 계획을 미리 예측 및 제어 어려움
- 최적의 DBMS성능을 위한 옵티마이저 활용 시 고려사항 : 효과적인 인덱스 구성, 최신 통계정보 유지, 힌트의 활용(/*+ HINT */)
4. Diffie-Hellman
- 정의 : 두 사람이 암호화되지 않은 통신망을 통해 공통의 비밀 키를 공유할 수 있도록 하는 키 교환의 기법
- 특징 : 공개키 사용, 이산대수 어려움, 비밀키 사용
- 구성요소 : Key(비밀키, 공개키, 개인키), 기호(p, g, s)
- 디피-헬만 키 교환 알고리즘 보안성 확보 방안 : 디피헬만(이산대수, 비밀키) MITM대응 위해 > RSA(소인수분해, 개인/공개키) shore알고리즘 대응 > 양자암호통신(양자역학 원리, BB84프로토콜)
5. DMA
- 정의 : I/O로 인한 성능 감소 방지 위해 CPU개입 없이 I/O 장치와 기억장치 간 직접 데이터를 전송하는 장치
- 동작 모드 : Burst, Cycle Steeling, Demand Transfer
- 구성요소 : 제어 레지스터, 주소 레지스터, 데이터 레지스터, 계수 레지스터, 컨트롤 레지스터
6. 데이터 분석 방법론
1) KDD 정의 : 데이터 중심으로 Insight를 발굴 위한 절차와 단계를 정의한 마이닝 기법
2) KDD 절차 :
- Selection : 데이터 분석에 필요 데이터 선택 및 생성
- Preprocessing : Noise 및 이상값, 결측치 식별 및 제거
- Transformation : 분석 목적에 맞게 데이터 차원 축소 및 변형
- Data Mining(Modeling) : 패턴을 찾거나 분류/예측등의 마이닝 수행
- Interpretation/Evaluation : 데이터 마이닝 결과에 대한 해석/평가
3) SEMMA 정의 : 분석 목적이 명확하지 않은 경우 사용하는 SAS에서 만든 통계기반 방법혼
4) SEMMA 절차 :
- Sample : 분석 대상 데이터 추출
- Explore : 대상 데이터 분석/탐색
- Modify : 분석 대상 수량화, 표준화, 그룹핑
- Model : 모델링을 통한 데이터 패턴 발견
- Assess : 모델 평가 및 검증
5) CRISP-DM 정의 : 기본적 비즈니스 이해를 바탕으로 데이터 마이닝을 가장 많이 사용하는 분석 방법론
- Business understanding : 비즈니스 관점에서 데이터 분석의 목적과 요구사항 이해
- Data Understanding : 분석을 위한 데이터를 수집하고 속석을 이해하기 위한 과정
- Data Preparation : 수집된 데이터에서 분석기법에 적합한 데이터셋을 편성
- Modeling : 다양한 모델링 기법과 알고리즘을 선택 및 파타미터 최적화
- Evaluation : 평가 및 수용 여부 판단
- Deployment : 모델 배포 계획 수립 및 리뷰
7. 아파치 카프카
- 정의 : 실시간 데이터 피드를 관리하기 위해 통일, 높은 처리량, 낮은 지연시간을 지닌 Pub/Sub 메시지 브로커 시스템
- 특징 : 고성능, 확산성, 분산성, 다중 프로듀서/컨슈머
- 구성요소 : Producer, Consumer, Broker, Partition, Topic, Zookeeper
- 성능 개선 기술 : Zero-Copy - Read(), send() 및 시스템 콜, 컨텍스트 스위츠등의 동작을 TransferTo()메소드를 통해 복잡한 과정 생략
8. 통계적 가설 검정 기법
- 정의 : 모집단으로부터 추출한 표본에 대한 가설을 귀무가설과 대립가설을 통해 채택 및 기각하는 가설 검정기법
- 구성요소 : 귀무가설, 대립가설, 유의수준, 검정통계량, P-Value, 기각역, 채택역
- 1종 오류(알파) : 귀무가설을 채택해야 하는데 기각할 경우
- 2종 오휴(베타) : 귀무가설을 기각해야 하는데 채택할 경우
- 검정 유형 : 양측검정, 좌측검정, 우측검정
9. 혼동행렬
- 정의 : 데이터 분석에서 예측된 값과 실제 값의 일치 여부를 해렬로 분류하여 인공지능 모델 성능을 평가하는 기법
- 항목 :
TP(참긍정, 실제값이 참인데 예측도 긍정인 올바른 예측)
TN(참부정, 실제값도 거짓인데, 예측도 부정으로 올바른 예측)
FP(거짓긍정, 실제값이 거짓인데 예측값이 긍정으로 틀린 예측)
FN(거짓부정, 실제값이 참인데, 예측값은 부정으로 틀린 예측)
- 혼동행렬 평가지표 : 정확도, 정밀도, 자현율(Recall), F-Score
- 평가 방법 : ROC 커브/AUC 동시 표현을 통해 1에 근접 상태 확인
10. ITIL(IT Infrastructure Library) 4.0 @ 조정파가, SCV, 3.0대비 서비스 가치 체계 도입 및 Pratice 중심, Agile/DevOps포함
- 정의 : 효율적 ITSM서비스와 프레임워크 구축을 위해 Agile, DevOps, Tailoring등을 반영한 가치 기반 연결 중심의 Best Pratice
- 변경점 : V3.0에서 기술/기능 > 서비스가치사슬 중심으로 변화
- 특징 : SVC(service Value-chain)즉, 서비스 생명주기에서 서비스 가치사슬로 변경, Co-Create Value: 기업을 위한것이 아닌 기업과 함께 가치창조
- ITIL 4.0의 서비스 가치 사슬 @ 계참설획제개 : 계획, 참여, 설계와 전환, 획득/구축, 제공과 지원, 개선
- ITIL 4.0의 4개의 차원 모델 @ 조정파가 : 조직과 사람, 정보 및 기술, 파트너 및 공급업체, 가치흐름과 프로세스
11. CDN(Contents Delivery Network)
- 개념 : 다양한 컨텐츠를 복잡한 네트워크 환경에서 사용자에게 안정적으로 전송해 주는 서비스
- 배경 : 네트워크 토폴로지 한계(병목지점), 인터넷 사용량 변화(고용량 및 사용자 폭주)
- 구성요소 : Global Server Load Balancing, Load Balancing, Caching, Streaming, 컨텐츠 배포, 동기화
- 캐싱 방식 : Static Caching(미리 복사 후 빠른 제공), Dynamic Caching(사용자 요청시 원본 다운로드 후 전달)
12. 하드웨어 규모 산정
- 개념 : 사업 규모의 적정성에 맞는 하드웨어를 도입하기 위해 수식 참조법, 시뮬레이션 등을 통해 사전에 산정하는 방식
- 대상 : CPU, 메모리, 디스크, 스토리지
- 산정지표 : TpmC(Transaction Per Minute C), IOPS(Input/Output operation per second), TPC-C
- 절차 : 구축방향 및 기초자료 조사 > 기초자료 및 업무분석 > 참조모델 결정(1,2,3 Tire) 및 서버 규모산정 > 참조모델별 가중치 적용 @ 기분결가
- 규모산정 방법 : 수식참조법(수식을 통한 정확한 근거 제공), 참조법(과거 구축된 업무시스템 비교), 시뮬레이션법
- 규모산전 참조 모델 : 참조모델1(1-Tier) : WEB/WAS/DB 단일 서버, 참조모델2(2-Tier) : WEB/WAS와 DB 2개 서버 구성, 참조모델3(3-Tier), WEB/WAS/DB 3개 서버 구성
13. 소프트웨어 개발방법론
- 정의 : SW 생산에 필요한 개발 과정들을 정리, 표준화하여 일관성을 유지하고 효과적인 협업을 돕기 위한 방법론
- 발전과정 :
1) 구조적 방법론(70) : 요구사항의 구조적 분석/설계, 데이터 중심 DFD작성
2) 정보공학 방법론(80) : Biz경영 전략 수용, ISP/ISMP등 중장기 계획
3) 객체지향 방법론(90) : 전 과정객체 중심, 클래스 재사용 및 Time To Market
4) CBD 방법론(2000) : SW 재사용 극대화, 컴포넌트 조립, 생산성 극대화
5) SSPL 방법론 : 핵심자산 재사용/가변요소 선택 개발, 경제적 개발
6) Agile 방법론 : 변화 대응, 적응적인 개발 및 짧은 배포
14. 머신러닝의 앙상블기법
- 정의 :모델의 성능 향상을 위해 여러 동일 모델을 조합하여 성능을 향상시키는 기법
- 특징 : 상호보완, 과적합 해소, 다수결
- 유형
1) 배깅(Bagging) : Bootstrap자료 생성 후 각 모델에 적용하여 예측 모형을 만드는 알고리즘
2) 부스팅(Boosting) : 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류규칙을 반복하여 모형을 만드는 알고리즘
3) 랜덤포레스트(Random Forest) : 배깅보다 많은 임의성을 주어 선형결합하여 학습 모형을 만드는 알고리즘
- 스택킹은 서로 다른 모델을 조합하여 최고의 성능을 만드는 기법(보팅, 부스팅)
15. 소프트웨어 안정성 분석기법
- 개념 : SW결함을 사전에 예방하고 장애시에도 안전 피해를 최소화 하기 위한 SW안전 품질 속성을 분석하기 위한 기법
- 유형 :
[1] 요구분석/설계 단계에서의 안전성 분석기법
1) FMEA : 시스템의 고장모드를 정의하고 영향과 원인을 분석하는 기법, 귀납적, 상향식, 위험우선순위(RPN=심각도*발생도*검출도)
2) HAZOP : 시스템을 검토하고 잠재적인 위험을 찾는 것이 기법, 매개변수/가이드워드 이용, 브레인스토밍 통한 분석
3) FTA : 정상사상(Top Event)을 시작으로 원인을 분석하는 연역적 기법, 연역적, 하향식, 논리적 사상/게이트 기호 사용
4) STPA : STAMP기법을 이용한 분석을 통해 요소별 안전성 분석 기법, Control Structure, 원인시나리오
[2] 개발/검토 단계의 안전성 분석기법
1) White Box : 개발자 중심, 구조기반
2) Block Box : 사용자 중심, 명세기반
3) 명세서 검증 : DED, DD등의 명세 기반 검증
4) 프로그램 소스 검증 : FMD등의 툴 이용 코드 검토
- 표준 준수를 통한 SW안전성 확보 방안 : IEC61508 기반 자동차, 철도, 항공, 원자력, 의료등의 표준을 준수하여 HARA 수행
16. SDN과 NFV ==> 궁극적인 목적은 SDN과 NFV + Network Slicing을 활용하여 하드웨어 의존성을 없애고 유연하고 개방적인 네트워크 환경 구현
1) SDN
- 개념 : Control Plane와 Data Plane로 분리하여 OpenFlow를 통해 서로간 통신하여 제어하는 인프라
- 목적 : 하드웨어 의존성 제거, 효율적 SW 제어
- 구성요소 : Application, Control Plane, Data Plane, Interface
2) NFV
- 개념 : 네트워크 장비의 여러 기능들을 분리시켜 SW 제어 및 관리가 가능하도록 가상화시키는 네트워크 기술
- 구성요소 : VNFs, VNFM, NFVI, VIM, NFVO, MANO
17. Open API
- 개념 : 공개된 데이터를 이용하여 개발 가능한 사용자에게 새로운 컨텐츠를 만들수 있도록 제공되는 사용자 중심 인터페이스
- 유형
1) SOAP
- 개념 : XML을 사용한 HTTP 통신 프로토콜
- 구성요소 : Envelope, Header, Body, Fault
2) REST
- 개념 : Stateless 특성 유지 및 URI사용
- 구성요소 : 자원, 행위, 메시지
- Method : Get(조회), POST(생성), PUT(수정), DELETE(삭제)
3) XML
- 형식 : 트리구조(Tag)
- 성능 : 상대적 느림
- 파싱 : XML Parser이용
- 컨텐츠 유형 : 텍스트, 숫자, 이미지, 차트 등
4) JSON
- 형식 : name/value
- 성능 : 빠름
- 파싱 : Eval()함수 이용
- 컨텐츠 유형 : 텍스트, 숫자
5) oAuth 2.0 @ 클오권자큰
- 개념 : 신뢰할 수 있는 제3자에게 Access Token기반 제한된 자원 접근 및 인증을 위한 범용 인증 표준 기술
- 구성요소 : clien, Resource Server, Authorization Server, Resource Server, Access Token
- Open API 의 암호화 통신 프로토콜 : SSL, IPSEC
18. OAuth 2.0 (RFC 6749)
- 개념 : 신뢰할 수 있는 제3자에게 Access Token기반 제한된 자원 및 접근 및 인증을 위한 범용 인증 표준 기술
- 특징 : SSL필수(스펙에 SSL/TLS를 명시), 제한된 권한(필요 권한만 제공)
- 구성요소 : clien, Resource Server, Authorization Server, Resource Server, Access Token
- 보안 위협 : redirect uri 위조 > 최조 등록 URI비교 검증 절차 필수
19. 비정형 데이터 마이닝
1) 비정형 데이터 마이닝
- 개념 : 비정형 데이터를 분석하여 분류, 군집화, 회귀분석 등을 적용하여 인사이트를 도출하는 분석
- 유형 : 텍스트 마이닝(자연어 분석), 오피니언/웹 마이닝(주제어, 토픽, 밀도, 연관 등), 사회연결망 분석(Density, Neighbor, Centrality)
2) 텍스트 마이닝
- 개념 : 자연어로 구성된 비정형 데이터를 분석하여 관계/패턴을 추출하여 의미있는 정보 추출 기법
- 절차 : 텍스트 문서 선정 > 전처리 > 의미정보 변환 > 의미정보 추출 > 패턴 및 경향 분석 > 평가
3) 사회연결망 분석(SNA)
- 개념 : 사회 구조를 노트와 링크로 구성되는 연결망을 도식하고 상호작용을 계량화하여 분석하는 기법
- 표현속성 : 응집력, 구조적 등위성, 명성, 범위, 중계
- 분석기법 : Centrality 분석, Neightbor 분석, Clique 분석, Density 분석
- SNA분석 TOOL : R, Netminer, Python, Tensowfloe
20. TCP와 UDP
1) TCP
- 개념 : 네트워크의 신뢰성 기반 흐름/혼잡/오류 등을 수행하는 TCP/IP모델 전송계증
- 연결 및 해제 기법 : 연결은 3Way, 해제는 4Way
- 3way : 연결설정(SYN) > 연결수락(SYN/ACK) > 연결수락확인(ACK) @ 신신액액
- 4way : 연결해제 요구(FIN) > 연결해제 요구확인(ACK), 연결해제 합의(FIN), 연결해제 협의합의(ACK)
2) UDP와 비교
- TCP는 신뢰성 기반(흐름, 혼잡, 오류) 연결형 통신 | UDP는 비연결형 데이터 통신
- TCP는 연결지향적 | UDP는 메세지 지향적(빠른 전송, 오버헤드 감소)
- TCP는 데이터 순서 유지 | UDP는 데이터 순서 미 유지
- TCP는 흐름제어(Sliding Window, Stop/Wait) | UDP는 미수행
- TCP 프로토콜 : HTTP, HTTPS, FTP, SMTP, SSH | DNS, SNMP, SYSLOG, NTP
3) TCP 와 UDP 결합 SCTP(RFC 4960)
- 정의 : UDP의 메시지 지향 특성과 TCP의 연결지향 및 신뢰성을 조합한 전송 프로토콜
- 기술요소 : Multi-Homing(여러 IP주소를 동시 사용), Multi-Streaming(하나의 세션에 여러 정보 전송), 4way 연결, 3way 종료
- 특징 : 다중경로 및 다중 스트리밍을 사용하며 3way 종료 절차를 통한 Half-open Closing 문제 해결
21. 데이터 마이닝
- 개념 : 대용량 데이터를 탐색 및 분석하여 의미 있는 정보로 변환하여 기업의 의사결정에 적용하는 일련의 과정
- 유형 : 정형데이터 마이닝(분류, 군집, 연관), 비정형데이터 마이닝(텍스트, 웹)
1) K-means clusting
- 개념 : 라벨링 되지 않은 데이터를 중심점, 클러스터 수 K, 유클리디안 거리계산을 이용하여 군집하는 기법
- 구성요소 : 군집수(K), 중심점(Centroid), 거리계산(유클리디안 거리법)
- 특징 : 이상 값에 민감, K 정의 난해, 이해 및 구현이 용이
2) DBSCAN @ 코보노잎민
- 개념 : 반경, 최소군집수로 코어/경계/노이즈 식별로 기하학 분처처리 가능한 밀도기반 군집 기법
- 구성요소 : 반경(e), 최소군집수(MinPts), Core Point, Border Point, Noise Point
- 특징 : 이상치 강건, 클러스터 수 필요 없음, 밀도가 낮은 군집 인식 불가
3) SVM
- 개념 : Support Vector선정하여 Hyperplane을 기준으로 이진 선형 분류 모델을 만드는 지도학습 알고리즘
- 절차 : 초평면 선택 > 손실함수 조정 > 데이터 변환
- 구성요소 : 커널펑션, 서포트 벡터, 마진, 초평면, 슬랙변수, 결정경계
- 주요기법: Soft Margin(이상값 허용), Hard Margin(이상값 미허용), 커널 기법
'ITPE > 비상반 주간모의고사' 카테고리의 다른 글
1주차(2023.09.17) 주간 모의고사 (2) | 2023.09.18 |
---|