본문 바로가기

DM ML AD

데이터 과학자를 위한 윤리/행동강령 (Code of Confuct)

최근 데이터 과학자의 직업윤리에 관심을 갖기 시작했습니다. 나름 회사에서 10년 넘게 데이터를 다뤄왔고 대학, 대학원을 포함하면 20년의 세월을 데이터 속에서 살아왔지만 최근처럼 강하게 직업윤리를 고민했던 적은 없습니다. 주변에 일어나는 이상한 일들, 데이터와 알고리즘을 잘 알고 있는 사람부터 그저 최종 수치만 보고 받는 사람에 이르기까지 데이터와 그 결과 수치를 다루는 방식에 의문을 갖었습니다. 어떤 직업이든 그 직업을 행함에 있어서 윤리와 행동을 제한, 정의한 행동강령/윤리강령이 있을 거라는 생각이 들었습니다. 대표적으로 히포크라테스 선서로 알려진 의료 윤리강령이 유명합니다. 비슷하게 데이터 과학자를 위한 윤리강령도 어딘가에, 누군가에 의해 정리됐을 거라고 생각해서 찾아봤습니다. 윤리강령/행동강령이 필요하다는 글은 다수 발견됐지만 그런 강령을 문서로 잘 정리한 것은 발견하기 어려웠는데, 옥스퍼드대의 Dr. Peter Grindrod와 그라나다대의 Dr. Juan Bernabe Moreno라는 분이 2018년 3월에 정리해둔 강령이 있어서 (발)번역했습니다.

처음에는 개인정보를 다루고 활용하는 것과 분석 및 해석에서 어뷰징, 왜곡, 과장, 조작 등의 행위에 관심을 갖고 찾아본 거였지만, 아래 강령은 이 내용을 좀 암시적으로, 포괄적으로만 언급됐을 뿐입니다. 하지만 제가 생각하지 못했던 좀더 넓은 의미에서의 윤리강령을 다뤘기에 충분히 공유할만하다고 판단했습니다. 원문 자체가 아직 매끄럽지 못한 부분도 많았고 급하게 번역하느라 정확하지 않을 수도 있습니다. 그냥 대략적인 내용만 참조하시기 바랍니다.
Oxford-Munich Code of Conduct for Professional Data Scientists

Lawfulness (합법성)

1a. Lawful knowledge and adherence (법이해와 준법)
The Data Scientist will always act in accordance with the law, developing a full knowledge of, and ensuring compliance with, all relevant regulatory regimes. Employers should take steps to raise their data scientists’ awareness and knowledge of such issues.
데이터 과학자는 언제나 법에 따라 행동한다. 모든 관련된 규정을 온전히 이해하고 준수한다. 고용주는 데이터 과학자들이 이런 이슈를 인지하고 이해하도록 조치한다.

1b. Privacy and confidentiality protection (개인정보와 기밀 보호)
The Data Scientist has a duty to act so as to protect the privacy and confidentiality of data, respecting the ownership of proprietary data, and in not exposing data (within private or public fora) that might cause any harm to individuals or legal entities.
데이터 과학자는 개인정보와 데이터의 기밀을 보호하도록 행동할 의무가 있다. 사적 데이터의 소유권을 존중하고 개인이나 법인체에게 해를 줄 수 있는 데이터를 사적이든 공적인 곳에서 노출하지 않는다.

1c. Equality legislation (평등권)
The Data Scientist has a duty not to break gender, race, ethnicity, martial status, religion, belief, disability, or age equality legislation. In particular, such attributes should not place individuals at any disadvantage within models or any automated decisions.
데이터 과학자는 성별, 인종, 종교, 결혼유무, 종교, 신념, 장애 또는 나이에 따른 차별을 하지 않을 의무가 있다. 특히, 그런 속성이 모델이나 자동화된 의사결정에서 어떤 불이익이 발생하도록 해서는 안 된다.

Competence (능력)

2a. Duty of Competence Development (능력 개발 의무)
The Data Scientist will always strive to improve his/her competence and technical excellence. For example Data Scientists should be encouraged to attend topical presentations, seminars and courses covering new advances.
데이터 과학자는 언제나 자신의 능력과 기술적 우수함으로 개선하도록 노력한다. 예를 들어, 데이터 과학자는 이 분야의 새로운 발전을 설명하는 발표회, 세미나 그리고 강의에 참석하도록 한다.

2b. Competence communication transparency (능력 소통의 투명성)
The Data Scientist should not misrepresent his/her past experiences, past achievements, domain authority, or educational qualifications.
데이터 과학자는 그의 과거 경험, 과거 업적, 도메인 권위, 또는 교육 학위 등을 잘못 표현하면 안 된다.

Dealing with Data (데이터 처리)

3a. Activity documentation: the personal lab book (활동 문서화: 개인 랩북)
The Data Scientist will always keep a personal auditable, time based, record of his/her work in the form of a “lab book” equivalent, incorporating all data addressed/analyzed and all of their analytical activities. This should include statements of the source and provenance of all data accessed and analyzed, the methods actually employed, all discoveries and other knowhow generated, any limitations of scope and findings, and suggested potential further investigations or applications. Such a lab-book is the property of the Data Scientist’s employer.
데이터 과학자는 처리하고 분석하는 모든 데이터와 분석 활동의 모든 것을 시간 단위로 회고할 수 있는 랩북 형태의 기록을 항상 소지해야 한다. 처리하고 분석하는 모든 데이터의 출처와 기원, 모든 발견과 생성된 노하우, 발견한 것의 한계점, 향후 조사나 활용을 위한 가능한 제안 등을 포함한다. 이런 랩북은 데이터 과학자의 고용주의 자산이다.

3b. The Modeling Project Issues Log-Book (모델링 프로젝트의 이슈 로그북)
Models, applications, and projects should have an internal log-book summarizing all relevant modelling issues arising during the course of their development. The Data Scientist will document any and all known data issues that might caveat the results obtained, the performance of models/algorithms, and future possible applications of the output models/algorithms (for example, known selection bias, the scale of data, the repurposing of existing data, and so on) in a format that can be easily made available to colleagues, managers and decision makers. Such a log-book is the property of the Data Scientist’s employer.
모델, 애플리케이션, 프로젝트는 개발 전과정에서 발생하는 관련된 모든 모델링 이슈를 정리하는 내부 로그북을 갖는다. 데이터 과학자는 결과, 모델과 알고리즘의 성능, 결과 모델/알고리즘의 가능한 모든 애플리케이션에 영향을 주는 어떤 그리고 모든 알려진 데이터 이슈 (예를 들어, 알려진 선택 바이어스, 데이터 스케일, 현존 데이터의 다른 용도 등)를 모든 동료와 관리자, 의사결정자들이 쉽게 열람할 수 있는 형태로 기록한다. 그런 로그북은 데이터 과학자의 고용주의 자산이다.

Log books should include the following issues where arising:
로그북은 다음의 이슈를 포함한다.

3b(i). Accuracy importance depending on the nature of the problem (문제의 본성에 따른 정확도 중요도)
The Data Scientist is accountable for selecting the best accuracy measure possible depending on the nature of the problem, as well as proactively assessing the validity of the model. Options, accuracy measures, and choices should be documented.
데이터 과학자는 모델의 유효성을 적극적으로 평가할 뿐만 아니라 문제의 본성에 따라서 가능한 가장 정확한 평가지표를 선택할 책임이 있다.

3b(ii). Protocol and documentation (프로토콜과 문서화)
The Data Scientist shall document according to a standard template each and every step along the data science value chain. This shall include the elicitation of all data sources and the usage and justification of all relevant data sources, the procedures used to combine data sources and all the steps in the data transformation pipeline.  This will also include the model selection, any procedures to tune the hyper-parameters, the employed procedure to test the model and the results, and finally the strategy to industrialize the model.
데이터 과학자는 데이터 사이언스 밸류 체인의 각 그리고 모든 단계의 표준 템플릿에 따라서 문서화한다.  모든 데이터 출처 뽑아내기, 관련된 모든 데이터 출처의 용법과 정당화, 데이터 변형 파이프라인의 각 단계에 데이터 출처를 결합하는 과정 등을 포함한다. 또한 모델 선택, 하이퍼-파라메터 튜닝 과정, 모델과 결과를 실험하는 과정, 그리고 최종적으로 모델을 산업화하는 전략도 포함한다.

3b(iii). Data adequacy evaluation (데이터 타당성 평가)
The Data Scientist is responsible for assessing the adequacy of data to solve the particular problem and to share the results of the analysis, indicating and risks or potential implications due to lack of data quality or availability.
데이터 과학자는 특정 문제를 해결하고 분석 결과, 데이터 품질 및 가용성 부족에 따른 위험과 잠재력을 공유하기 위해서 데이터 타당성을 측정할 책임이 있다.

3b(iv). Artificial data handling (가공 데이터 처리)
The Data Scientist is responsible for communicating all the procedures employed to make the original data more adequate for the specific problem, especially techniques intended to correct gaps in the data, to balance classification problems, e.g.  Interpolation, extrapolation, oversampling and under-sampling. As far as possible, these procedures should be peer-reviewed.
데이터 과학자는 원본 데이터를 특정 문제에 더 적합하도록 만드는 모든 과정에 소통할 책임이 있다. 특히 데이터 내의 간극을 보정하고 클래시피케이션 문제의 밸런싱하는 내삽/외삽, 오버-/언더-샘플링 등의 테크닉을 포함한다. 가능하면 이런 과정은 동료의 리뷰를 받는다.

3b(v). Responsible data selection (책임있는 데이터 선택)
The Data Scientist shall never cherry pick data or a model to back a particular statement, insight or outcome. Moreover, a data scientist shall always analyze the input data in order to assess it for any indicators of previous bias of this nature.
데이터 과학자는 특정 진술, 인사이트 또는 결과물을 뒷받치하는 데이터나 모델을 체리피킹하지 않는다. 더욱이, 데이터 과학자는 인풋 데이터의 이전 바이어스를 확인하기 위해서 항상 입력 데이터를 분석한다.

3b(vi). Inherent data bias (내재된 데이터 편향)
The Data Scientist is supposed to analyze and document potential bias present in the data and assess how this bias might affect the results and the usage of the models.
데이터 과학자는 데이터에 존재하는 가능한 바이어스를 분석하고 문서화해서 이 바이어스가 결과와 모델을 사용하는데 어떤 영향을 주는지 검토해야 한다.

3b(vii). Surrogate feature and bias (대용 피쳐와 바이어스)
The Data Scientist is responsible for detecting and flagging features that might be surrogate to other features that violate fundamental equality rights (gender, race, religion, etc). In general proxy features need to always be checked against social discriminating features. (See also 1c. Equality legislation)
데이터 과학자는 원천적인 평등권 (성별, 인종, 종교 등)을 침해하는 피쳐들을 대리하는 피쳐를 확인하고 표시할 책임이 있다. 일반적으로 프록시 (대리) 피쳐는 사회적 차별 피쳐인지를 항상 체크할 필요가 있다.

3c. Original data preservation (원본 데이터 보존)
The Data Scientist shall retain copies of the original data unaltered while keeping a record describing the set of transformations made across all of the data value chain (including ingestion, cleansing, feature extraction, scaling / normalization, feature selection, etc).
데이터 과학자는 데이터 밸류 체인 (획득, 클린징, 피쳐 추출, 스케일링과 표준화, 피쳐선택 등) 전 과정에서 만들어지는 모든 편형을 묘사하는 기록을 남김과 동시에 변형되지 않은 원본 데이터의 복사본을 보관해야 한다.

3d. Collection vs use of data (수집과 데이터 사용)
The Data Scientists need to understand the trade-off between gathering and collecting all potential data and focusing on just the data that is likely to be used to solve a particular problem. It is expected that Data Scientist’s  data gathering requests are appropriate to the problem being addressed, neither exaggerated or lacking. In any case, a Data Scientist should document the reason that a particular data set needs to be gathered.
데이터 과학자는 모든 잠재 데이터를 모으는 것과 특정 문제를 해결하는데 효과적인 데이터에 집중하는 것 사이의 트레이드오프를 이해할 필요가 있다. 데이터 과학자의 데이터 수집 요청은 해결할 문제에 과하거나 부족하지 않게 적당함이 바람직하다. 어떤 경우에는 특정 데이트 세트가 수집돼야하는 이유를 문서화한다.

3e. De-Identification (비식별화)
The Data Scientist shall not apply any technique (combination, enriching, etc) to turn information that has been designed to be “de-identifiable” into “identifiable” again.
데이터 과학자는 비식별 데이터를 다시 식별 데이터로 변환하는 어떤 기술 (결합, 농축 등)도 적용하면 안 된다.

3f. Probabilistic (inferred) information and GDPR (확률 정보와 일반 데이터 보호 규제)
The Data Scientist is often able to generate more or less accurately inferred information about a person (e.g. gained over statistical similarities with other people) and will treat this information in the same way personal data subject to GDPR and ascribing the newly inferred information a score indicating how reliable it is. Moreover, algorithmic inferred information about a person shall be given the same treatment as factual information (expected under compliance with GDPR)
데이터 과학자는 사람에 대한 (다른 사람과의 확률적 유사성으로 확보된) 추정 정보를 어느 정도 정확하게 생성할 때가 종종 있고 이런 추정 정보는 GDPR에 따른 개인 데이터와 같은 방식으로 취급하고 새로 추정한 정보의 신뢰 점수를 부여한다. (<— 원문 확인) 더욱이 알고리즘으로 추정된 개인에 관한 정보는 GDPR에 준하는 수준에서 사실 데이터로 동일하게 취급한다.

Algorithms and models (알고리즘과 모델)

4a. Exhaustive algorithms: Data dredging, Data fishing, Data snooping, p-hacking (포괄적 알고리즘: 데이터 드렛징, 데이터 피싱, 데이터 스누핑, p-해킹)
The Data Scientist is responsible for separating correlations that are the results of chance or deliberate data-mining driven searches vs. well established hypothesis-driven correlated information. Where exhaustive methods have been used to locate anomalies etc these results should be clearly declared as such, and not represented as a consequence of specific hypothesis-driven analyses, without further statistical tests.
데이터 과학자는 우연 또는 고의적인 데이터 마이닝 기반의 탐색과 잘 정립된 가설 기반의 연관 정보의 결과로 만들어진 연관성을 분리할 책임이 있다. Exhaustive 방법으로 발견한 이상/결과는 이런 방식을 사용했음을, 즉 추가 통계 테스트 없이 특정 가설 기반의 분석에 의한 것이 아님을 명확히 선언해야 한다.

4b. Sampling bias (샘플링 바이어스)
A Data Scientist shall sample the data in a way the sample is as representative as possible of the population under analysis. Insights coming from the data shall be inspected for sampling bias before being made available for any decision.
데이터 과학자는 분석의 모집단을 가능한 표현할 수 있도록 샘플링한다. 데이터부터 찾은 인사이트는 결정을 내리기 전에 샘플링 바이어스를 점검해야 한다.

4c. Survivorship bias (생존 바이어스)
The Data Scientist is responsible for questioning the data before creating any model and understanding the reasons why a particular data set have passed certain filtering criteria without overlooking those data items that didn’t.
데이터 과학자는 모델을 만들기 전에 데이터에 의문을 품고 부적절 데이터를 간과하지 않고 데이터 세트가 특정 필터링 조건을 어떻게 통과했는지 이유를 이해할 책임이 있다.

4d. Discarding unfavorable data (불리한 데이터 폐기)
The Data Scientist is accountable for the consequences of discarding data that is not showing the desired outcome for the company he/she works for.
데이터 과학자는 회사에서 바라는 결과가 보이지 않은 데이터를 폐기하는 전 과정에 책임이 있다.

4e. Causality and correlation (인과성와 상관성)
The Data Scientist is responsible for clearly separating causality from correlation and explaining the consequences of wrongly establishing a causal relationship between two variables that are just correlated.
데이터 과학자는 상관성에서 인과성을 명확히 구분하고 단지 상관관계의 두 변수 간의 잘못 확립된 인과관계의 결과를 설명할 책임이 있다.

4f. Crisp geolocation analysis and Gerrymandering (크리스피 지역 분석과 게리만더링)
A data scientist shall be aware of the impact of changing geographical aggregation units. A particular case is so called “Gerrymandering”, consisting of selecting different geographical units to influence the results of elections.
데이터 과학자는 지역 집계 단위를 변경하는 영향을 인지해야 한다. 선거결과에 영향을 주는 다른 지역 단위를 선택하는 게리만더링이 대표적이다.

4g. Big picture beyond accuracy metrics (정확도 지표 너머의 큰 그림)
The Data Scientist is expected to understand the big picture beyond metrics, which includes the business context, the way the model is going to be used, etc. Providing the MAE or the AUC value is not enough, yet many data scientists think their job ends there.
데이터 과학자는 지표 이상의 큰 그림 — 비즈니스 컨텍스트나 모델이 이용되는 방식 등 — 을 이해할 필요가 있다. 많은 데이터 과학자들이 자신의 역할이 끝났다라고 생각하는 MAE나 AUC 값을 제공하는 것만으론 불충분하다.

4h. Data Science and Publication bias (데이터 과학과 출판 바이어스)
When the Data Scientist presents research evidence to substantiate any particular insights, this evidence is expected to be checked for publication bias.
데이터 과학자가 특정 인사이트를 확증하는 연구결과를 발표할 때, 그 증거는 출판 바이어스를 체크해야 한다.

4i. Accuracy vs. Explainability trade-off (정확도와 설명가능성 트레이드오프)
The Data Scientist needs to make the right call, depending on the particular problem, between accuracy and explainability. There are situations where explainability should prevail over accuracy. Conversely, there are times when explainability is not a must have. It is expected a professional decision based on the predicted use of the model.
데이터 과학자는 특정 문제에 따라서 정확도와 설명 사이의 명확한 입장을 취할 필요가 있다. 정확보도다 설명력이 필요한 경우가 있다. 역으로 설명이 꼭 필요치 않은 경우도 있다. 모델의 예상 사용에 기반해서 전문적인 결정이 필요하다.

4j. Mandatory documentation of accuracy and precision and fit-for-purposeness (정확, 정밀, 목적부합의 필수 문서화)
The Data Scientist shall be able to explain how reliable the model is, providing an educated, fit-for-purpose, judgement depending on the application scenario.
데이터 과학자는 애플리케이션 시나리오에 따라서 목적 부합과 의사결정을 위해서 모델의 신뢰도를 설명할 수 있어야 한다.

4k. Pre-trained models re-usability (기존 학습 모델의 재사용)
More and more data scientists consider using a third party pre-trained model (e.g.: pre-trained word embeddings – such as word2vec, Glove or fastText- or pre-trained object recognition/image classifier CNNs -Oxford VGG16, YOLO, etc-).  The Data Scientist is responsible for auditing model against all the clauses of this code of conduct.
많은 데이터 과학자들이 외부에서 학습/제공하는 모델을 사용할 것을 고려한다. (예, word2vec이나 Glove, fastText 같은 기학습된 워드임베딩, CNNs-Oxford VGG16, YOLO 등의 기학습된 객체인식 및 이미지 클래시파이어 등) 데이터 과학자는 모든 윤리강령에 맞는지 학습모델을 검증할 책임이 있다.

4l. AI Reproducibility (AI 재현성)
The Data Scientist shall be responsible to ensure reproducibility in situations where understanding the overall behavior of the system is critical.
데이터 과학자가 생성한 대부분의 모델은 확률적인 요소, 즉 같은 학습 데이터를 사용하면 같은 모델이 만들어진다는 보장이 없다. 더욱이 재현을 위해 시드를 고정하는 것은 모델 병열화를 위협한다. 데이터 과학자는 시스템의 전반적 행위를 이해하는 것이 중요한 상황에서 재현성을 보장할 책임이 있다.

4m. Cold-Start Bias (콜드스타트 바이어스)
A common source of bias is the cold start phase, where no data is available but the system needs to function according to a set of predefined data. The Data Scientist is responsible for pinpointing the potential limitations of any intelligent system in a ramp-up phase and how the existence of abundant data will change the output of the system.
데이터가 존재하지 않지만 시스템은 미리 지정된 데이터에 따라서 기능해야하는 콜드스타트 단계는 공통된 바이어스 출처다. 데이터 과학자는 지능 시스템을 적극 활용하는 단계에서 잠재적 제약사항과 데이터 과잉이 시스템의 결과를 변경할 수 있음을 정확히 지적할 책임이 있다.

4n. Prejudices and attempt against fundamental rights (편견과 기본권의 도전)
Data scientists shall not create inferred evidence that violates fundamental principles, such as presumption of innocence, etc.
데이터 과학자는 무죄추정의 원칙과 같은 기본 원리를 어기는 추정된 증거를 만들면 안 된다.

Transparency Objectivity and Truth (투명성, 객관성, 진실)

5a. Transparency as a duty (투명성 의무)
The Data Scientist will strive for transparency within as wide a forum as allowable by legal and proprietary constraints. The data scientist will not withhold concerns or potential limitations form colleagues and managers.
데이터 과학자는 범과 소유 조건이 허락하는 한 넓은 범위에서 투명성을 확보해야 한다. 데이터 과학자는 동료와 관리자의 우려와 잠재 제약을 억제하지 않는다.

5b. Provable objective results (입증가능한 객관적 결과)
The Data Scientist will make only objective assessments within any lay summaries of results and performance and recommendations of technical methods.
데이터 과학자는 결과, 성능, 기술적 방법 추천에서 오직 객관적인 평가만 한다.

5c. Clear results communication (명확한 결과 커뮤니케이션)
The Data Scientist will not overclaim nor present any misleading statements regarding the performance and efficacy in a summary or when stating objective facts.
데이터 과학자는 결과 정리나 객관적 사실 적시에서 성능과 효능을 과하게 주장하거나 잘못된 표현을 적시하지 않는다.

5d. Transparency on quality of the results (결과 품질의 투명성)
The Data Scientist shall provide a standardized framework to demonstrate how good the resulting model is, applying industry-wide best practices (train, test and validating data sets, etc) and keeping training, test and validation data sets for proof. If required, the seed used to train the system shall also be kept to allow for reproducibility.
데이터 과학자는 결과 모델의 우수성을 설명하고, 학습/테스트/밸리데이션 데이터세트와 같이 산업 전체의 베스트 관행을 적용하고, 학습/테스트/밸리데이션 데이터세트를 분리하는 등의 표준화된 프레임워크를 제공한다. 필요하다면 시스템을 학습하는데 사용된 시드 데이터를 재현성을 위해서 또한 유지한다.

5e. Expectations alignment (기대 정열)
The Data Scientist has a professional duty to correct any misunderstandings or unfounded expectations of colleagues, managers or decision makers who may rely on his/her work.
데이터 과학자는 업무 결과에 영향받을 동료, 경영자, 그리고 의사결정자의 오해와 잘못된 기대를 바로 잡아줄 전문 의무가 있다.

Communication about dependency on data (데이터 의존도에 관한 커뮤니케이션)
The Data Scientist shall make very explicit the consequences of using an algorithm in a production environment in the event that particular data is not available.
데이터 과학자는 프로덕션 환경에서 특정 데이터가 가용하지 않더라도 알고리즘을 사용하는 것을 명확히 한다.

5g. Liability in case of failure of the Data Scientist’s model (데이터 과학자의 모델 실패에 따른 책무)
The Data Scientist shall behave as if she/he would be liable for the accuracy and usage of her/his model. Moreover, a data scientist shall write a Terms and conditions for her/his work.
데이터 과학자는 모델의 정확도와 사용에 책무가 있는 것처럼 행동한다. 더욱이, 데이터 과학자는 업무의 조항과 조건을 기록한다.

5h. Creation of a manipulative evidence (조작 증거의 생성)
The Data Scientist shall not make use of any technique to create or assist in the creation of manipulative evidence (e.g.: psychometrics, social network analysis, etc)
데이터 과학자는 정신측정, 소셜미디어 분석 등의 조작 증거를 생성하거나 동조하는 어떤 테크닉도 사용하지 않는다.

Working alone and with others (혼자 또는 같이 일하기)

6a. Collegiability (평등성)
The Data Scientist will always act in a collegiate manner with colleagues. This includes disclosing any facts, assessments, or insights that may be relevant to colleagues’ own data science work.
데이터 과학자는 동료와 항상 평등하게 행동한다. 동료의 데이터 사이언스 작업에 연관된 사실, 평가 및 인사이트만 밝힌다.

6b. Duty to speak up (강력 변호 의무)
The Data Scientist has a professional duty to raise concerns over any potential breaches to this code by him/herself or by others to relevant authorities and management, usually the line manager of any person possibly involved in a breach.
데이터 과학자는 자기 자신이나 관련된 권위자와 경영진 의해서 이 윤리강령을 잠재적으로 위반하는 것에 대한 우려를 이 위반에 관련된 사람의 관리 라인에 있는 이들에게 제기할 전문적 의무가 있다.

6c. Code Awareness and adherence (강령 이해와 견지)
A data scientist shall be aware of this code of conduct and apply it in each and every situation where data is involved.
데이터 과학자는 이 행동강령을 인지하고 데이터가 관련된 모든 상황에 적용한다.

6d. Team code acquaintance and deviating behaviors (팀의 이해와 일탈 행위)
A data scientist shall make sure that all colleagues in the working environment are acquainted with the code and flag behaviors that deviate from the clauses of this code
데이터 과학자는 함께 일하는 모든 동료가 이 행동강령에 친숙하고 행동강령의 조건을 어기는 행위를 금하는 것을 확실히 해야 한다.

(extra) Upcoming ethical challenges (다가오는 윤리적 도전들)

7a. Adversarial Learning Manipulation (적대적 학습 조작)
Data scientists shall not purposely employ techniques such as targeted and non-targeted adversarial attacks to manipulate the result of existing models. Moreover, it is expected that Data Scientists perform adversarial training.
데이터 과학자는 현재 모델의 결과를 조작하는 의도적이든 무작위든 적대적 행위를 하는 기술을 의도적으로 사용하지 않는다. 더욱이 데이터 과학자는 대릭적인 학습을 수행한다.

7b. Responsibility on inventions (창작에 대한 책임)
The data scientist is expected to make a professional judgement about the usage of their inventions and to gauge the benefit vs. the risk. In any case, inventions with potential to be harming, shall be protected and secured so that only beneficial usages are possible.
데이터 과학자는 그들의 발명품을 사용하는데 대한 전문적 판단을 내리고 이득과 위험을 측정한다. 어떤 경우, 잠재적으로 해를 끼치는 발명품은 가능한 이로운 쪽으로 사용되도록 보호받고 제한된다.

7c. Explainable AI a research field and a duty (설명가능한 AI 연구와 의무)
The Data Scientist shall be able to explain how their algorithms work and how they come up with their predictions / outputs  (this is especially challenging in the deep learning area).
데이터 과학자는 알고리즘이 어떻게 동작하고 예측과 결과를 어떻게 만드는지를 설명할 수 있어야 한다. 특히 딥러닝 분야에서 도전적인 과제다.

7d. Blockchain and personal data (블록체인과 개인 데이터)
The Data Scientist shall be aware of the implications of new decentralized data storage technologies where critical privacy protecting operations (such as physical record deletion), are not directly supported.
데이터 과학자는 물리적 기록 삭제와 같은 중대한 프라이버시 보호행위가 바로 지원되지 않는 새로운 분산 데이터 저장 기술의 영향을 인지해야 한다.


반응형