Uploaded by 백승환

산업체를 위한 QSAR 자료 제출 안내서, 2021

advertisement
목
차
제1장 화평법과 QSAR 자료
1. QSAR 자료 제출
······································································································· 1
2. 위해성자료 작성 등 활용
························································································· 2
제2장 국제적으로 인정된 모델
1. 규제목적 모델의 원칙
······························································································· 4
2. QSAR 결과의 규제목적 사용 원칙
3. 결과의 신뢰도와 적합도
········································································ 4
··························································································· 8
제3장 자료제출 형식 및 내용
1. 개요
······························································································································ 11
2. 모델정보 보고서식(QMRF)
······················································································· 11
3. 예측결과 보고서식(QPRF)
························································································ 19
제4장 모델을 활용한 예측 및 결과의 보고자료 작성 예
1. QSAR Toolbox를 활용한 이분해성 예측 결과
··················································· 24
2. VEGA-QSAR를 활용한 Ames 복귀돌연변이 예측 결과
제5장 제한점 및 주의사항
제6장 참고문헌
··································· 33
································································································ 40
··················································································································· 42
[부록]
1. QMRF 예
···················································································································· 45
2. QPRF 예
····················································································································· 52
3. 외국의 QMRF, QPRF 예(영문)
··············································································· 57
4. 독성 항목별 활용 가능한 (Q)SAR 모델 ·································································· 83
산업체를 위한 QSAR 자료 제출 안내서
제1장
1.
화평법과 QSAR 자료
QSAR 자료 제출
화학물질 등록 및 평가 등에 관한 법률(이하 '화평법') 제14조 및 시행령
13조 제3호에 따라 다음에 해당되는 시험자료의 경우 구조활성관계 예측프로
그램 모델(Qualitative or Quantitative Structure Activity Relationship
models, 이하 'QSAR')을 통해 얻은 결과를 대신 제출할 수 있다(시행규칙
별표l의 제l호 및 제2호에 해당되는 시험자료).
< 표 1 > QSAR결과를 시험자료에 대체하여 제출할 수 있는 항목
분야
시험항목
1) 물질의 상태
2) 물용해도
3) 녹는점/어는점
가. 물리적∙화학적 특성에 관한
시험자료
4) 끓는점
5) 증기압
6) 옥탄올/물 분배계수
7) 밀도
8) 입도분석
1) 급성경구독성. 다만, 물리적·화학적
특성이나 용도상으로 주된 노출경로가
나. 인체 유해성에 관한 시험자료
흡입으로 판단되는 경우 급성흡입독성
2) 복귀돌연변이
3) 피부 자극성/부식성
4) 피부 과민성
1) 어류급성독성
다. 환경 유해성에 관한 시험자료
2) 이분해성
3) 물벼룩급성독성
※
비고: 복귀돌연변이에 관한 시험결과가 양성인 경우에는 포유류 배양세포를
이용한 염색체이상 및 시험동물을 이용한 유전독성 시험자료를 추가로 제출
- 1 -
산업체를 위한 QSAR 자료 제출 안내서
화평법 시행령 제13조 제3호에 따르면 QSAR 결과를 제출할 수 있는
경우는 제조·수입량이 연간 10톤 미만인 화학물질로 한정하고 있다(<표 1> 참
고). 여기에서 QSAR결과를 제출할 수 있는 시험자료는 제조·수입량이 10톤
미만인 경우에 요구하는 자료가 아니라 제조·수입량이 10톤 미만인 등록물질
에 대해 요구하는 자료라는데 유의할 필요가 있다. 즉, 제조·수입량이 10톤을
초과하는
경우에는
급성경구독성이나
어류급성독성
시험자료를
대신하여
QSAR 자료를 제출할 수 없다는 의미이다. 일반적으로 QSAR은 물리화학적
성질, 인체 및 생태독성, 환경거동 특성을 예측하는 목적으로 사용되고 있으므로
<표 1>에 제시된 항목은 일반적으로 프로그램이 적용되는 항목이라 할 수 있다.
참고로 시행령 제13조 제5호 "구조와 물리화학적 특성이 유사한 화학물질
로부터 얻어진 결과를 통하여 사람의 건강이나 환경에 대한 유해성을 판단할
수 있는 화학물질" 의 경우에도 시험자료 제출을 생략할 수 있는데, 이 경우는
제조·수입량이나 제출항목(사람의 건강과 환경에 대한 유해성)과 관련이 없는
매우 포괄적 규정이라 할 수 있다. 제3호의 경우 '국제적으로 인정된 QSAR
결과'를 제출하면 시험자료를 제출하지 않을 수 있는 반면, 제5호의 경우 대신
하는 자료로부터 사람의 건강이나 환경에 대한 유해성을 판단할 수 있으면 관
련 시험자료를 생략할 수 있다는 의미다. 따라서 제5호의 규정에 따라서 제출
자료를 생략하려면 '구조와 물리화학적 특성이 충분히 유사하다', '그 결과가
충분히 신뢰할 만하다' 그리고 '사람의 건강이나 환경에 대한 유해성을 판단할
만하다'라는 것 등을 과학적으로 보여주는 전문적 판단자료를 작성하여 함께
제출하여야
할
것이다.
QSAR
자료
활용과
관련하여
통합적
시험전략
(integrated testing strategy) 마련, 구조 및 대사체 유사성(structural and
metabolic similarity)을 입증하는 증거 등이 큰 범위로 이와 같은 예라고 할
수 있다.
2.
위해성자료 작성 등 활용
QSAR 자료는 제조·수입량이 10톤 미만이기 때문에 시험자료를 대신하여
제출하는 경우 이외에도 화평법 등록 목적상 다양하게 활용할 수 있다. 앞서
설명한 바와 같이 시행령 제13조 제5호에 따른 시험자료 생략을 위한 간접 입
증자료로 활용하거나, 예방을 목적으로 시험자료가 없는 항목에 대해서 예측을
- 2 -
산업체를 위한 QSAR 자료 제출 안내서
통한 분류표시 결정에도 이용할 수가 있을 것이다.
화평법 제14조 제l항 제7호 등의 규정에 따라서 제조·수입량이 10톤 이
상인 경우 위해성에 관한 자료를 작성, 제출하여야 한다. 이와 관련한 위해성
자료의 작성에 대해서는 시행규칙 별표2(제5조 제l항 제2호 관련), 등록신청자
료의 작성방법 및 유해성심사방법 등에 관한 규정(과학원고시 제2019-2호 제7
조
내지
제12조),
관련
지침서
(NIER-GP2016-163,
'17.7)와
사례집
(NIER-GP2016-164 및 165, '17.8) 등을 통해 규정과 필요한 기술적 사항을
소개한 바 있다.
위해성에 관한 자료는 많은 시험자료와 다양한 항목에 대한 시험자료가
있을수록 결과에 대한 불확실성을 줄일 수 있을 것이다. 예를 들어 제조·수입
량이 비교적 적거나(예, 연간 제조·수입량이 100톤 미만임에도 위해성자료를
제출하여야 하는 경우), 제출항목은 많으나 시험계획서를 제출하게 되어 실제로
는 자료작성에 참고할 만한 정보가 적은 경우(제조·수입량이 100톤 또는
1,000톤을 초과하여 등록 당시에는 시험계획서를 제출하면서 위해성자료를 작
성해야 하는 경우)는 위해성자료를 작성하기 곤란한 경우가 있을 것이다. 이때
는 QSAR자료 등을 활용하여 위해성자료 작성에 필요한 정보를 확보한다면 유
해성평가, 용량반응평가나 안전성 확인에 활용할 수 있을 것이다. 물론 이러한
사항이 강제 규정은 아니지만 정보가 극히 제한된 경우에는 위해성자료 작성
자체가 어렵거나, 불확실성이 너무 커서 의미가 적을 수 있으므로 다양한
QSAR결과를 활용하는 것이 큰 도움이 될 수 있을 것이다.
등록 시 유해성 자료를 생략하는 경우에도 화평법에서는 유해성심사를
하고, 그 결과를 등록자에게 통지하며 유해성 정보를 고시하고 공개하도록 규
정하고 있다. 이에 따라서 국립환경과학원은 QSAR 프로그램을 적용할 수 있
는 등록물질에 대해서 인체나 환경에 대한 유해성을 예측하여 유해성심사를
하거나 예측결과를 참고하여 시행규칙 제25조에 따라서 시험자료 제출명령 등
을 하고 있다.
- 3 -
산업체를 위한 QSAR 자료 제출 안내서
제2장
1.
국제적으로 인정된 모델
규제목적 모델의 원칙
등록평가에 필요한 시험자료의 경우 국제적인 시험지침(예, OECD Test
Guideline)과 우수실험실운영 (GLP, Good Laboratory Practice) 규정을 준
수하여 생산된 경우 국제적으로 규제목적의 근거자료로 인정이 될 수 있다. 즉
특정자료에 대해서 인정하는 것이 아니라 국제적으로 시험자료의 신뢰성과 적
합성에 대한 큰 원칙에 맞으면 인정하는 방식이다. 화평법에서 QSAR 자료의
경우도 특정 QSAR 프로그램은 인정이 되고, 다른 것은 인정되지 않는 것이
아니라 기본적인 원칙을 만족하는 것으로 개발된 프로그램으로서 등록자가 충
분한 지식을 활용하여 얻는 결과인 경우라면 시험자료를 대신하여 등록자료로
제출할 수 있다.
QSAR 결과의 규제목적 활용에 대한 일반적 원칙은 4개로 기술된다,
1)
그 결과가 과학적 유효성 (scientific validity)이 확립된 모델로부터 예측된 것
이어야 하며, 2) 예측대상이 되는 화학물질이 적용한 QSAR의 적용범위
(applicability domain) 이내에 있어야 하며, 3) 해당 결과가 분류표시, 위해
성평가 등에 적절(adequate)해야 하고, 4) 적용한 방법에 대한 적절하고 신뢰성
있는 문서정보(documentation)가 제공되어야 한다는 것으로 요약할 수 있다.
2.
QSAR 결과의 규제목적 사용 원칙
1) 과학적 유효성이 확립된 모델
QSAR 결과가 실험 데이터를 대체할 수 있고 또한 화학물질 법적 규제
목적의 평가에 이용되기 위해서는 그 타당성에 대한 검증이 필요하다. 화학물
질의 유해성 및 위해성 평가관점에서 QSAR 모델 검증을 조화롭게 하기 위한
첫 단계로 국제화학산업협회 (ICCA)와 유럽화학산업협회 (CEFIC)에서 주관하
여 2002년 3월 포르투갈에서 개최된 "인체 건강 및 환경 평가항목을 위한
QSAR의 법적적용" 에 대한 워크숍에서 QSAR의 타당성 평가에 대한 6가지
원칙이 제안됐다. 그 후, OECD는 QSAR에 대한 타당성 검증을 위한 5가지
- 4 -
산업체를 위한 QSAR 자료 제출 안내서
원칙을 정하였다. 즉, 규제목적을 위한 과학적으로 검증된 QSAR 모델은 다음
의 요건을 충족시켜야 한다.
①
정의된 평가항목(a defined endpoint)을 갖는다.
②
명확한 알고리즘(an unambiguous algorithm)으로 기술된다.
③
정의된 적용 영역 (a defined domain of applicability)을 갖는다.
④
충분한 통계학적 특성 (statistical characteristics)으로 기술된다.
⑤
가능하다면 메커니즘적 해석 (a mechanistic interpretation, if
possible)을 갖는다.
원칙 ①의 의미는 QSAR 모델은 정의된 평가항목과 관련되어야 한다는
것이다. 물리화학적 특성, 인체건강 또는 생태학적 독성 환경거동 매개변수의
평가항목들은 측정될 수 있으며 모델링 될 수 있다. 주어진 평가항목은 다양한
실험 프로토콜 및 다양한 실험조건에 따라 결정될 수 있으므로 이 원칙의 목
적은 주어진 모델에 의해 예측되는 평가항목의 투명성을 보장하는 것이다.
원칙 ②는 QSAR 모델은 명확한 알고리즘 형태로 표현되어야 한다는 것
이다. 이 원칙의 목적은 모델 알고리즘을 기술하는데 있어서 투명성을 보장하
는데 있다.
원칙 ③은 QSAR 모델은 정의된 적용 가능한 영역에 관련되어야 한다는
것이다. 적용가능 영역이란 화학구조, 물리화학적 특성 및 작용메커니즘 유형
에 의해 QSAR 모델이 적용될 수 있는 한계범위를 나타내는 것이다.
원칙
④는
QSAR
모델은
적합도(goodness
of
fitness),
견고성
(robustness), 예측도(predictability)를 적절히 측정할 수 있어야 한다는 것이
다. 이 원칙은 다음 두 가지 정보를 요구한다.
-
훈련셋트(training set)를 이용하여 결정되는 모델의 내적 성능으로
서 적합도 및 견고성으로 나타냄
-
적합한 테스트 세트(test set)를 이용하여 결정되는 모델의 예측도
- 5 -
산업체를 위한 QSAR 자료 제출 안내서
원칙 ⑤는 QSAR은 가능하다면 메커니즘적인 해석이 가능해야 한다는 것
이다. QSAR에 대한 해석이 항상 가능하지 않으므로 OECD 전문가 그룹이 이
원칙에 가능한 경우라는 표현을 덧붙인 것이다. 따라서 이 원칙의 목적은 모델
에 사용하는 기술자(descriptor)와 예측되는 평가항목 간 메커니즘적 관련성에
대한 해석을 하고 이를 문서화하도록 하는데 있다. 메커니즘적인 해석이 가능
한 경우, 원칙 ① ~ ④를 기반으로 기확립된 모델의 신뢰도를 더욱 높일 수
있다.
여기서 중요한 것은 어느 국가나 기관에서도 QSAR에 대한 공식적 채택
과정은 없으며, 규제기관에서의 그 수용여부는 사례별로 결정된다는 것이다.
2) 적용범위 이내에서의 예측
시험자료를 대체하여 QSAR 결과를 제출하려고 하는 등록대상 화학물질
이 특정 QSAR의 적용범위에 들어있어야 한다는 것이다.
QSAR 적용범위와 관련하여 다양한 예시가 있지만, ① 우선 화학적 범위
(chemical domain)로 구조(기능기나 기능기의 배열)나 물리화학적 성질이 같
은
범위에
있는지,
②
생물학적/독성학적
범위(biological/toxicological
domain , mechanistic domain)로 동일한 작용기작을 갖거나 동일한 활성영
역을 갖는지, ③ 대사범위(metabolic domain)로 생체 내 전환이나 대사형태
가 동일한지 여부 등을 검토하여야 한다.
3) 얻어진 결과의 적합성
규제목적으로의 QSAR 적절성은 주어진 화학물질에 대한 모델의 유효성
(validity)과 적용성(applicability), 그리고 규제목적에 대한 모델의 관련성
(relevance)에 관한 것이다. 유효성과 적용성은 QSAR의 신뢰성(reliability)을
결정한다. 이에 대한 사항은 3절에서 추가로 설명한다.
QSAR 결과가 시험목적에 대해 관련성(relevance)과 신뢰성(reliability)
을 가지고 적합한 결과로 문서화되는 경우, QSAR 결과 자체를 규제 목적으로
이용할 수 있다. 실제로 QSAR 결과에는 일부 측면에서 불확실성이 존재할 수
- 6 -
산업체를 위한 QSAR 자료 제출 안내서
있다. 그러나 정보가중치(weight of evidence) 접근법에서 이러한 이유로
QSAR 결과를 배제하지는 않으며, QSAR에 관한 정보가 부족해서 발생한 불
확실성은 추가정보를 통해 보완할 수 있다.
일반적으로 QSAR은 다음과 같은 영역에 적용될 수 있다.
◦ 우선순위 결정 절차에 이용할 정보 제공
◦ 실험 또는 시험 전략에 관한 실험 설계 안내
◦ 기존 시험 데이터의 평가 개선
◦ 메커니즘적 정보 제공(예: 화학물질을 범주로 그룹핑하는 작업을 지지
하는 데 이용할 수 있는 정보)
◦ 유해성 및 위해성 평가에 필요한 데이터 캡 보완
◦ 분류 및 표시에 필요한 데이터 캡 보완
◦ PBT 또는 vPvB 평가에 필요한 데이터 캡 보완
4) 적용된 방법의 올바른 문서화
QSAR 결과를 적절한 서식을 통해 사용한 프로그램의 특성(개발원칙 등
과 관련) 등 모델 자체에 대한 내용과 해당모델을 통해 얻는 결과를 문서화하
여 규제기관에 제공하는 것이 매우 중요하다. 현재 OECD, 유럽 등에서 일종
의 QSAR 모델에 대한 robust summary라 할 수 있는 QMRF(QSAR Model
Reporting
Format)와
예측
결과를
기술하고
평가하는
QPRF(QSAR
Prediction Reporting Format)가 활용되고 있다. 즉 QMRF는 OECD 검증원
칙에 따라 모델에 관한 주요 정보를 보고하는 것으로 검증(validation)과 관련
되고, QPRF는 주어진 화학물질에 대하여 주어진 모델로 수행된 예측을 기술
하고, 평가(assessment)하는 내용이다. 이러한 사항에 대해서는 3장에서 자세
히 설명할 것이다.
- 7 -
산업체를 위한 QSAR 자료 제출 안내서
3.
결과의 신뢰도와 적합도
1) 신뢰도(Reliability)
QSAR 데이터를 이용하여 결과 값을 제출할 경우, 아래 두 가지 이유로
인해 결과 값에 대한 불확실성이 존재한다는 사실을 인지하여야 한다.
•
입력 데이터의 변동성
•
실제의 일부만 나타낼 수 있는 모델의 불확실성: 모델은 가능한 모
든 메커니즘과 화학물질의 유형을 나타내지 않음.
이러한 불확실성에도 불구하고, QSAR를 활용할 경우, QSAR 모델 구축
에 활용된 구조가 유사한 모든 화학물질의 평균값을 산정하는 방식을 취하기
때문에 그 불확실성을 대폭 줄일 수 있다.
해당 모델이 적합한지에 대한 타당성 평가는 필요하지만 QSAR 결과의
수용유무를 완전히 평가할 수 있는 것은 아니다. 모델이 유효하다고 가정할 경
우, 특정 화합물 예측에 대한 신뢰성 평가가 수반되어야 하며 그 방법은 적용
가능 영역이 존재하는지, 정의된 적용가능 영역이 규제목적에 적합한지, 예측
하고자 하는 물질과 유사한 그룹의 화학물질을 얼마나 잘 예측하는지 등을 고
려하여야 한다.
2) 적합도(Adequacy)
QSAR를 활용하여 생산한 결과를 화학물질 등록 자료로 제출 시, 해당
자료는 국립환경과학원에서 화학물질의 규제 목적에 적합한 결과인지 평가하
여야 한다. QSAR 예측 결과가 시험 결과를 대체하여 법적 자료로 활용될 수
있는지 결정하는 평가 단계에서는 적합한 QSAR 모델을 활용한 결과인지, 법
적 자료의 시험항목과 일치하는지 그리고 제출 양식에 적합한지 여부를 확인
하여야 한다.
- 8 -
산업체를 위한 QSAR 자료 제출 안내서
< 표 2 > 인체 유해성 시험 항목 및 제출 결과 형식
인체독성 시험항목
결과 값(단위)
관련 고시
급성 경구 및 경피
독성시험
LD50 (mg/kg)
국립환경과학원고시
제2020-28호
제5장 제1항 및
15,18항
박테리아를 이용하는
복귀돌연변이시험
음성/양성
국립환경과학원고시
제2020-28호
제5장 제23항
피부 자극성 및
부식성 시험
자극/부식성 정도를 관찰한 후,
점수로 평가
국립환경과학원고시
제2020-28호
제5장 제3항
피부 과민성시험
시험물질, 매개물질, 시험동물,
시험조건, 과민성 점수 등을 포함
국립환경과학원고시
제2020-28호
제5장 제5항
급성 흡입독성시험
LC50 (mg/L, ppm, mg/m3)
국립환경과학원고시
제2020-28호
제5장 제2항
눈 자극성 및
심한 눈 손상시험
각종 임상증상을 기록, 안구병변 등급과 국립환경과학원고시
제2020-28호
임상증상을 고려하여 종합적으로 평가
제5장 제4항
< 표 3 > 환경 유해성 시험 항목 및 제출 결과 형식
환경독성 시험항목
결과 값(단위)
관련 고시
어류 급성독성시험
처리한 어류의 50%를 치사시키는
농도(LC50, mg/L)
국립환경과학원고시
제2020-28호
제3장 제3항
미생물분해시험
(이분해성)
물벼룩 급성독성시험
생분해도는 이론적 산소요구량(TOD)에 국립환경과학원고시
제2020-28호
대한 실제 산소요구량(BOD)의 %
제4장 제1-6항
처리한 물벼룩의 50%가 유영저해를
받는 농도(EC50, mg/L)
국립환경과학원고시
제2020-28호
제3장 제2항
우선적으로 법적 자료의 시험항목과 일치하는지 여부에 대한 검토를 수
행하여야 한다. 화평법에 따라 물질을 등록하고자 할 때 등록 물질에 대한 유
해성 자료로서 요구하는 시험항목이 지정되어 있다. QSAR를 활용하여 예측한
결과를 화평법 상에서 요구하는 시험결과의 대체자료로 제출하고자 할 때 그
목적에 부합하는 시험항목에 대한 예측결과인지 검토하여야 한다. 어류만성독
- 9 -
산업체를 위한 QSAR 자료 제출 안내서
성에 대한 QSAR 예측 결과를 화평법 상의 시험항목 중 어류급성독성의 시험
결과 대체자료로 제출할 수는 없다.
다음단계에서는 QSAR 예측 결과 값의 형식(단위)이 화평법 상에서 요구
하는 등록 자료의 양식에 부합하는지 여부를 검토하여야 한다. 예를 들어, 피
부과민성 시험항목의 경우 화평법 상의 등록 자료로 제출하기 위해서는 시험
조건을 포함하여 과민성에 대한 점수를 포함 할 것을 규정하고 있는데, QSAR
를 활용한 피부과민성 예측 결과가 '양성' 또는 '음성' 으로 도출되었을 경우에
는 화평법 상의 제출자료로 활용하기에는 부적합할 수 있다.
추가적으로 QSAR 데이터의 적합성을 평가하기 위해 해당 비시험 데이터
를 단독으로 또는 다른 정보(시험 데이터 및 참고문헌자료 등)와 비교평가 과
정을 거쳐야 한다. 컴퓨터에서 산출된 데이터 값의 이용가능성이 높아지고 있
지만, 전문가 판단 및 산업계와 정부기관의 의견을 대체할 수는 없으므로 자동
으로 예측된 QSAR 데이터만을 이용하는 것은 권장하지 않는다. 따라서
QSAR 데이터 수락을 위한 중요한 두 가지 원칙은 다음과 같다.
∙ 비례 원칙 (principle of proportionality) : 필요한 정보의 양과
결정의 심각성이 비례 하여야 한다는 것이다. 예를 들면, 피부자극
성 물질로 분류하는 것보다 금지물질로 선정하기 위한 데이터의 양
이 더 많이 필요하다.
∙ 주의 원칙 (principle of caution) : 필요한 정보의 양과 잘못된 유
형의 정보에 기초한 결정의 결과 간의 관계를 나타낸다. 예를 들면,
데이터에 불확실성이 높거나 결과의 오류가 발생하거나, 데이터에
대한 접근법 선택성이 신중해질 경우 이러한 원칙에 해당 된다.
이러한 원칙에 따르면 과학적 타당성 및 규제 수락 가능성은 결정 내용
에 따라 가변적이다.
- 10 -
산업체를 위한 QSAR 자료 제출 안내서
제3장
1.
자료제출 형식 및 내용
개요
화평법 및 하위 규정에 QSAR 보고서식에 대한 규정은 없다. QSAR 결
과 제출 관련 제한 사항은 '국제적으로 인정된' 이라는 문구뿐으로, 앞서 설명
된 여러 가지 규정이나 설명을 참조하고, OECD나 유럽에서 사용, 권장되는
보고서식을 활용하여 자료를 제출하면 될 것이다.
앞서 설명한 바와 같이 QSAR 보고서식으로 모델 정보를 기술하는
QMRF와 예측결과를 기술, 평가하는 QPRF가 있다. 이러한 보고형식은 강제화
된 법적 의무사항에 따른 서식은 아니며, 산업체 등록자와 평가자가 QSAR 활
용과 관련하여 일관 된 정보를 이용할 수 있도록 할 목적으로 개발되었다고
볼 수 있다.
QMRF는 QSAR 모델의 알고리즘 및 OECD 5 대 원칙에 따른 적절성 등
을 기술하는 것이다. QPRF는 특정 모델을 목표 물질에 적용함으로써 예측 값
을 어떻게 도출하는지를 설명하는 것이다. 이때 모델에 대한 정보, 독성 항목,
모델링하는 물질과 적용범위와의 관계, 유사물질에 대한 정보를 기술한다. 또
한, 예측 항목과 관심이 있는 법적 항목과의 관계에 대한 정보 역시 기술한다.
즉, 해당 평가항목은 아니지만 대체하는 것이 적절한지를 기술한다.
다음에 제시하는 서식은 QSAR 결과를 제출하거나, 위해성 자료 작성 등
에 주요 자료로 그 결과를 사용하는 경우에 첨부되어야 하는 내용을 담은 것
이다. 즉, 시험자료를 대신하여 QSAR 결과를 제출하는 경우 반드시 이런 서
식을 모두 맞출 필요는 없으며 사안에 따라서는 일부를 생략하여 작성, 제출하
여도 무방할 것이다.
2.
모델정보 보고서식 (QMRF)
QMRF는 QSAR 모델을 평가하는 데 이용할 수 있는 필수적인 근거 서류
로서 모델의 출처, 유형 및 OECD 5 대 원칙에 따른 적용가능성 등에 대한 정
보로서 아래 항목이 포함된다.
- 11 -
산업체를 위한 QSAR 자료 제출 안내서
①
모델 소스 (알려진 경우 개발자 포함)
②
모델 타입
③
모델 정의
④
모델의 개발
⑤
모델의 검증
⑥
모델의 적용가능성
QMRF에서는 예측 대상물질에 대한 정보, 그룹핑을 위한 화학적 특성,
화학적 그룹의 적용범위, 적용된 데이터 갭 채우기 방법(read-across, trend
analysis or QSAR models), 예측결과를 제공하며 카테고리 또는 훈련셋트
(training set) 및 테스트 셋트(test set)에 사용된 화학물질에 대한 정보를 제
공한다. 화학물질은 디스크립터 공간 내에서의 예측하고자 하는 목표 물질과의
거리에 의해 정렬되며, 사용자에 의해 선택된 설정에 따라 화학물질에 대한 상
세한 정보(2D 이미지 및 프로파일링 결과)가 제공되나, 일부 화학물질에 대해
서는 한정된 정보(CAS, name, SMILES)가 제공된다.
현재 OECD에서 사용하는 QMRF는 OECD에서 발행한 "(정량적) 구조-활
성 관계 모델의 검증에 대한 지침서 (OECD, 2007)" 및 ECHA에서 발행한 "정
보 요구와 화학물질 안전성평가에 대한 가이던스(Chapter R. 6)"에 근거하여
작성하고 있다.
참고로 본 안내서의 QMRF는 유럽 ECHA에서 발행한 "정보 요구와 화학
물질안전성 평가에 대한 가이던스" 중 "QSARs and grouping of chemicals"
에 따라 정리한 것이다.
- 12 -
산업체를 위한 QSAR 자료 제출 안내서
< 표 4 > QMRF 서식, 작성내용 및 해당 예
1.
QSAR 식별자
1.1 QSAR 식별자 (title):
간략하게 QSAR 모델명, 예측하고자 한 물성 또는 독성 endpoint, 모델 버전
등을 키워드로 제시
예) “생분해성 예측을 위한 BIOWIN 1”,
“TOPKAT 피부자극성 Acyclics(Acids,Amines,Esters) MOD v SEV Model"
1.2 기타 관련 모델
QMRF 1.1 에 기재한 모델과 연관된 모델을 표시
예) “TOPKAT 피부자극성 Acyclics(Acids,Amines,Esters) MOD v SEV Model” 은
“TOPKAT
피부자극성
Acyclics(Acids,Amines,Esters)
NEG/MlD
v
MOD/SEV
Model”과 연관됨
1.3 소프트웨어 모델
적절한 경우, 소프트웨어 이름과 버전을 명시
예) BIOWIN v.4.2 (EPI Suite)
2.
일반적 정보
2.1 QMRF 작성일
2.2 QMRF 작성자와 연락처
2.3 QMRF 업데이트 날짜
2.4 모탤 개발자 및 연락처
2.5 모델 개발 및 출시일
2.6 참조 논문 및 소프트웨어
사용한 모델 개발 및/또는 소프트웨어를 설명하는 참조 논문
2.7 모델에 대한 가용한 정보
모델의 일부정보에 대해 공개 가능한지에 대해 기술(훈련셋트 및 외부 검증셋트,
소스코드 및 알고리즘 등이 공개 가능한지)
예) "이 모델은 특허사항은 아니나 훈련 및 테스트 셋트는 공개할 수 없음"
- 13 -
산업체를 위한 QSAR 자료 제출 안내서
2.8 같은 모델에 대해 작성된 다른 가용한 QMRF 정보
해당 모델에 대해 다른 QMRF가 있는지를 기술, 만약 있다면 이를 제시
3.
평가항목(Endpoint) (OECD Principle 1)
Endpoint는 예측하고자 하는 물리화학적 성질, 독성 또는 환경적 영향으로서 특
정 모델로 예측하고자 하는 endpoint를 명확히 제시
3.1 종(species)
예측하고자 하는 endpoint를 위한 종을 명시
3.2 Endpoint
예측하고자 하는 물리화학적 성질, 독성 또는 환경적 영향을 선택
3.3 Endpoint에 대한 추가사항
Endpoint에 대한 추가정보
예) 시험 생물에 대한 정보로서 종, 계, 성별, 연령 또는 생애단계 등을 제시
3.4 Endpoint 단위
3.5 종속변수
모델에서 종속변수와 측정한 endpoint와의 관계를 명시
예) 종속변수로서 -log(kN03)
3.6 실험 프로토콜
3.7 Endpoint 데이터 품질과 다양성
4.
알고리즘 (OECD Principle 2)
알고리즘이란 어떠한 수학식, 결정 원칙 또는 공식화된 모델링 방법으로부터의 산
출물을 의미. endpoint의 QSAR 예측은 알고리즘을 화학물질 구조를 기술하는 구
조적 파라미터 셋트에 적용하여 얻는 결과임. 알고리즘을 제시함으로써 화학물질
구조 및/또는 물리화학적 성질에 대한 정보로부터 endpoint를 예측하는 모델링 방
법을 투명하게 하고자 함
4.1 모델 유형
예) SAR, QSAR, Expert system, Neural network 등
4.2 명시적 알고리즘
- 14 -
산업체를 위한 QSAR 자료 제출 안내서
분자기술자로부터 예측하도록 하는 알고리즘을 보고. 만약 알고리즘이 너무 길
거나 복잡하여 보고할 수 없는 경우, 추가정보로 첨부할 수 있도록 할 것
4.3 모델 내 분자기술자
모델에 포함된 분자기술자의 숫자, 이름 및 확인할 수 있는 정보를 기술
예) 물리 화학적 성질에 대한 파라미터, 구조적 fragment 등
4.4 분자기술자 선태
초기 스크리닝 하는데 사용된 분자기술자의 숫자나 유형(이름) 또는 결정 원칙을
기술. 또한, 모델을 개발하는 데 있어서 분자기술자 선택 방법을 설명
4.5 알고리즘 및 분자기술자 생성
알고리즘을 도출하고 각 기술자를 생성하는데 사용된 방법이나 접근을 설명
4.6 소프트웨어 명칭 및 버전
분자기술자를 생성하는데 사용된 소프트웨어 이름 및 버전을 기술. 적절하다면,
기술자를 생성하는 소프트웨어 내 특정 셋팅 사항 이 있으면 보고
4.7 분자기술자/화학물질 비율
분자기술자의 숫자 대비 화학물질(훈련셋트의 화학물질) 숫자에 대한 비율을 보
고. 어렵다면 그 이유를 설명
5.
적용 범위의 정의 (OECD principle 3)
적용 범위(Applicability domain)는 모델이 신뢰도 있는 예측할 수 있는 영역을
말함. 이상적으로는 적용 범위는 모델의 구조적, 물리화학적 및 반응(response)에
대한 영역임. 화학적 구조 영역은 물리화학적 성질 및/또는 구조적 fragment로 표
현되며, 반응은 예상되는 물리화학적 성질, 생물학적 영향 또는 환경영향을 말함.
5.1 모델의 적용 범위
QSAR가 적용될 수 있는 분자기술자 변수의 범위 또는 적용될 수 없는 범위를
기술. 또한 QSAR가 적용될 수 있는 반응 변수의 범위 또는 적용될 수 없는 범위
를 기술. 훈련셋트 내 화학물질의 분자기술자 값이 어떻게 분포되는지를 모델에
의해서 예측되는 endpoint와 관련하여 기술.
5.2 적용 범위를 평가하는데 사용된 방법
5.3 적용 범위 평가를 위한 소프트웨어 명칭 및 버전
- 15 -
산업체를 위한 QSAR 자료 제출 안내서
5.4 적용 한계
적용범위를 정의하기 위해서 포함 및/또는 제외되는 규칙을 기술(고정 또는 확
률론적 경계, 구조적 특정, 반응영역 등)
6.
적합도(Goodness-of-fit) 및 견고성 (OECD Principle 4)
훈련셋트를 이용하여 결정되는 모델의 내적 성능으로서 적합도와 견고성을 기술
6.1 훈련셋트의 가용성
발표 논문, 모델을 수행하는 소프트웨어, 데이터베이스 등에 포함된 훈련셋트를
기술. 없는 경우 그 이유를 설명
예) "가용하지만 첨부하지는 않음" "데이터 셋트는 상업적 정보이므로 가용하지
않음"
6.2 훈련셋트 정보
훈련셋트 정보로서 아래의 정보를 기술; 화학물질명(일반명 및/또는 IUPAC 이
름), CAS 변호.SMILES, InChI 코드. MOL 파일, 구조식, 기타 구조에 관한 정보
6.3 훈련셋트 분자기술자 변수에 대한 데이터
훈련셋트의 분자기술자 값의 가용성 여부를 확인한 정보를 참고자료로 첨부
6.4 훈련셋트 종속 변수에 대한 데이터
훈련셋트의 종속 변수 값이 가용한지에 대한 정보를 참고자료로 첨부
6.5 훈련셋트에 대한 기타 정보
훈련셋트에 대한 기타 정보를 기술
예) 훈련셋트 내 물질 수 및 유형. 즉, 양성 및 음성을 예측하는 모델로서, 훈련
셋트에서 양성 및 음성의 숫자
6.6 모델링 전 데이터의 사전 처리
모델링 전에 원 데이터를 가공했는지에 대해 기술. 만약 그렇다면, 원 데이터와
가공한 데이터를 함께 보고
예) 중복 값에 대해 평균
6.7 적합성에 대한 통계
적합성에 대한 통계적 수치(r2, r2 adjusted, standard error, sensitivity,
specificity, false negatives. false positives. predictive values etc.)
- 16 -
산업체를 위한 QSAR 자료 제출 안내서
6.8 견고성-leave-one-out cross-validation에 의해 얻어지는 통계값
해당 통계값을 보고
6.9 견고성-leave-many-out cross-validation에 의해 얻어지는 통계값
해당 통계값을 보고. 데이터 셋트를 분리하는 방법(예: 무작위), 남겨두는 물질
수 및 cross-validation 하는 물질 수의 퍼센트
6.10 견고성-기타 방법에 의해 얻어지는 통계
7.
예측도 (OECD Principle 4)
예측도는 외부모델 검증을 말함.
7.1 외부 검증 셋트에 대한 가용한 정보
외부 검증 셋트가 가용한지와 QMRF를 지원하는 정보로 첨부되는지를 기술. 만
약 가용하지 않다면, 그 이유를 기술
7.2 외부 검증 셋트에 대한 분자기술자에 대한 데이터
외부 검증 셋트에 대한 아래의 정보를 기술; 화학물질명(일반명 및/또는 IUPAC
이름), CAS 번호, SMILES, InChI 코드, MOL 파일, 구조식, 기타 구조에 관한
정보
7.3 외부 검증 셋트에 대한 종속변수에 대한 데이터
외부 검증 셋트의 가용한 분자기술자 값에 대해 정보로 제시
7.4 외부 검증 셋트에 대한 기타 정보
7.5 테스트셋트에 대한 실험 설계
테스트 셋트에 대한 실험설계를 기술
예) 모델링 전 화학물질을 무작위로 셋팅, 모델링 후 논문 검색, 모델링 후 예상
실험등
7.6 예측도-외부 검증에 의해 얻어진 통계치
예측도를 기술, 만약 분류모델인 경우 false positive 및 false negative 비율을
기술
7.7 예측도-외부 검증 셋트의 평가
외부 검증 셋트가 충분히 크고 적용범위를 적절히 나타내는지를 기술
- 17 -
산업체를 위한 QSAR 자료 제출 안내서
예) 훈련셋트와 비교할 때, 검증셋트의 분자기술자의 값이나 반응범위의 분포를
기술
7.8 모델의 외부 검증에 대한 정보
외부 검증 절차에 대해 유용한 정보를 추가
8.
메커니즘 해석 (OECD prindple 5)
가능한 경우, QSAR 에 대해 메커니즘적인 해석을 제시
8.1 모델의 메커니즘 기반
(가능한 경우) 모델의 메커니즘 기초에 대한 정보를 기술. 예로서 QSAR에서 사
용한 분자기술자(descriptor)에 대한 물리화학적 해석을 기술하고 이것 이 생물학
적 거동에 대해 알려진 메커니즘과 일관됨을 설명. 만일 메커니즘적 해석을 제시
할 수 없는 경우는 그 이유를 설명할 것
8.2 사전 또는 사후 메커니즘 해석
모델의 메커니즘이 사전적으로 결정되는지(즉, 모델링 전에 초기 훈련셋트 및/또
는 분자기술자가 사전에 정의된 메커니즘에 맞추기 위해 선택된 것인지) 또는 사
후적으로 결정되는가를(즉, 모델링 후, 최종 훈련셋트의 구조 및/또는 분자기술자
해석을 통해) 기술
8.3 기타 정보
그 외 메커니즘적 해석을 지원할 수 있는 유용한 정보를 기술
9.
기타 정보
9.1 의견
9.2 참고 문헌
9.3 추가 정보
10. QMRF 모델 데이터베이스 요약
10.1 QMRF 번호
10.2 출판일
10.3 keywords
10.4 의견
- 18 -
산업체를 위한 QSAR 자료 제출 안내서
3.
예측결과 보고서식 (QPRF)
QPRF는 QSAR을 법적 목적을 위해 사용하는 것이 적합한지를 고려하는
데 있어서 필요한 정보를 제공하기 위해 개발되었다. 즉, QMRF를 참조한
QPRF는 특정 모델로 목표 물질을 예측하고 이를 평가하기 위한 기본 틀을 제
공한다. 모델에 대한 세부정보는 QMRF에 기술되고, QMRF와 QPRF는 서로
보완적이며, QPRF는 항상 QMRF와 관련된다는 점을 기억해야 한다.
QSAR 모델을 이용하여 결과를 예측하는 물질에 대한 정보는 QPRF에
기입한 정보를 활용하여 예측한 결과의 타당성을 평가하는데 사용된다. 예측의
타당성은 아래 조건에 따라 달라진다.
①
QSAR 모델은 과학적으로 유효하다.
②
QSAR 모델은 적용 영역 내에 있는 경우 사용 가능하다.
③
QSAR 결과를 신뢰할 수 있다.
④
QSAR 모델이 규제 목적에 적합하다.
QPRF 기본 형식은 <표 5>와 같으며, 각 항목에 대한 작성 방법 또한 제
시되어 있다. 반드시 작성하여야 하는 항목으로는 물질정보, 예측값과 모델에
대한 정보 등이 있다
- 19 -
산업체를 위한 QSAR 자료 제출 안내서
< 표 5 > QPRF 서식, 작성내용 및 해당 예
1.
물질
본 장에서는 QSAR 예측 대상 물질을 정의함
1.1 CAS 번호
1.2 기존화학물질 목록 번호
1.3 화학물질 명
1.4 구조식
1.5 구조 코드
모델을 실행하는 데 쓰는 구조 코드를 포함하여, 가용한 물질의 구조 정보를 보
고. SMlLES 또는 lnChI 코드를 이용한 경우, 아래 영역에 해당되는 코드를 보고
한다. 분자파일(MOL file)과 같은 다른 형식을 이용한 경우, 해당되는 구조 표현
(structural representation)을 지원 정보에 포함시킴.
가. SMILES
나. InChl
다. 기타 구조 표현
예측을 위해 다른 구조 표현을 사용한 경우 기재.
예) "분자 파일(MOL file)이 사용되었으며 지원하는 정보로 포함함"
라. 입체화학 특성
물질이 입체 이성질체인지 결과적으로 물질의 원자가 공간상 배열과 관련되는
특성을 갖는지를 기술. 물질 예측의 신뢰도에 영향을 줄 수 있는 입체화학적특정
을 확인하고 이를 기술
예) 시스-트랜스 이성질체, 키랄 중심 및 이들 특성이 상기 언급한 구조적 특징
안에서 코드화되는지 여부
2.
일반정보
2.1 QPRF 작성 날짜
2.2 작성자와 연락처
3.
예측결과
- 20 -
산업체를 위한 QSAR 자료 제출 안내서
3.1 Endpoint(OECD 원칙 1)
가. Endpoint
평가항목을 정의. 본 정보는 QMRF에서 제공하는 정보와 일치해야 함.
나. 종속변수
모델링을 위해 도입된 변환을 포함하여 모델이 제공하는 종속변수를 보고. 단,
본 정보는 QMRF에서 제공하는 정보와 일치해야 함.
3.2 알고리즘(OECD 원칙 2)
가. 모델 또는 하부모델 명
예측을 위해 이용한 모델을 확인하되 가능한 한 해당 QMRF에 저장된 이름으로
보고
예) “BIOWIN 1”; “TOPKAT 피부자극성 Acyclics(Acids, Amines, Esters) MOD vs
SEV”
나. 모델 버전
관련 모델 및 하부모델의 버전 번호 및/또는 날짜를 제시
다. 참조 QMRF
예측 모델에 대한 QMRF 관련 정보를 제공
유용할 수 있는 정보로는 QMRF의 이용가능성, 출처, 참조번호를 제공
예) “JRC QSAR 모델 데이터베이스 ‘생분해성 BIOWIN 1’ QMRF를 다운로드함”,
“TOPKAT 피부자극성 Acyclics CAcids, Amines, Esters) MOD vs SEV 관련
QMRF을 새롭게 편집함”
라. 예측값(모델 결과)
목표 화학물질에 모델을 적용함으로써 얻은 예측값(단위 포함)을 보고.
마. 예측값(커멘트)
정성적 결과(예: 예/아니오) 또는 반정성적 결과(예: 상/중/하)인 경우, 분류의
근거로 이용한 cut-off 값을 제시
바. 예측을 위한 입력값
예측을 생성하기 위해 어떤 종류의 입력정보를 이용했는지 명시
- 21 -
산업체를 위한 QSAR 자료 제출 안내서
예) SMILES, 분자 파일 (MOL file), 그래픽 인터페이스 등. 예측하는데 이용한 구조
코드를 제공(상기 1.5절에 제시되지 않은 경우)
사. 분자기술자 값
적절한 경우, 수적 기술자에 대한 값(실험 데이터 또는 계산데이터)을 보고하고
어떤 값을 예측에 사용했는지 표시
3.3 적용영역 (OECD 원칙 3)
가. 적용 범위
목표 화학물질이 QMRF에 정의된 대로 모델의 적용가능 영역에 포함되는지를
기술(QMRF 5절 OECD 원칙 3), 적용가능 영역을 평가하는 데 추가 소프트웨어/
방법을 이용한 경우, 이를 본 절에 상세히 기록하고 아래의 사항 제시
i.
분자기술자 영역
ii. 구조 단편(fragment) 영역
예) 화학물질에 모델 훈련셋트에서 나타나지 않은 단편이 포함되어 있는지 기술
iii. 메커니즘 영역
화학물질이 이용된 모델과 관련된 작용 메커니즘에 따라 작용하는 것으로 알려
져 있는지 또는 간주되는지 기술
iv. 물질대사 영역
해당되는 경우 기술
나. 유사한 구조를 갖는 물질
훈련셋트 또는 테스트 셋트에 존재하거나 기타 출처에서 얻을 수 있는 유사한
구조를 갖는 물질의 목록을 제시하고 이를 유사물질로 간주하는 이유를 제시. 또
한, 유사 구조를 갖는 물질을 검색한 방법도 함께 제시. 각 유사화합물에 대한
CAS 번호, 구조식. SMlLES 코드, 출처를 보고.
다. 유사한 구초를 갖는 물질에 대한 고찰
유사화합물에 대한 예측데이터 및 실험데이터가 고려 대상인 화학물질에 대한
예측을 어떻게 뒷받침하는지 기술
3.4 예측의 불확실성 (OECD 원칙 4)
가능한 경우, 관련 정보를 고려하면서 이 화학물질의 예측 불확실성에 대해 설명.
- 22 -
산업체를 위한 QSAR 자료 제출 안내서
예) 실험 결과의 변동성
3.5 예측 결과를 실중하는 모델에 의한 화학물질 및 생물학적 메커니즘(OECD 원
칙 5)
특정 화학물질에 대한 모델 예측의 메커니즘적 해석을 제시
4.
적합성 Adequacy (Optional)
본 장의 목적은 QSAR 예측결과의 적합성을 고려할 수 있도록 함.
특정 규제 목적과 관련하여 신뢰성과 관련성이 충분히 있는지에 따라 QSAR 예
측이 적합하다고 간주할 수 있음. 또한 예측의 적합성에 대해서는 기타 정보의
이용 가능성에 달려 있으며, 정보가중치 평가에서 결정.
4.1 규제 목적
3절에서 기술한 예측을 이용하고 있는 규제 목적을 설명
4.2 모델 결과 해석에 대한 접근
예측 결과를 특정 규제 목적에 비추어 어떻게 해석할 것인지 기술(예: 알고리즘
또는 규제 기준 적용). 여기에는 종속변수의 단위를 전환할 필요성이 수반될 수
있음(예: log molar 단위에서 mg/l로 전환). 또한 여기에는 또 다른 알고리즘의
적용, 평가 요소, 규제 기준, 증거가중치 평가에서 추가 정보의 이용 또는 고려사
항도 수반될 수 있음.
4.3 결과
모델 결과의 해석을 정의된 규제 목적과 관련하여 보고
4.4 결론
결론적으로 최종 결과가 규제 결론에 적합한 것으로 간주되는지, 또는 추가 정
보를 요구하는지, 추가 정보를 필요로 할 경우, 추가 정보는 무엇이 되어야 하는
지에 대한 평가를 제공
- 23 -
산업체를 위한 QSAR 자료 제출 안내서
제4장
1.
모델을 활용한 예측 및 결과의 보고자료 작성 예
QSAR Toolbox를 활용한 이분해성 예측 결과
QSAR Toolbox는 OECD 및 ECHA에서 다양한 법적 규제에서 일반적으
로 쓰이는 평가항목에 대한 예측을 제공하고 예측 데이터 해석에 대한 지침
을 함께 함으로써 QSAR 모델의 이용을 지원하기 위하여 2008년 처음 공
개된 무료 공개 프로그램이다.
- 24 -
산업체를 위한 QSAR 자료 제출 안내서
최근까지 지속적으로 업데이트되고 있으며, QSAR Toolbox에 대한
소개, 기능 및 설치에 관련한 자세한 내용은 https://qsartoolbox.org 를
참조한다. 2020년 12월 현재 가장 최신파일로 v4.4.1 버전을 다운로드 받을
수 있다. QSAR Toolbox는 파일 사이즈가 약 4KB로, 이를 구동하기 위한
컴퓨터 최소사양 및 권장사양은 <표 6>과 같다.
< 표 6 > QSAR 툴박스 최소사양 및 권장사양
<최소사양>
OS: 64 bit, Windows 7 or newer
CPU: Core 2 duo at 2 GHz or equivalent AMD CPU
RAM: At least 8GB of RAM
HDD: 14 GB free hard drive space
File system: NTFS
Microsoft .NET Framework 4.5.1
<권장사양>
OS: 64 bit, Windows 7 or newer
CPU: I5 at 2.4GHz or faster processor or equivalent AMD CPU
RAM: 16 GB of RAM
HDD: 20 GB free hard drive space
File system: NTFS
Microsoft .NET Framework 4.5.1
1) QSAR 예측 준비
먼저 QSAR Toolbox를 시작한 후 예측대상 물질 및 endpoint를 지정한다.
이는 QSAR Toolbox의 Input 모듈 화면에서 가능하다.
- 25 -
산업체를 위한 QSAR 자료 제출 안내서
우선 Input 모듈에서 CAS#를 클릭하여 입력창을 열고, 대상물질의 CAS
No.를 입력한다. 본 예에서는 31906-04-4를 입력하였다. 입력 후 Search를
클릭하면 아래에 그 검색결과가 표시되는데 표시되는 물질 목록 중 목적에 해
당하는 물질을 선택한 후 OK를 클릭하여 입력을 완료한다.
입력 후 대상물질의 기본정보와 구조를 확인한다.
- 26 -
산업체를 위한 QSAR 자료 제출 안내서
예측대상 endpoint를 입력하기 위해 Input 모듈에서 Define을 클릭한
다. Endpoint 선택창이 나오면 우선 예측대상인 Environmental Fate and
Transport
→
Biodegradation#Biodegradation
in
Water:
Screening
Tests를 클릭한 후, 다음 창에서 Ready Biodegradability → BOD → OECD
301C → 28d를 차례로 선택하고 완료한다.
이제 다음과 같이, 예측대상 물질에 대해 예측대상 endpoint를 확정하였다.
- 27 -
산업체를 위한 QSAR 자료 제출 안내서
2) QSAR 모델을 이용한 예측 수행
QSAR Toolbox 내 내장된 예측모델을 활용하여 대상물질의 이분해성 예
측을 수행한다.
우선 Data Gap Fillig 모듈로 이동한 뒤 QSAR 버튼을 클릭한다. 대상물
질과 endpoint에 대해 가용한 모델들의 기본 예측결과 및 적용구역 포함 여부
가 ③번의 형태로 나타난다. 이 중에서 유용한 모델 하나를 선택한 후 OK를
클릭하여 최종적으로 선택한 모델에 의한 QSAR 예측 수행을 완료한다.
마지막으로 여러 물질목록에 대하여 QSAR를 수행한 경우에는 ⑤와 같
이 한 물질에 대해 수행할지, 아니면 모든 물질에 대해 수행할지를 선택할
수 있다.
- 28 -
산업체를 위한 QSAR 자료 제출 안내서
최종적으로 사용된 모델에 대한 사용권 관련 정보를 보여준 후 QSAR 예
측결과가 성공적으로 등록된 것을 확인할 수 있다. 해당 결과를 더블클릭하면
해당 예측결과에 대한 개략적인 정보를 확인할 수 있다.
3) 수행된 QSAR 예측결과의 확인
QSAR Toolbox 내에서 수행된 QSAR 예측 수행 결과를 세부적으로 확인
하고 이를 활용하기 위해 QSAR Toolbox 내에서 지원하는 보고서를 생성한다.
- 29 -
산업체를 위한 QSAR 자료 제출 안내서
우선 Report 모듈로 이동한 후 Prediction 버튼을 클릭하면 QSAR 예측
결과에 대한 보고서를 생성할 수 있다. 만일 해당 QSAR 모델에 대한 QMRF
가 준비되어 있다면 QMRF를 클릭하여(인터넷 연결을 통해) 해당 모델에 대한
QMRF 문서를 내려 받고 확인할 수 있다. 보고서 생성 시 필요한 항목을 선택
하고 작성명령을 내리면 QSAR Toolbox 내 템플릿에 의해 자동생성 되는
QSAR 예측보고서를 확인할 수 있다.
생성되는 첫 페이지로부터 각각 QPRF
1번 물질정보 및 2번 작성정보 항목에 해
당하는 정보를 확인할 수 있다.
예시의 두번째 페이지에서는 QPRF의
3-1인
Defined
endpoint
및
3-3인
Applicability domain을 확인할 수 있다.
- 30 -
산업체를 위한 QSAR 자료 제출 안내서
예시의 세 번째 페이지에서는 QPRF의
3-4인 Uncertainty 및 3-5인 mechanistic
interpretation을 확인할 수 있다. (본 예시
에서는 모델의 특성상 해당 항목에 대한 세
부내용이 포함되지 않았다.)
예시의 마지막 페이지에서는 QPRF의
3-2인 예측에 사용된 모델 및 이에 의한
Unambiguous algorithm 항목에 대한 정
보를 확인할 수 있다.
따라서 위의 QSAR Toolbox로부터 제공된 보고서를 활용하여 QPRF의
작성 시 활용 가능한 정보를 확인할 수 있다.
- 31 -
산업체를 위한 QSAR 자료 제출 안내서
아울러 활용된 QSAR 모델에 대한 QMRF 문서도 수집 및 확인이 가능하다.
- 32 -
산업체를 위한 QSAR 자료 제출 안내서
2.
VEGA-QSAR를 활용한 Ames복귀돌연변이 예측 결과
VEGA-QSAR는 ECHA 주관의 VEGA(Virtual models for property
Evaluation of chemicals within a Global Architecture) 프로젝트에 의해
시작되었다. 이전의 EU-REACH 내 등록에 필요한 endpoint에 대응되는
QSAR 모델을 확보하기 위해 수행되었던 CAESAR 프로젝트에서 개발된 모델
과 더불어 기존에 여러 개발자 및 기관들에 의해 개발되고 운영되어왔던
QSAR 모델들을 한 프로그램에 통합시키면서, 예측된 결과물에 대해 REACH
에서 요구되는 정보 항목들을 만족하는 일관된 예측결과의 출력을 수행하기
위해 2013년 개발되었다.
무료 공개 프로그램으로 지속적으로 개선되고 있으며 VEGA-QSAR에
대한 소개, 기능 및 설치에 관련한 자세한 내용은 VEGA-QSAR 홈페이지
https://www.vegahub.eu/portfolio-item/vega-qsar/ 를 참조한다. VEGA
프로그램은 java 설치가 가능한 컴퓨터 사양이라면 어디서든 구동이 가능하다.
- 33 -
산업체를 위한 QSAR 자료 제출 안내서
1) QSAR 예측 준비
먼저 VEGA-QSAR 프로그램을 다운로드 받은 후 실행하고 예측대상 물
질을 입력한다. 물질의 입력은 화면상에서 물질구조에 대한 SMILES 코드를
입력하거나 파일로 준비된 SMILES 혹은 SDF 형식의 2/3차원 구조를 불러들
어 수행할 수 있다.
우선 프로그램 창이 열리면 INSERT 메뉴에서 Insert SMILES 창에 예
측대상 물질의 SMILES 코드를 입력한다. 본 예시에서는 1-hexanal의 구조에
해당하는 SMILES 코드인 CCCCCC=O를 입력하였다. 입력 후 + 버튼을 눌러
아래의 구조 목록창에 등록한다. 목록창에 등록되면 아래와 같이 등록된 각 구
조별 2차원 구조를 확인할 수 있다.
필요시 Import File 버튼을 이용하여 SMILES 코드가 담긴 텍스트 파일
혹은 2D/3D 구조가 담긴 SDF 파일을 불러와 작업할 수도 있다.
- 34 -
산업체를 위한 QSAR 자료 제출 안내서
예측에 활용할 모델을 선정하기 위해, SELECT 메뉴로 이동하여 각 탭별
로 나열된 예측모델 중에서 사용하고자 하는 모델(들)을 선택한다. 본 예시에
서는
박테리아
복귀돌연변이(Ames
test)를
목표로
하였으며
이에
대해
VEGA-QSAR에서 준비된 네 개별적인 모델과 이들을 종합하여 하나의 결과를
도출하는 consensus 모델 총 5개를 선택하였다. 각각의 모델에 대한 정보는
모델 앞의 아이콘을 클릭하여 확인할 수 있다.
- 35 -
산업체를 위한 QSAR 자료 제출 안내서
예측된 결과의 출력위치 및 그 형식을 지정하기 위해, EXPORT 메뉴로
이동하여 출력형식을 선택한다. 크게 PDF 형식과 CSV 형식으로 출력되며
CSV 형식은 다량의 물질들에 대한 연속출력 시에 주로 사용되고, PDF 형식
은 주로 물질 개별적의 세부 예측결과를 확인할 때 주로 사용된다. 형식 지정
후 출력될 위치를 결정한다.
2) QSAR 모델을 이용한 예측 수행
VEGA-QSAR 내 내장된 예측모델을 활용하여 대상물질의 Ames 복귀돌
연변이 예측을 수행한다.
PREDICT 버튼을 눌러 입력된 예측대상 물질에 대해 선택된 모델들을
활용하여 QSAR 예측을 수행한다.
- 36 -
산업체를 위한 QSAR 자료 제출 안내서
예측이 완료되면 기존 입력한 경로에서 출력된 파일을 확인한다.
3) 수행된 QSAR 예측결과의 확인
VEGA-QSAR 프로그램 내에서 수행된 QSAR 예측 수행 결과를 세부적
으로 확인하고 이를 활용하기 위해 생성된 보고서를 확인한다.
우선 총괄적인 평가를 수행하는 모델인
consensus 모델에 대한 결과를 확인할 수
있으며,
그
결과
3종의
모델에서
good
reliability 수준에서 예측결과를 얻을 수 있
음을 확인하였다. 세부적인 결과는 각각의 예
측모델에 대한 결과를 분석함으로써 확인할
수 있다.
- 37 -
산업체를 위한 QSAR 자료 제출 안내서
예측모델 중 하나인 CAESAR 모델에
대한 예측결과 요약이다. 요약 페이지로부터
입력된 물질구조를 확인하고, 예측결과 및 적
용구역 포함여부를 포함한 예측의 신뢰성을
확인할 수 있다.
위의 CAESAR 모델을 이용한 예측결과의 세부정보로서, CAESAR 모델
의 개발에 활용되었던 훈련셋트 중 예측대상 물질과 유사한 물질의 목록을 확
인할 수 있으며, 이들 유사한 물질의 실험결과 및 예측결과, 그리고 예측간의
분자표현자들의 이상 유무 등을 추가로 확인함으로써 QPRF의 예측결과 항목
에 수록될 상당부분의 예측 신뢰성 관련 부분을 수록할 수 있는 기초 정보를
확인할 수 있다.
- 38 -
산업체를 위한 QSAR 자료 제출 안내서
아울러 활용된 CAESAR QSAR 모델에 대한 QMRF 문서도 수집 및 확
인이 가능하다.
- 39 -
산업체를 위한 QSAR 자료 제출 안내서
제5장
제한점 및 주의사항
앞서도 설명하였듯이 화평법에서 QSAR 결과를 분류표시나 위해성자료
작성, 기타 자료생략을 위한 지원자료(supporting data) 등 등록자의 전문성
이나 경험에 따라서 다양하게 사용할 수는 있으나, 시행령 제13조에 따른 법
적 제출자료를 생략하기 위한 목적으로는 등록하는 화학물질의 제조, 수입량이
10톤 미만인 경우에만 가능하다. 즉 10톤 미만 등록에 요구되는 급성독성 복
귀돌연변이 시험이나 어류급성독성의 경우도 10톤 이상 화학물질 등록목적으
로는 QSAR 자료를 활용할 수 없다.
현재 수많은 QSAR 프로그램이 개발되어 무료로 배포되거나 상업적으로
판매되고 있으나, QSAR 결과는 수학적 예측으로 어떤 경우에도 국제적으로
인정되는 시험방법이나 GLP 원칙을 준수하여 생산된 시험자료 보다 우선하여
사용되거나 적용될 수는 없다. QSAR 결과 유해성이 충분히 낮거나 음성으로
예측되었다고 하더라도 실제 동물시험 등에서는 유해성이 크거나 양성으로 판
명될 수 있다(false negative). 물론 이와 반대로 QSAR 결과 유해성이 우려되
거나 양성인 경우가 실제는 그 반대일 수도 있다(false positive). 그간 OECD
나 선진국을 중심으로 false negative를 최소화하기 위한 QSAR 프로그램 개
발이나 사용전문성 재고를 위한 다양한 노력을 해왔음에도 여전히 숙제로 남
아 있는 부분이다.
화평법 제13조에 따른 10톤 미만에 대한 QSAR 결과 제출은 어느 정도
관련 등록자에게 부여된 권리일 수 있다. 그 밖의 여러 가지 목적으로도 사용
자의 전문성이나 경험을 바탕으로 활용할 수도 있다. 물론 앞서 언급한 바와
같이 사용한 프로그램의 특성과 사용자의 프로그램에 대한 이해정도가 일정수
준 이상일 필요가 있으며, 또한 QMRF나 QPRF에 제시되어야 할 정보도 일정
수준 제공되어야 할 것이다. 이외에도 다음과 같은 사항도 제출 전에 체크할
필요가 있다.
①
예측하고자 하는 물질의 구조나 물질명, CAS 번호 등 물질에 대한
정보를 제대로 입력했는지 확인이 필요하다. 오차가 큰 QSAR 결과
를 보고한 경우 해당 화학물질의 구조를 잘못 입력한 경우일 가능
성이 크기 때문이다.
- 40 -
산업체를 위한 QSAR 자료 제출 안내서
②
예측하고자 하는 물질에 대한 그룹핑 작업이 제대로 수행되었는지
확인이 필요하다. 실제 유사물질을 그룹핑하는 과정은 상당한 경험
과 지식을 요하는 부분인 동시에 전체 예측과정에서 가장 중요한
단계이다. 잘못된 유사성에 의해 얻어진 예측된 값은 의미가 없으
므로, 이 단계에 대한 신중한 접근이 필요하다. 특히 이 부분은 위
해성자료 작성이나 자료제출 생략 등의 목적으로 활용하는 경우에
더욱 중요하다.
③
예측값이 원하는 시험조건에서 이루어졌는지를 확인해야 한다. 또
한 단위에 대한 확인도 필요하다. 예를 들어 급성어류독성 96시간
노출에 대한 결과를 예측하는 경우, 예측된 결과가 노출시간이 96
시간인지, 48시간에 대한 값인지를 확인하는 것이 필요하다.
④
현재 QSAR Toolbox의 경우 제공된 데이터베이스 또는 QSAR는
관련 기관이나 회사에서 무료로 제공받은 것으로서, 원하는 물질에
대한 독성예측에 필요한 충분한 데이터가 없어 예측 자체가 불가능
한 경우도 있다. OECD에서는 데이터베이스를 지속적으로 업데이트
하고 있으므로 이를 주기적으로 확인해 보는 것이 필요하다. 그럼
에도 불구하고 데이터가 충분하지 않은 경우 반드시 필요하다면,
유료의 상용 QSAR 프로그램을 사용하는 것을 검토해 보아야 한다.
⑤
과거에 제출한 자료와 충돌되는 사항이 없는지 확인이 필요하다.
다양한 QSAR 자료를 제출할 수 있으며, 보다 확실을 기하고자 관
련 증빙자료나 설명자료를 제시할 수도 있을 것이다. 이렇게 제출
된 자료 간에 서로 논리적으로 대립하거나 일관성이 없는 경우 보
완요청을 받을 수도 있을 것이다.
⑥
동일한 항목에 대해서 여러 가지 QSAR 결과를 제출하는 경우가
있을 것이다. 이 경우 의도적으로 구분 l이나 2에 해당되는 결과를
주는 예측내용을 삭제하거나 누락해서는 안 된다. 예측결과는 어디
까지 예측이므로 위해가능성이 높다는 이유로 제출자료에서 누락시
키는 경우, 때에 따라서는 제출자료 전체에 대한 신뢰성에 손상을
줄 수도 있기 때문이다.
- 41 -
산업체를 위한 QSAR 자료 제출 안내서
제6장
참고자료
ECHA (European CHemicals Agency) 2008. Guidance on information
requirements and chemical safety assessment Chapter R.6: QSARs and
grouping of chemicals. (accessed 2008 Sept. 10). Available from: URL:
http://echa.europa.eu/reach_en.asp
OECD, Report from the Expert Group on (Quantitative) Structure - Activity
Relationships (QSARs) on the Principles for the Validation of (Q)SARs.
ENV/JM/Mono(2004)24,OECD, Paris, (2004)
OECD, Report from the Regulatory Uses and Applications in OECD Member
Countries of (Quantitative) Structure - Activity Relationships [QSARs]
Models in the Assessment of New and Existing Chemicals (2006)
OECD, US EPA/EC Joint Project on the Evaluation of (Quantitative) Structure
Activity Relationships. OECD Environment Monographs No. 88, (1994)
QSAR Toolbox: Support pages. Available from https://qsartoolbox.org/support/
VEGA-QSAR: AI inside a platform for predictive toxicology. Proceedings of the
workshop "Popularize Artificial Intelligence 2013", Benfenati E, Manganaro
A, Gini G., December 5th 2013, Turin, Italy Published on CEUR
Workshop Proceedings Vol-1107. (2013)
- 42 -
부
록
여 백
- 44 -
산업체를 위한 QSAR 자료 제출 안내서
< 부 록 >
1.
QMRF 예
포유류세포를 이용한 돌연변이시험 예측에 사용된 DRAGON 기반 모델에 대한
QMRF의 예
1. QSAR 식별자
1.1 QSAR 식별자 (title)
Alpha, beta-불포화된 카보닐 화합물의 포유류세포를 이용한 돌연변이시험을
위한 QSAR의 적용
1.2 기타 관련 모델
1.3 소프트웨어 모델
2. 일반적 정보
2.1 QMRF 작성일
2009년 12월
2.2 QMRF 작성자와 연락처
[1] Alfonso Perez-Garrido Environmental Engineering and Toxicology
Dpt., Catholic University of San Antonio, Guadalupe, Murcia, Spain
aperez@pdi.ucam.edu
[2] Aliuska Morales Helguera Department of Chemistry, Faculty of
Chemistry and Pharmacy, Central University of Las Villas, Santa
Clara, Villa Clara, Cuba
[3] Francisco Giron Rodriguez Department of Food and Nutrition
Technology, Catholic University of San Antonio, Guadalupe, Murcia,
Spain
[4] M.Natalia D.S. Cordeiro REQUIMTE, Chemistry Department, Faculty
of Sciences, University of Porto, Proto, Portugal
2.3 QMRF 개정 날짜
- 45 -
산업체를 위한 QSAR 자료 제출 안내서
2.4 모델 개발자 및 연락처
Alfonso Perez-Garrido Environmental Engineering and Toxicology
Dpt., Caholic University of San Antonio, Guadalupe, Murcia, Spain
aperez@pdi.ucam.edu
2.5 모델 개발 및 출시일
2009
2.6 논문 및 소프트웨어 참고
Perez-Garrido A, Helguera A M, Giron-Rodriguez F & Cordeiro MNDS
(2009).
QSAR models to predict mutagenicity of acrylates, methacrylates and
alpha, beta-unsaturated carbonyl compounds.
Dental material. Accepted manuscript.
2.7 모델 정보
Training set 및 test set 사용 가능.
2.8 같은 모델에서 작성된 QMRF
3. Endpoint (OECD Principle 1)
3.1 종
다양한 세포주
3.2 Endpoint
4.인체 건강에 미치는 영향 4.10.변이원성
3.3 Endpoint에 대한 의견
변이원성은 외인성 대사활성계(S9) 적용 또는 비적용한 다양한
세포계/세포주(L5 178Y mouse Lymphoma cell, CHO, A552, Chinese
hamster cell V79)를 이용해 측정 한다.
최소 한개 이상의 포유류 배양세포를 이용한 실험에서 양성의 결과가 나오는
경우, 그 화학물질은 돌연변이 물질로 분류한다.
반대로 포유류 배양세포를 이용한 실험에서 한개 또는 그 이상의 음성 결과가
보고되는 경우, 비돌연변이 물질로 분류한다.
- 46 -
산업체를 위한 QSAR 자료 제출 안내서
3.4 Endpoint 단위
No units
3.5 종속 변수
MCGM= 1 positive result MCGM=-l negative result.
3.6 실험 protocol
데이터는 OECD 476 가이드에서 수득하였고, 화학물질의 발암성 연구 정보
시스템에서 추출하였다 (http: //toxnet.nlm.nih.gov/cgi-bin/sis/htmlgen?CCRI5).
3.7 Endpoint 데이터 품질과 다양성
포유류 배양세포(L5178Y mouse Lymphoma cell, CHO, A552, Chinese
hamster cell V79)를 이용한 유전자 돌연변이 시험
4. 알고리즘 (OECD Principle 2)
4.1 모델 형식
QSAR
4.2 명시적 알고리즘
QSAR 두 그룹의 선형 판별 분석에 의해 도출
MCGM= 1.812(C-015)-1.165(C-016)-10.278(C-039)-0.649(H-046)+5.564
4.3 모델 설명
[1]C-015=CH2
[2]C-016=CHR
[3]C-039 Ar-C(=X)-R
[4]H-046 H attached to CO(sp3)no X attached to next C
4.4 작성자의 선택
대체 방법은 변수 선택을 위해 사용되는 알고리즘이며, 돌연변이 유발에 있어
가장 영향력 있는 변수를 선택하는데 사용하였다.
4.5 알고리즘과 작성자 버전
Dragon 소프트웨어에 의해 생성되었고, 120 atom-cantered 단편 계산에
기초하였다.
- 47 -
산업체를 위한 QSAR 자료 제출 안내서
4.6 소프트웨어 명칭 및 버전
DRAGON
4.7 Chemicals/Desσiptors 비
39/4=9.75
5. 적용 범위의 정의 (OECD principle 3)
5.1 모델의 적용 범위
Williams 플롯에서 적용가능 범위는 표준편차(standard deviation, X)와
레버리지 한계값(leverage threshold, H*=0.307)내의 사각영역 내에서
가능하다(H*는 일반적으로 3p/n 이고, n은 훈련화합물의 개수, p는 모델
파라미터의 개수임, X=±3). Perez-Garrido 등(2009)를 참조
5.2 적용 범위를 평가하는데 사용된 방법
레버리지 값에 기반
5.3 적용 범위 평가를 위한 소프트웨어 명칭 및 버전
StatSoft STATlSTICA v 7.0 (http://www.statsoft.com)
5.4 적용 한계
한계값(H*=0.307)보다 큰 레버리지 값을 가지는 물질은 적용가능 영역의 범위
밖이다.
6. 적합도 및 견고성 (OECD Principle 4)
6.1 Training set 가용성
있음
6.2 Training set 정보
CAS 번호: 있음
화학물질명: 있음
SMILES: 있음
구조식: 없음
INChI: 없음
MOL file: 없음
- 48 -
산업체를 위한 QSAR 자료 제출 안내서
6.3 Training set 설명 변수에 대한 데이터
전체(AlI)
6.4 Training set 종속 변수에 대한 데이터
전체(All)
6.5 Training set 기타 정보
39 compounds, 27 positives, 12 negatives
6.6 데이터의 사전 처리
정확도: 모든 화학물의 백분율은 모델에 의해서 정확하게 확인함.
민감도: 돌연변이(양성, positive) 화학물의 백분율을 확인함.
특수도: 비돌연변이(음성, negative) 화학물의 백분율을 확인함.
정확도 87.17%, 민감도 88.88%, 특수도 83.33%,
False positives 16.66%, False negatives 11.11%
6.7 적합성에 대한 통계
7. 예측의 정의 (OECD Principle 4)
7.1 외부 검증 유효성
Yes
7.2 외부 검증에 대한 정보
CAS 번호: 있음
화학물질명: 있음
SMILES: 있음
구조식: 없음
INChI: 없음
MOL file: 없음
7.3 외부 검증에 대한 설명 변수의 데이터
전체(All)
7.4 외부 검증에 대한 종속 변수의 데이터
- 49 -
산업체를 위한 QSAR 자료 제출 안내서
전체(All)
7.5 외부 검증에 대한 기타 정보
9 compounds, 7 positives, 2 negatives
7.6 실험 설계
7.7 외부 검증에 의해 얻어진 통계치
민감도 85.71%, 특수도 100%, 정확도 88.88%,
False positives 0%, False negatives 14.28%
7.8 외부 검증에서의 예측 평가
Test set의 모든 화합물은 적용 가능 범위 내에 존재
7.9 모델 외부 검증에 대한 의견
8. 메커니즘 해석 (OECD principle 5)
8.1 모델의 기반 메커니즘
돌연변이는 카르보닐기 내에서 불포화된 알킬기, 체인형의 말단 위치의
이중결합에 영향을 받는다. 말단 탄소의 양전하의 안정화 때문에 친핵체
공격의 우선된 위치가 반응성의 결정적 요인이고, 이 특정은 Michael 첨가
유형 메커니즘과 일치한다.
8.2 사전 또는 사후 기계적 해석
사후 해석은 방정식 변수 기반
8.3 기타 정보
9. 기타 정보
9.1 의견
9.2 참고 문헌
[1JDuchowicz PR, Castro EA, Fernndez FM (2006). Alternative
algorithm for the search of an optimal set of descriptors in
qsar-qsar studies. MATCH Communications in Mathematical and in
Computer Chemistry 55, 179-192.
[2JGramatica P (2007). Principles of QSAR models validation: internal
- 50 -
산업체를 위한 QSAR 자료 제출 안내서
and external. QSAR&Combinatorial Science 26, 684-701.
[3JCohen J (1960). A coefficient of agreement for nominal scales.
Journal of Educational and psychological Measurement 30, 37-46.
[4JLandis JR & Koch GG (1977). The measurement of observer
agreement for categorical date. Biometrics 99, 159-174.
9.3 추가 정보
Training set(s) - MCGM Training_39.sdf
Test set(s) - MCGM Test_9.sdf
10. 인벤토리 정보
10.1 QMRF 번호
Q13-410-0047
10.2 출판일
2013년 6월 28 일
10.3 keywords
포유류 세포를 이용한 돌연변이시험, alpha, beta-불포화된 카보닐 화합물
10.4 의견
former Q14-26-8-160
- 51 -
산업체를 위한 QSAR 자료 제출 안내서
2.
QPRF 예
피부 과민성 (OECD 406) 예측결과에 의해 작성된 QPRF 예
1. 물질
1.1 CAS 번호
1657-16-5
1.2 KE 번호
KE-26018
1.3 화학물질명
Pigment Yellow, 2-((4-nitrophenyl)diazenyl)-3-oxo-N-phenylbutanamide
1.4 구조식
C16H14N4O4
O
N
HN
N
O
1.5 구조 코드
가. SMILES
O=C(C)[C@@H](/N=N/C1=CC=C([N+]([O-])=O)C=C1)C(NC2=CC=CC=C2)=O,
not used for prediction
나. InChI
lnChl= 1S/C16H14N4O4/c1-11(21)15(16(22)l7-12-5-3-2-4-6-12)19-18-13-7
-9-14(10-8-13)20(23)24/h2-10,15H,1H3,(H,17,22)/b19-18+/t15-/m1/s1, not
used for prediction
다. 기타 구조 표현
3D Mol file used for prediction
- 52 -
산업체를 위한 QSAR 자료 제출 안내서
라. 업체 화학적 특정
R, E 이성질체 고려
2. 일반정보
2.1 작성일
2012년 2 월 10 일
2.2 작성자와 연락처 :
Kaido Tamm, Ph.D; Tarmo Tamm, Ph.D
University of Tartu // Department of Chemistry
Ravila 14a, Tartu 50411, Estonia
Email: karu@ut.ee // Phone : +3725213075
3. 예측결과
3.1 Endpoint(OECD 원칙 1)
가. Endpoint :
인체 건강에 미치는 영향, 피부 과민성 (OECD 406) QSAR 4.6. Guinea pig
maximization test index.
나. 종속 변수 :
ss
3.2 알고리즘(OECD 원칙 2)
가. 모델 포는 서브모델 명
피부 과민성 : Guinea pig maximization test (ANN)
나. 모델 버전
10.10.2010
다. 참조 QMRF
"피부 과민성 (GPMT) 에 대한 비선형 ANN QSAR 모델" QMRF는 최근에
구성되었으며, 검토 단계에 있음
라. 예측 값(모델 결과)
- 53 -
산업체를 위한 QSAR 자료 제출 안내서
ss=0.92, class : 매우 강한 과민성 물질
마. 예측 값(평가)
매우 강한 과민성 물질
바. 예측을 위한 입력 값
3D Mol file
사. 기술자(Descriptor) 값
HOMO-LUMO 에너지 갭 (AM1)
7.33
C-H 결합 최저 공명 에너지 (AM1)
-11.12
C-H 결합 최고 n-n 반발 (AM1)
40.16
고리의 수
2
C-C 결합 최저 교환 에너지 (AM1)
7.92
C-H 결합 최고 쿨롱 상호 작용 (AM1)
3.85
O 원자 최대 친핵성 반응성 지수 (AM1)
5.4E-3
3.3 적용영역 (OECD 원칙 3)
가. 적용 범위
i. 기술자 영역
pigment yellow에 대한 모든 기술자 값들이 적용가능 영역에 포함된다.
(training set 값: ±30%)
ii. 구조 단편(fragment) 영역
Pigment yellow는 구조적으로 training set 화합물과 유사하다. training
set은 방향족 아조 화합물, 카르보닐, 나이트로 및 아마이드 작용기를
포함하고 연구대상 화합물과 유사한 크기의 화합물을 포함한다.
iii. 메커니즘 영역
Pigment yellow는 training set의 분자와 같은 메커니즘 영역 내에 있는
것으로 간주한다.
iv. 물질대사 영역 (관련된 경우)
해당 없음.
- 54 -
산업체를 위한 QSAR 자료 제출 안내서
나. 유사한 구조를 갖는 물질
다. 유사한 구조를 갖는 물질에 대한 고찰
유사한 구조를 갖는 물질은 연구대상 화합물과 유사하며, 이를 정확하게
평가하였다. 다양한 메커니즘이 가능하기 때문에 유사한 구조를 갖는 물질을
통한 직접적인 평가는 간단하지 않다. 하지만 피부 과민성에 중요한 인자인
친전자성 중심은 모든 구조에 존재한다.
3.4 예측의 불확실성 (OECD 원칙 4)
Training set은 하나의 lab 이 아닌 여러 lab 에서 구성하였다. 하지만
이전과 현재의 모델링을 통해 그 일관성을 입증하였다. 모델의 통계적 품질
또한 예측결과의 신뢰성을 뒷받침한다. 피부과민성은 메커니즘과 시험동물의
개별 반응이 다양해서 어려운 endpoint이다. 연구대상 화합물은 training set
화합물과 유사해 예측의 신뢰성을 높여준다. 모든 유사한 구조를 갖는 물질을
현 모델을 통해 올바르게 평가하였다.
Data set, 모델의 통계적 품질과 예측의 신뢰성을 고려한 본 예측의 신뢰성
점수(Klimisch score)는 "2" 이고 예측의 신뢰성은 88%로 추정된다.
3.5 예측 결과를 뒷받침하는 모델에 따른 화학적·생물학적 메커니즘(OECD 원칙 5)
피부과민성은 화학반응성에 기초한 메커니즘을 통해 설명한다(친전자체처럼
작용하는 화학물질). 대부분의 경우에서 피부 단백질에 공유 결합으로
결합하여 항원으로 작용한다. 피부과민성을 예측하기 위해서는 친전자성
반응을 예측하는 것이 중요하다. 본 모델은 이러한 영향을 설명하기 위한 화학
반응 기술자들을 포함한다. 가장 중요한 기술자 중 하나는 분자의 안정성과
- 55 -
산업체를 위한 QSAR 자료 제출 안내서
반응성을 설명하는 HOMO-LUMO energy gap 이 다. 반응 메커니즘과
관련해서 HOMO-LUMO 에너지 갭의 중요성은 확인되었고 다른 탄소나 산소,
수소의 반응 기술자 또한 frontier orbital energy gap 기술자에 기여한다.
4. 적절성 (선택)
4.1 규제 목적
본 예측은 European Chemicals Agency(ECHA)에 제 출하는 REACH Joint
Registration Dossier를 준비하기 위해 사용될 수 있다.
4.2 모델 결과 해석에 대한 접근
예측 결과를 규제 목적으로 바로 사용할 수 있는 형식으로 나타냈다.
4.3 결과
4.1 규제 목적에 비추어 3.2 (마) 예측 참조
4.4 결론
예측 결과는 4.1 에 기술한 규제 결론에 적합
- 56 -
산업체를 위한 QSAR 자료 제출 안내서
3.
외국의 QMRF 및 QPRF 예(영문)
3-1. QMRF
1.
QSAR identifier
1.1. QSAR identifier (title):
QSAR for acute oral toxicity (in vitro)
1.2. Other related models:
1.3. Software coding the model:
QSARModel 3.5.0 Molcode Ltd., Turu 2, Tartu, 51014, Estonia
http://www.molcode.com
2.
General information
2.l. Date of QMRF:
30.08.2009
2.2. QMRF author(s) and contact details:
Dana Martin, Tarmo Tamm, Gunnar Karelson, 1ndrek Tulp , Kaido
Tamm , Deniss Savchenko, Jaak Janes, Eneli Hark, Andres Kreegipuu,
Dimitar Dobchev, Mati Karelson, Molcode model development team
Molcode Ltd. Turu 2, Tartu, 51014,, Estonia models@molcode.com
http://www.molcode.com
2.3. Date of QMRF update(s):
2.4. QMRF update(s):
2.5. Model developer(s) and contact details:
Molcode model development team Molcode Ltd Turu 2, Tartu, 51014,
Estonia models@molcode.com http://www.molcode.co
2.6. Date of model development and/or publication:
30.08.2009
2.7. Reference(s) to main scientific papers and/or software package:
[l] Karelson M, Dobchev D, Tamm T, Tulp 1, Janes J, Tamm K,
- 57 -
산업체를 위한 QSAR 자료 제출 안내서
Lomaka A, Savchenko D & Karelson G (2008). Correlation of
blood-brain penetration and human serum albumin binding with
theoretical descriptors. ARKIVOC 16, 38-60.
[2] Karelson M, Karelson G, Tamm T, Tulp 1, Janes J, Tamm K,
Lomaka A, Savchenko D & Dobchev D (2009). QSAR study of
pharmacological Permeabilities. ARKlVOC 2, 218-238.
2.8. Availability of information about the model:
Model is proprietary, but the training and test sets are available.
2.9. Availability of another QMRF for exactly the same model:
None to date
3.
Defining the endpoint - OECD Principle 1
3.1. Species:
Rat and mouse
QMRF identifier (ECB Inventory): Q8-10-14-176
QMRF Title: QSAR for acute oral toxicity (in vitro)
Printing Date: Feb 16, 2010
3.2. Endpoint:
4.Human health effects 4.2.Acute oral toxicity
3.3. Comment on enpoint:
3.4. Endpoint units:
3.5. Dependent variable:
log(IC50) - logarithm of the half maximal inhibitory concentration
(IC50) in vitro.
The IC50 indicates how much of a particular substance (inhibitor) is
needed to inhibit a given biological process (or component of a
process) by half.
3.6. Experimental protocol:
Acute oral toxicity is determined using the OECD 420 and OECD 423
- 58 -
산업체를 위한 QSAR 자료 제출 안내서
(EU B.1.bis. and 1.B.tris.) test guidelines. Acute oral toxicity testing
allows to obtain the information on the biologic/toxic activity of a
chemical. Currently, the basis for toxicologic classification of
chemicals is the median lethal dose (LD50, mg/kg b. w.), which is
defined as the statistically derived dose required to kill half the
members of a tested population. Animals are observed individually
after dosing at least once during the first 30 minutes, periodically
during the first 24 hours, with special attention given during the first
4 hours, and daily thereafter, for a total of 14 days.
3.7. Endpoint data quality and variability:
The data were taken from Freidig et al., (2001). There are 50
compounds in the dataset of the in vitro cytotoxicity (median of
several IC50 values of different experiments) consisting of drugs,
agrochemicals and industrial chemicals. The IC50 values of tested
substances were translated to logarithmic scale (logIC50) to reduce
the range of the data Statistics:
max value: 2.97
min value: -4.27
standard deviation: 1.90
skewness: -1.00
4.
Defining the algorithm - OECD Principle 2
4.1. Type of model:
QSAR
4.2. Explicit Algorithm:
Multilinear regression QSAR
Log(IC50) = 5.48 -41.64 * Global softness: l/(LUMO - HOMO) (AMD-1.80 *
Number of carbonyl groups - 0.30 * Kier&Hall index (order 2)
4.3. Descriptors in the model:
[I]Global softness: 1/(LUMO - HOMO) (AM1)
- 59 -
산업체를 위한 QSAR 자료 제출 안내서
[2]Number of carbonyl groups
[3]Kier&Hall index (order 2)
4.4. Descriptor selection:
Initial pool of ~ 1000 descriptors. Stepwise descriptor selection based
on a set of statistical selection rules:
1. parameter equations: Fisher criterion and R2 over threshold,
variance and t-test value over threshold, intercorrelation with
another descriptor not over threshold
2. parameter equations' intercorrelation coefficient bellow threshold,
significant correlation with endpoint in terms of correlation
coefficient and t-test.
Stepwise trial of addition외 descriptors not significantly correlated to
any already in the model.
4.5. Algorithm and descriptor generation:
1D, 2D, and 3D theoretical calculations. Quantum chemical
descriptors derived from AM1 calculation. Model developed by using
multilinear regression.
4.6. Software name and version for descriptor generation:
QSARModel 3.5.0
Molcode Ltd., Turu 2, Tartu, 51014, Estonia
http://www.molcode.com
4.7. Descriptors/Chemicals ratio:
15 (45 chemicals / 3 descriptors)
5.
Defining the applicability domain - OECD Principle 3
5.1. Description of the applicability domain of the model:
Applicability domain based on training set:
a) by chemical identity: diverse set of chemically reactive organic
compounds (alcohols, carboxylic acids, nitriles, aromatic compounds,
- 60 -
산업체를 위한 QSAR 자료 제출 안내서
sulfur and phosphorous compounds, etc)
b) by descriptor value range: This model is suitable for compounds
that have the descriptors in the following range:
Global softness: l/(LUMO - HOMO) (AM1)(min: 0.047 , max: 0.169)
Number of carbonyl groups (min: 0 , max: 1)
Kier&Hall index (order 2) (min: 0, max: 24.362)
5.2. Method used to assess the applicability domain:
Presence of functional groups in structures
Range of descriptor values in training set with ±30% confidence
Descriptor values must fall between maximal and minimal descriptor
values of training set ±30%
5.3. Software name and version for applicability domain assessment:
QSARModel 3.5.0
Molcode Ltd., Turu 2, Tartu, 51014, Estonia
http://www.molcode.com
5.4. Limits of applicability:
6.
Internal validation - OECD Principle 4
6.1. Availability of the training set:
Yes
6.2. Available information for the training set:
CAS RN: Yes
Chemical Name: Yes
Smiles: No
Formula: No
INChI: No
MOL file: Yes
6.3. Data for each descriptor variable for the training set:
- 61 -
산업체를 위한 QSAR 자료 제출 안내서
All
6.4. Data for the dependent variable for the tr머ning set:
All
6.5. Other information about the training set:
45 data points: 14 negative: 31 positive values
6.6. Pre-processing of data before modeling:
6.7. Statistics for goodness-of-fit:
R2 = 0.85 (Correlation coefficient);
s = 0.59 (Standard error of the estimate);
F = 76.57 (Fisher statistic);
6.8. Robustness - Statistics obtained by leave-one-out cross-validation:
R2cv = 0.78 LOO;
6.9. Robustness - Statistics obtained by leave-many-out cross-validation:
R2cv = 0.83 LMO;
6.10.Robustness - Statistics obtained by Y-scrambling:
6.11.Robustness - Statistics obtained by bootstrap:
6.12.Robustness - Statistics obtained by other methods:
ABC analysis (2:1 training prediction) on sorted (in increasing order
of endpoint value) data divided into 3 subsets (A;B;C). Training set
formed with 2/3 of the compounds (set A+B, A+C, B+C) and
validation set consisted of 1/3 of the compounds (C, B, A)
Average R2 (fitting) = 0.862
Average R2 (prediction) = 0.802
7.
External validation - OECD Principle 4
7.l. Availability of the external validation set:
Yes
7.2. Available information for the external validation set:
- 62 -
산업체를 위한 QSAR 자료 제출 안내서
CAS RN: Yes
Chemical Name: Yes
Smiles: No
Formula: No
lNChI: No
MOL file: Yes
7.3. Data for each descriptor variable for the external validation set:
All
7.4. Data for the dependent variable for the external validation set:
All
7.5. Other information about the external validation set:
5 data points: 2 negative values: 3 positive values
7.6. Experimental design of test set:
The full experimental dataset was sorted according to increasing
values of loglC50 and each tenth compound was assigned to the test
set.
7.7. Predictivity - Statistics obtained by external validation:
R2=0.802
7.8. Predictivity - Assessment of the external validation set:
The descriptors for the test set are in the limit of applicability
7.9. Comments on the external validation of the model:
8. Providing a mechanistic interpretation - OECD Principle 5
8.1. Mechanistic basis of the model:
The acute oral toxicity depends on the stability and reactivity of the
compound, the number of carbonyl groups and the shape of the
molecule. Toxicity increases with increasing values of the descriptor
Global softness l/(LUMO-HOMO)(AM1). The presence of the carbonyl
- 63 -
산업체를 위한 QSAR 자료 제출 안내서
group in the molecule accounts for a higher toxicity. The descriptor
Kier&Hall index (order 2) shows that toxicity is also influenced by the
shape and size of the molecule.
8.2. A priori or a posteriori mechanistic interpretation:
A posteriori mechanistic interpretation, consistent with published
scientific interpretations of experiments.
8.3. Other information about the mechanistic interpretation:
The descriptor Global softness: 1/(LUMO - HOMO) (AMl)[l/eV] gives
information about the reactivity and stability of the molecule.
Increasing values for Global softness indicates a higher reactivity, so
toxicity increases for more reactive compounds. The descriptor
Number of carbonyl groups accounts for the presence of carbonyl
groups in the molecule. The Kier&Hall index (order 2) gives
information about different aspects of atom connectivity within a
molecule, about the branching of the ring structures and the
flexibility. The proposed mechanism based on the model agrees well
with literature (Freidig et al., 2007).
9.
Miscellaneous information
9.1. Comments:
9.2. Bibliography:
[1JFreidig AP, Dekkers S, Verwei M, Zvinavashe E, Bessems JGM &
van de Sandt JJM(2007). Development of a QSAR for worst case
estimates of acute toxicity of chemically reactive compounds.
Toxicology Letters 170, 214-222.
[2JNIEHS (2001). Guidance Document on Using ln Vitro Data to
Estimate ln Vivo Starting Doses for Acute Toxicity Based on
Recommendations from an lntemational Workshop Organized by the
lnteragency Coordinating Committee on the Validation of Altemative
Methods (ICCVAM) and the National Toxicology program (NTP)
lnteragency Center for the Evaluation of Alternative Toxicological
Methods (NICEATM), NIH Publication No. 01-4500.
- 64 -
산업체를 위한 QSAR 자료 제출 안내서
9.3. Supporting information:
Training set(s)
Training set(s)
Molcode acute oral training_45
http://qsardb.jrc.it:80/qmrf/download_attac
hment.jsp?name=qmrf176_Molcode
acute
oral training_45.sdf
Test set(s)
http://qsardb.jrc.it:80/qmrf/download_attac
OMRF_Molcode acute oral test_5 hment.jsp?name=qmrf176_OMRF acute oral
test_5.sdf
10. Summary (JRC QSAR Model Database)
10.1.QMRF number:
Q8-10-14-176
10.2.Publication date:
2010/02/09
10.3.Keywords:
Molcode, acute oral toxicity, cytotoxicity
10.4.Comments:
- 65 -
산업체를 위한 QSAR 자료 제출 안내서
3-2. QMRF
1.
QSAR identifier
1.1. QSAR identifier (title):
Caesar hybrid model for bacterial reverse mutation (Ames test)
1.2.Other related models:
Two models have been created and validated using a large set of
molecular structures accompanied by the respective mutagenic
toxicity experimental test results on Salmonella test. Model A is
based on data mining with support vector machines (SVM) and Model
B is based on expert knowledge coded as structural alerts (SA). The
final model C combines models A and B to achieve a better
predictive performance.
2.
General information
2.l. Date of QMRF:
20/11/2014
2.2. QMRF author(s) and contact details:
Emilio Benfenati Istituto di Ricerche Farmacologiche "Mario Negri"
emilio.benfenati@marionegri.it
2.3. Date of QMRF update(s):
2.4. QMRF update(s):
2.5. Model developer(s) and contact details:
[l] Thomas Ferrari Department of Electronics and Information (DED,
Politecnico di Milano
[2] Alberto Manganaro Istituto di Ricerche Farmacologiche "Mario
Negri"
2.6. Date of model development and/or publication:
The model was published in 2010 (see 2. 7).
- 66 -
산업체를 위한 QSAR 자료 제출 안내서
2.7. Reference(s) to main scientific papers and/or software package:
Ferrari T, Gini G (2010) An open source multistep model to predict
mutagenicity from statistical analysis and relevant structural alerts.
Chemistry Central Journal, 4(Suppl 1):S2
http://www.joumal.chemistrycentral.com/content/4/S1/S2
2.8. Availability of information about the model:
The software is and is freely available through the portal of the
CAESAR project. The training and test sets are available, see 9.3
Supporting information.
QMRF identifier (ECB Inventory):Q35-50-46-429
QMRF Title: Caesar hybrid model for bacterial reverse mutation
(Ames test) Printing Date:]un 23, 2015
2.9. Availability of another QMRF for exactly the same model:
3.
Defining the endpoint - OECD Principle 1
3.1. Species:
Salmonella typhimurium (Ames test)
3.2. Endpoint:
QMRF 4. Human Health Effects QMRF 4.10. Mutagenicity
3.3. Comment on endpoint:
Mutagenic toxicity is the capacity of a substance to cause genetic
mutations.
The Ames test is the basic in vitro assay to detect mutagens.
3.4. Endpoint units:
Adimensional
3.5. Dependent variable:
Classification as: mutagenic / non mutagenic
3.6. Experimental protocol:
- 67 -
산업체를 위한 QSAR 자료 제출 안내서
Ames test: an in vitro model of chemical mutagenicity and
carcinogenicity, and consists of a range of bacterial strains that
together are sensitive to a large array of DNA damaging agents.
3.7. Endpoint data quality and variability:
For the development and the validation of the model, the Bursi
Mutagenicity Dataset was used [ref.4, sect. 9.2J. The estimated
inter-laboratory reproducibility rate of Salmonella test data is 85%
[ref. 2, sect. 9.2J.
4.
Defining the algorithm - OECD Principle 2
4.1. Type of model:
An integrated model, Model C, was arranged by cascading the two
models:
Model A, a trained SVM classifier with an additional Model B for
false negatives (FNs) correction based on SAs. The SVM classifier is
the one described in the section 4.2 of the paper proposing the final
model (see 2.7), while the rulebase for the expert filter was extracted
from the Benigni/Bossa SAs [ref. 4; sect. 9.2J set.
4.2. Explicit algorithm:
Data mining with SVM coupled with knowledge based SAs for the
correction of FNs. The model consists of a complex architecture
based on support vector machines model revised by structural alerts.
First, the SVM identifies mutagens. The predicted non-mutagens are
then processed with the second model, Model B, based on two sets
of structural alerts. lf an alert of the first set is found (see 4.3
descriptors from #26 to #37), the chemical is labelled "mutagen";if an
alert of the second set is found (see 4.3 descriptors from #38 to
#41), the chemical is labelled " suspicious mutagen". Unaffected
chemicals are finally labelled " non-mutagens". The second set of
alerts is used to detect potential mutagens. An integrated model,
Model C, was arranged by cascading the two models: Model A, a
trained SVM classifier with an additional Model B for false negative
- 68 -
산업체를 위한 QSAR 자료 제출 안내서
(FN) removal based on SAs.
4.3. Descriptors in the model:
[1]SsCH3_acnt Count of all ( - CH3 ) groups in molecule
[2]SdCH2_acnt Count of all ( = CH2 ) groups in molecule
[3]SssCH2_acnt Count of all ( - CH2 - ) groups in molecule
[4]SdsCH_acnt Count of all ( = CH - ) groups in molecule
[5]SaaCH_acnt Count of all ( CH ) groups in molecule
[6]SsssCH_acnt Count of all ( > CH - ) groups in molecule
[7]SdssC_acnt Count of all ( = C < ) groups in molecule
[8]SaasC_acnt Count of 외1 ( CH ) groups in molecule
[9]SaaaC_acnt Count of 외1 ( CH ) groups in molecule
[10]SssssC_acnt Count of all ( > C < ) groups in molecule
[11]SsNH2_acnt Count of all ( - NH2 ) groups in molecule
[12]StN_acnt Count of all ( ≡ N ) groups in molecule
[13]SdsN_acnt Count of all ( = N - )groups in molecule
[14]SaaN_acnt Count of all ( N )groups in molecule
[15]SsssN_acnt Count of all ( > N - )groups in molecule
[16]SdaaN_acnt Count of all ( N ) groups in molecule
[17]SsOH_acnt Count of all ( - OH ) groups in molecule
[18]SdO_acnt Count of all ( = O ) groups in molecule
[19]SssO_acnt Count of all ( - O - ) groups in molecule
[20]SaaO_acnt Count of all ( O ) groups in molecule
[21]SHCHnX_Acnt Count of all CH or CH2 groups with a -F or -Cl
also bonded to the carbon
[22]Gmin Smallest atom E-State value in molecule
[23]idwbar Bonchev-Trinajsti mean information content
[24]ALOGP (DRAGON) Ghose-Crippen octanol water coefficient
(calculated by DRAGON)
[25]nrings Number of rings Ccyclomatic number)in a molecular graph
[26]SA 1 Acyl halides
[27]SA 6 Propiolactones or propiosultones
[28]SA 12 Quinones
[29]SA 13 Hydrazine
- 69 -
산업체를 위한 QSAR 자료 제출 안내서
[30]SA 14 Aliphatic azo and azoxy
[31]SA 16 alkyl carbamate and thiocarbamate
[32JSA 18 Polycyclic Aromatic Hydrocarbons
[33]SA 21 alkyl and aryl N-nitroso groups
[34]SA 22 Azide and triazene groups
[35]SA 25 Aromatic nitroso group
[36]SA 28bis Aromatic mono- and dialkylamine
[37]SA 29 Aromatic diazo
[38]SA 7 Epoxides and aziridines
[39]JSA 8 Aliphatic halogens
[40]SA 19 Heterocyclic Polycyclic Aromatic Hydrocarbons
[41]SA 27 Nitro-aromatic
4.4. Descriptor selection:
For the SVM classifier, 254 molecular descriptors were initially
calculated using the MDL QSAR commercial software. Then, a subset
of 25 descriptors was selected by using the tools provided by the
Weka 3.5.8 environment for data mining. The BestFirst algorithm was
used as bidirectional search method in the descriptor subsets, using
as subset evaluator the 5-fold cross-validation score on the training
set (in short: BestFirst algorithm searches the space of attribute
subsets by greedy hill climbing, considering all possible single
attribute additions and/or deletions at a given point, with a
backtracking facility to explore also non-improving nodes). The
structural alerts were selected from the Benigni/Bossa set of 30
genotoxic alerts after an analysis of their individual effects, evaluated
on the structures of the training set labelled non-mutagenic by
5-fold cross validation of the model.
4.5. Algorithm and descriptor generation :
1D and 2D descriptors
4.6. Software name and version for descriptor generation:
MDL_QSAR software
http://mdl.com
- 70 -
산업체를 위한 QSAR 자료 제출 안내서
Toxtree
SAs have been implemented by using SMARTS within CAESAR.
ldeaconsult Ltd
https://eurl-ecvam.jrc.ec.europa.eu/laboratories-research/predictive_toxicology/qsar_tools
DRAGON for LOGP
http://www.taIete.mi.it/
CAESAR software
Commercial descriptors used in the development of the software
have been reimplemented by an in-house JAVA software application,
developed by Todd Martin CEPA), based on the CDK
open-source libraries.
http://www.caesar-project.eu/software/
4.7. Chemicals/Descriptors ratio:
3367 chemicals (training) / 41 descriptors = 82.1
5.
Defining the applicability domain - OECD Principle 3
5.l. Description of the applicability domain of the model:
The model is applicable to heterogeneous chemicals. In the software
implementation of the model several pieces of information are given
to evaluate if a prediction is reliable (chemical falling in the
Applicability Domain or not). The information about Applicability
Domain (AD) is combined into a unique index called Global
Applicability Domain Index (ADI). Global AD Index values range
between 0 and 1. ADI 0.9 means that the compound is in the AD,
ADI < 0.7 means that the compound is out of the AD, a value
between 0.7 and 0.9 means that the compound is possibly out of the
AD.
- 71 -
산업체를 위한 QSAR 자료 제출 안내서
5.2. Method used to assess the applicability domain:
The Applicability Domain of the model is defined by considering
several parameters as described below:
1. Similar molecules with known experimental values: this parameter
is an index of the similarity of the six compounds most similar to
the target chemical. The similarity value ranges between 0 and 1: a
value of 1 means identity (in case of certain polycyclic aromatic
compounds with very similar arrangements of the fused rings,
similarity can be 1 even for non-identical compounds). lf the
similarity value is low (< 0.7) the prediction of the CAESAR model
may be less reliable, because in the set of chemicals used to build
up CAESAR the substances were quite diverse from the target
chemical.
2. Concordance for similar molecules' this parameter is an index of
the concordance between the experimental values of the three most
similar compounds, and the predicted value of the target compound.
Concordance is defined as the agreement between the experimental
value of a similar compound, and the predicted value of the target
compound. lf there is disagreement, this is an indication of the
possible poor reliability of the CAESAR prediction for the target
compound. The concordance evaluation should be limited to the
most similar compounds, typically up to the three most similar
compounds, or fewer if similarity is low.
3. Accuracy of prediction for similar molecules: this parameter is an
index of the accuracy of the prediction of the three most similar
compounds. Accuracy is defined as the agreement between the
experimental and the predicted value for certain compound. lf there
is disagreement, this is an indication of the possible poor reliability
of the CAESAR prediction for the target compound. The accuracy
evaluation should be limited to the most similar compounds, typically
up to the three most similar compounds, or less if similarity is
fewer.
- 72 -
산업체를 위한 QSAR 자료 제출 안내서
4. Model descriptors range check: this parameter is a boolean value
that evaluates if the calculated descriptors have values inside the
descriptor range of the compounds of the training set.
5.3. Software name and version for applicability domain assessment:
CAESAR Mutagenicity Model 2. O.
This is the standalone version of the CAESAR Mutagenicity Model
1.0, which implements the mutagenicity endpoint. The Applicability
Domain tool is the main improvement compared to the previous
version.
coord@caesar-project.eu
http://www.caesar-project.eu/software/
5.4. Limits of applicability:
The model is suitable for compounds that have the descriptors in
the following ranges:
SsCH3_acnt min 0 - max 16; SdCH2_acnt min 0 - max 3;
SssCH2_acnt min 0 - max 39; SdsCH_acnt min 0 - max 18;
SaaCH_acnt min 0 - max 20; SsssCH_acnt min 0 - max 26;
SdssC_acnt min 0 - max 36; SaasC_acnt min 0 - max 18;
SaaaC_acnt min 0 - max 12; SssssC_acnt min 0 - max 10;
SsNH2_acnt min 0 - max 8; StN_acnt min 0 - max 4;
SdsN acnt min 0 - max 6; SaaN acnt min 0 - max 5;
SsssN acnt min 0 - max 6; SdaaN acnt min 0 - max 2;
SsOH acnt min 0 - max 14; SdO acnt min 0 - max 31;
SssO acnt min 0 - max 14; SaaO acnt min 0 - max 2;
SHCHnX_Acnt min 0 - max 6; Gmin min -9.06 - max 2.25;
idwbar min 0 - max 14.28; nrings min 0 - max 10; ALOGP min -12.9
- max 13. 59;
The user has also to evaluate the ADl described in 5. 1.
6.
Internal validation - OECD Principle 4
6.1. Availability of the training set:
Yes
6.2. Available information for the training set:
- 73 -
산업체를 위한 QSAR 자료 제출 안내서
CAS RN: Yes
Chemical Name: Yes
Smiles: Yes
Formula: Yes
INChI: No
MOL file : Yes
6.3. Data for each descriptor variable for the training set:
All
6.4. Data for the dependent variable for the training set:
All
6.5. Other information about the training set:
The training set is provided in supporting information
(trainingSet_mutagenicity.x1s). In the "Exp class" and "Muta class"
fields 0 means "non Mutagenic", 1 means "Mutagenic" and -1 means
"Not calculated". In a molecular descriptor field a value of -999
means " Not A Number".
6.6. Pre-processing of data before modelling:
All chemical structures have been checked manually
6.7. Statistics for goodness-of-fit:
lf "suspicious" predictions are taken as "mutagenic"
Accuracy = 90.7%
Sensitivity = 96.3%
Specificity = 83.5%
lf "suspicious" predictions are taken as "non-mutagenic"
Accuracy = 92.5%
Sensitivity = 95.5%
Specificity = 88.6%
- 74 -
산업체를 위한 QSAR 자료 제출 안내서
6.8. Robustness - Statistics obtained by leave-one-out cross-validation:
6.9. Robustness - Statistics obtained by leave-many-out cross-validation:
6.10.Robustness - Statistics obtained by Y-sσambling:
6.11.Robustness - Statistics obtained by bootstrap:
6.12.Robustness - Statistics obtained by other methods:
7.
External validation - OECD Principle 4
7.l. Availability of the external validation set:
Yes
7.2. Available information for the external validation set:
CAS RN: Yes
Chemical Name: Yes
Smiles: Yes
Formula: Yes
INChI: No
MOL file: Yes
7.3. Data for each descriptor variable for the external validation set:
All
7.4. Data for the dependent variable for the external validation set:
All
7.5. Other information about the external validation set:
The test set is provided in supporting information
(testSet_mutagenicity.xls). In the "Exp class" and "Muta class" fields 0
means "non Mutagenic", 1 means "Mutagenic" and -1 means "Not
calculated". In a molecular descriptor field a value of -999 means
"Not A Number".
7.6. Experimental design of test set:
No selection of chemicals prior to experimentation
- 75 -
산업체를 위한 QSAR 자료 제출 안내서
7.7. Predictivity - Statistics obtained by external validation:
If "suspicious" predictions are taken as "mutagenic":
Accuracy = 81.8%
Sensitivity = 89.7%
Specificity = 72%
If "suspicious" predictions are taken as "non-mutagenic":
Accuracy = 82.1%
Sensitivity = 86.7%
Specificity = 76.3%
7.8. Predictivity - Assessment of the external validation set:
7.9. Comments on the external validation of the model:
13% of False Negatives in the SVM predictions are corrected by the
first set of structural alerts. By applying even the second set of
alerts (i. e., "suspicious" predictions are taken as "mutagenic") more
than one-third of False Negatives is corrected (35%) boosting
sensitivity to 90% without noticeably downgrading prediction
accuracy.
8. Providing a mechanistic interpretation - OECD Principle 5
8.l. Mechanistic basis of the model:
The model includes SAs to identify toxic compounds, according to
the mechanistic basis described by the Benigni-Bossa rules. In
addition a stochastic model is included, to provide basis also for
negative results.
8.2. A priori or a posteriori mechanistic interpretation:
A priori
8.3. Other information about the mechanistic interpretation:
9.
Miscellaneous information
9.l. Comments:
- 76 -
산업체를 위한 QSAR 자료 제출 안내서
9.2. Bibliography:
[1]Ferrari T & Gini G (2010) An open source multistep model to
predict mutagenicity from statistical analysis and relevant structural
alerts. Chemistry Central Journal, 4(Suppl 1):S2
http://www.joumal.chemistrycentral.com/content/4/S1/S2
[2]Piegorsch WW & Zeiger E (1991) Measuring intra-assay agreement
for the Ames salmonella assay. ln Statistical Methods in Toxicology,
Lecture Notes in Medical Informatics. Edited by Hotom L.
Springer-Verlag, 35-41
[3]Benigni R, Bossa C, Jeliazkova N, Netzeva T & Worth A (2008). The
Benigni/Bossa rulebase for mutagenicity and carcinogenicity - a
module of Toxtree. EUR 23241 EN.
http://publications.jrc.ec.europa.eu/repository/bitstream/111111111/10
28/1/eur%20report%20benigni%20130208%20final.pdf
[4]Kazius J, Mcguire R & Bursi R (2005) Derivation and validation of
toxicophores for mutagenicity prediction. Journal of Medicinal
Chemistry, 48(1), 312-320.
http://pubs.acs.org/doi/abs/10.1021/jm040835a
9.3. Supporting information:
Training set(s)
Training set(s)
Muta_training_4204
http://qsardb.jrc.it:80/qmrf/download_attac
hment.jsp?name=qmrf429_Muta_training_42
04.sdf
Test set(s)
Muta_test_837
http://qsardb.jrc.it:80/qmrf/download_attac
hment.jsp?name=qmrf429_Muta_test_837.sdf
10. Summary (JRC QSAR Model Database)
10.1.QMRF number:
Q35-50-46-429
10.2.Publication date:
2015/01/21
- 77 -
산업체를 위한 QSAR 자료 제출 안내서
10.3.Keywords:
Salmonella typhimurium, bacterial reverse mutation, Ames test,
CAESAR, mutagenicity
10.4.Comments:
- 78 -
산업체를 위한 QSAR 자료 제출 안내서
3-3. QPRF
The adequacy of a prediction depends on the following conditions: a) the
QSAR model is scientifically valid: the scientific validity is established
according to the OECD principles for QSAR validation; b) the QSAR model
is applicable to the query chemical: a QSAR is applicable if the query
chemical falls within the defined applicability domain of the model; c)the
QSAR result is reliable: a valid QSAR that is applied to a chemical falling
within its applicability domain provides a reliable result; d) the QSAR
model is relevant for the regulatory purpose: the predicted endpoint can
be used directly or following an extrapolation, possibly in combination with
other information, for a particular regulatory purpose.
A QSAR prediction (model result) may be considered adequate if it is
reliable and relevant, and depending on the totality of information
available in a weight-of-evidence assessment (see Section 4 of the QPRF).
1.
Substance
1.1 CAS number: 50-00-0
1.2 EC number: 200-001-8
1.3 Chemical name:
Formaldehyde, methyl aldehyde
1.4 Structural formula:
CH2O
1.5 Structure codes:
O
H
H
- 79 -
산업체를 위한 QSAR 자료 제출 안내서
a. SMILES:
C=O, not used for prediction
b. InChI:
1/CH2O/cl-2/h1H2, not used for prediction
c. Other Structural representation:
Mol file used for prediction
d. Stereochemical features:
n/a
2.
General information
Date of QPRF:
22.05.2010
2.1 QPRF' author and contact details:
Molcode moldel development team.
Molcode Ltd., Turu 2, Tartu, 51014, Estonia,
http://www.molcode.com.models@molcode.com
3.
Prediction
3.1 Endpoint (OECD Principle 1)
a. Endpoint:
4.Human health effects 4.9.Eye irritation/corrosion
(B.5 - REACH code)
b. Dependent variable:
log (MMAS/Po )
3.2 Algorithm (OECD Principle 2)
a. Model or submodel name:
QSAR model for Eye irritation (Draize test)
- 80 -
산업체를 위한 QSAR 자료 제출 안내서
b. Model version: 30.01.2009
c. Reference to QMRF:
Q2-22-1-135 (http://qsardb.jrc.ec.europa.eu/qmrf/)
d. Predicted value (model result):
SP = -4.21
e. Predicted value (comments):
The predicted value MMAS/PO = 6.17 x10-05 corresponds to "very
strong irritant" on the scale of "non irritant, weak irritant, moderate
irritant, strong irritant, very strong irritant".
f. Input for prediction:
Mol file, as shown in 1.5
g. Descriptor values:
Gravitation index (all bonds) (AM1) 147.21
Max nucleophilic reactivity index (AM1) for C atoms 7.43E-003
Lowest e-e repulsion (1-center) (AM1) 2.79
HASA-1/TMSA (AM1) 0.37
3.3 Applicability domain (OECD principle 3)
a. Domains:
i. descriptor domain
Almost all descriptor values for formaldehyde fall in the applicability
domain (training set value ±30%). The exception is the value of
HASA-1/TMSA (AMD that is exceptionally large (about 150% of the
largest value in training set) due to the small size (and, hence,
TMSA) of the molecule. However, this is expected behaviour and this
value may still be considered acceptable.
ii. structural fragment domain
Formaldehyde is structurally similar to the training set compounds
iii. mechanism domain
- 81 -
Formaldehyde is considered to be in the same mechanistic domain
as the molecules in the training set.
iv. metabolic domain, if relevant
n/a
b. Structural analogues:
c. Considerations on structural analogues:
The eye irritation values for small alcohols and ketones fall in the
same range as the predicted value for formaldehyde. The structural
analogues are considered to fall within the same mechanistic domain
3.4 The uncertainty of the prediction (OECD principle 4)
The training set is not from one lab but a collection. However, it has
been shown to be of reasonable quality. Formaldehyde is slightly
smaller than typical representatives of the training set.
3.5 The chemical and biological mechanisms according to the model
underpinning the predicted result (OECD principle 5).
Overall, the eye irritation is known to have positive correlation with
the polarity/water solubility of a compound. Being slight1y smaller
than the structural analogues, polar, hydrogen bond forming, and
highly water soluble, formaldehyde is predicted to be a very strong
irritant. The key issues for an irritant are the transport from eye
surface into the biophase, binding to the phospholipid membrane and
possible binding to the receptor.
- 82 -
산업체를 위한 QSAR 자료 제출 안내서
4.
독성 항목별 활용 가능한 (Q)SAR 모델
4-1. 인체독성
공개(무료)
상용(유료)
구분
VEGA
T.E.S.T
OCHEM
LAZAR
ToxTree
(AMBIT)
(Oral rat
LD50)
-HC
-FDA
-NN
-Consensus
급성경구독성
CORAL
Toxicity
in rats
(LD50)
기타
TOPKAT
기타
*ACD/ToxS
uite
-Rat Oral *ADMETPre
LD50
dictor
-RatMaxTol *CASEUltra
Dose
(MultiCASE)
*TerraQSAR
-Benigni/Bo
-DSSTox
Carcinogen ssaRules
ic Potency for
(AmesTest) (AmesTest)
carcinogen
DBS
-CAESAR -HC
Mutagenici icity and
-SarPy/IRF -FDA
mutagenici Mutagenic
Ames test ty
복귀돌연변이 MN
ty
ity
-NN
-Kazius-Bur-in
-ISS
vitro
(TA98)
-Consensus
si
-kNN/Read
mutagenici
Salmonella
-Acrosos
mutagenici ty(Ames
test) alert
ty
by ISS
*ACD/ToxS
uite
*Bio-Loom
*CASEUltra
*DEREKNex
Ames
us
Mutagenici *HazardExp
ty
ert
피부자극성
/부식성
Skin
Irritation
Skin
Irritancy
SA for
MoA
Skin
Sensitization
Eye
Irritation
Ocular
Irrtancy
*ACD/Irrita
tion
*DEREKNex
us
*MolCode
- Rat
Chronic
LOAEL
*ADMETPre
dictor
*MolCode
피부과민성
CAESAR
*Molcode
*OASIS-TIM
ES
*PASS
*TerraQSAR
*DEREKNex
us
*ACD/ToxS
uite
급성경피독성
또는
급성흡입독성
눈자극성
/부식성
포유류배양
세포를 이용한
염색체이상
시험동물을
이용한
유전독성
반복투여독성
(28일)
Toxmicrule
base
-FDA v3b
Maximum
Recommen
ded Daily
Dose mmol
- 83 -
산업체를 위한 QSAR 자료 제출 안내서
공개(무료)
상용(유료)
구분
VEGA
생식 및 발달 -Dev/Rep
Toxicity
독성스크리닝 Library
(PG)
T.E.S.T
OCHEM
LAZAR
ToxTree
(AMBIT)
(Developm
entalToxici
ty)
-HC
-SM
-FDA
-NN
-CAESARRF
-Consensus
CORAL
기타
TOPKAT
기타
Develop.
Tox.
Potential
추가유전독성
(생식세포
유전독성 등)
-FDA v3b
Maximum
Recommen
ded Daily
Dose mmol
반복투여독성
(90일)
최기형성
Rat
Chronic
LOAEL
*ADMETPre
dictor
*Bio_Loom
- Develop. *DEREKUltra
Tox.
*HazardExp
Potential
ert
*CASEUltra
*MolCode
*PASS
-Developme
ntal
(CAESAR)
2세대
생식독성
발암성
-CAESAR
-ISS
*ADMETPre
dictor
*MolCode
-DSSTox
Carcinogen
ic Potency
DBS
Hamster
-DSSTox
Carcinogen
ic Potency
DBS
Mouse
-DSSTox
Carcinogen
ic Potency -Cramer &
DBS
MultiCellCa Extended
Cramer
ll
rules
-DSSTox
Carcinogen
ic Potency
DBS Rat
-DSSTox
Carcinogen
ic Potency
DBS
SingleCellC
all
-DSSTox
ISSCANv3a
Canc
- 84 -
-NTPRodent
Carcino.
-FDARodent
Carcino.
-WoECarcino.
산업체를 위한 QSAR 자료 제출 안내서
4-2. 환경독성
공개(무료)
상용(유료)
구분
EPI Suite
어류급성독성 ECOSAR
이분해성
물벼룩
급성독성
VEGA
T.E.S.T
OCHEM
-Fathead
Minnow
LC50 96h
(EPA)
-Fish Acute (Fathead
(LC50)Toxic minnow
ity
LC50,96hr)
Classificati -HC
on by
-SM
SarPy/IRF -GC
MN
-FishAcute -FDA
-NN
(LC50)
-Consensus
Toxicity
Classificati
on by
Knn/ReadAcross
LAZAR
CORAL
EPA v4b
Fathead
Minnow
Acute
Toxicity
LC50_mmol
TOPKAT
기타
Fathead
Minnow
LC50
BIOWIN(#:7) IRFMN
ECOSAR
기타
*CRAFT
(Daphnia
magna
LC50, 48hr)
-HC
-SM
-GC
-Daphnia
(T.pyriform
-FDA
magna
is IGC50,
-NN
LC50 48h -Consensus 48hr)
(EPA)
-HC
-Daphnia
(T.pyriform -SM
magna
is IGC50, -GC
LC50 48h
-FDA
48hr)
(DEMETRA) -HC
-NN
-Consensus
-SM
Toxicity
toward
Daphnia
magna
Daphnia
EC50
*ADMETPre
dictor
*MolCode
*TerraQSAR
-GC
-FDA
-NN
-Consensus
담수조류
생장저해
ECOSAR
pH에 따른
가수분해
HYDROWIN
*Molcode
*SPARC
본질적분해성 BIOWIN(#:1)
분해산물의
확인
*CRAFT
어류만성독성 ECOSAR
- 85 -
*MetabolExp
ert
*MetaSite
*METEOR
*VolSurf
산업체를 위한 QSAR 자료 제출 안내서
공개(무료)
상용(유료)
구분
EPI Suite
물벼룩
만성독성
ECOSAR
육생식물
급성독성
ECOSAR
VEGA
T.E.S.T
OCHEM
LAZAR
CORAL
기타
TOPKAT
기타
* MolCode
육생
무척추동물
급성독성
* MolCode
활성슬러지
호흡저해
-AQTESOLV
-AquiferTest
-GPS-X
-MICROexpe
rt
-MolCode
-OPTImaster
-PetWin+
-SRTmaster
-VisualWater
Designer
STPWIN
흡착 및 탈착 KOCWIN
환경거동 및
동태에 대한
추가정보
*BASL4
EPI SUITE
*MolCode
(Bioaccumul
ation
-CAESAR
factor)
BCFBAF
-Meylan
-HC
(BCF:2;BAF:1) -KNN/Read- -SM
Across
-GC
-FDA
-NN
-Consensus
*ACD/LogD
Suite
*ASTERexpe
rtsystem
*MolCode
*CASEUltra
*OASISCAT
ABOL
육생식물
만성독성
육생
무척추동물
만성독성
흡착 및
탈착에 대한
추가정보
저서생물
만성독성
생물농축성
*FishModel
*TAOBACmo
del
- 86 -
산업체를 위한 QSAR 자료 제출 안내서
산업체를 위한
QSAR 자료 제출 안내서 (2021)
편 집 : 환경건강연구부 화학물질등록평가팀
두용균, 안정민, 김웅, 이시원, 이가인
인 쇄 : 2021년 02월
발 행 : 2021년 02월
펴 낸 이 : 국립환경과학원장
주 소 : (우) 404-708 인천시 서구 환경로 42 종합환경연구단지
국립환경과학원 환경건강연구부 화학물질등록평가팀
전 화 : 032) 560-7211
팩 스 : 032) 568-2038
- 87 -
Download