Block 크기가 극치 파고 자료의 독립에 미치는 영향분석
Analysis of the Block Size Effects on the Extreme Wave Data Independence
Article information
Abstract
영역크기 변화에 따른 극치자료의 독립조건에 대한 검증을 수행하였다. 연구에 사용한 자료는 울릉도-독도 해역에 위치하는 KMA 부이, KHOA 부이 설치지점에서의 후측 파랑자료를 이용하였다. 다양한 크기의 Block 크기 조건에서 추출되는 극치자료의 독립검정과 더불어 연간 변화 양상이 뚜렷한 파고변화와 최대유의파고의 상관분석도 수행하였다. 통계적인 검정 기법을 적용한 결과, AM 기법은 극치자료의 독립조건을 모두 만족하였다. Block 개수를 세분화해서 분석한 결과, Block 개수가 3~4개까지는 극치값 간의 독립성이 유지되었으나, 이보다 더 큰 Block 개수 에서는 독립성이 저하되었다. 또한 Block 영역의 최대와 중위수(median)와의 상관 검정도 유사한 결과를 보이는 것 으로 파악되었다. 이러한 분석 결과로부터, Block 크기를 2~4개 영역(계절시간 규모) 조건에서 극치를 추출하는 경 우, AM 기법의 매우 적은 자료개수 문제를 어느 정도 회복할 수 있으며, 자료개수 증가에 따른 추정 오차구간 감소 에 기여할 것으로 판단된다.
Trans Abstract
Statistical tests of the independence for extreme data under varying block sizes are carried out. The data used in this study were 30 minutes-interval hindcast wave data at the KMA and KHOA buoy installation sites in the Ulleungdo-Dokdo waters. In addition to independence tests for extreme data extracted under various block sizes, we also performed correlation analyses between median wave height and maximum wave heights, because the mean wave height exhibit distinct seasonal variation patterns. Statistical testing revealed that the AM technique satisfies all independence conditions for extreme data. Furthermore, when the number of blocks per year was increased, independence was preserved up to approximately three to four (i.e., 3~4 blocks per year), whereas a larger number of blocks led to a violation of the independence assumption. Correlation tests between the maximum and median of the block sizes also yielded similar results. These analyses suggest that extracting extreme data under block sizes of two to four (seasonal time scales) can cope with the small data set limitations of the AM technique to some extent and contribute to a reduction in the estimation error range as the number of data increases.
1. 서 론
극치해석에서 사용되는 극치 자료는 일반적으로 장기 파랑 자료에서 어떤 기준 조건을 만족하는 표본 자료에 해당한다. 그리고 극치해석은 그 극치자료의 분포함수 추정 과정이 필수적이기 때문에 극치자료는 독립 조건을 만족하여야 한다(Coles, 2001; Goda, 2010). 극치자료 추출(표본추출) 방법은 BM(block maxima), POT(peaks over threshold) 기법이 가장 널리 이용되고 있으며, BM 조건을 이용한 극치 파고 추출은 일반적으로 Block 크기를 Annual 크기로 지정하는 AM(annual maxima) 기법을 이용하고 있으나, 매년 하나의 자료만을 추출하기 때문에 장기간의 가용 관측자료가 없는 경우에는 50~100년 정도의 장기 재현기간에 대한 추정 설계파고는 매우 큰 불확실성을 수반하게 된다. 한계를 보완하기 위해 Block 크기를 조정하여 월별 또는 주별 극치값을 이용하는 접근법이 제안되었으며, Teena et al.(2012)은 인도 서해안의 파랑자료를 이용하여 연·월·주 단위 Block 크기에 따른 극치값의 RMSE 및 계절적(몬순기-비몬순기) 변동성을 분석한 바 있다. 이는 블록 크기의 설정이 극치값의 통계적 안정성과 계절 특성에 직접적인 영향을 미친다는 점을 보여준다. 그러나 대부분의 극치해석 연구는 특정 해역을 대상으로 극치해석 기법을 이용하여 재현기간에 따른 파고 추정연구에 집중되어 있다(Jeong et al., 2004; Alsaaq and Shamji, 2022). 또한 극치해석의 규모와 시기에 따라 후측자료를 사용하는 경우가 증가하고 있다(MOF, 2019; Ahn and Neary, 2024; MOF, 2025). 한편, 이러한 불확실성을 저감하는 방법으로 극치 자료의 개수를 늘리는 방법이 필요하다. 이 방법으로는 POT 기법 또는 상위 몇 개 만의 자료를 이용하는 ‘r-largest’ 기법이 제안되고 있다. 전반적으로 극치해석은 특정한 기법, 분포 하나만을 결정하여야 하는 경우가 아니고는 BM, POT, Top-r-largest(이하 TR) 기법 등이 이용되고 있는 상황이며, 분포함수로는 GEV(일반화된 극치, generalized extreme value) 분포(Kim et al., 2006) GP(일반화된 pareto, generalized Pareto) 분포함수가 널리 이용되는 상황이다(Coles, 2001; Li et al., 2016; Naseef and Sanil Kumar, 2017; Niroomandi et al., 2018; Katalinic and Parunov, 2020). 그러나 이 방법은 적절한 Threshold 지점, 연속 극치 자료의 독립조건 등을 만족하는 기간 설정 등이 요구된다. POT 기법 적용에서 요구하는 매개변수 추정은 다양한 방법이 제시되고/적용되고 있는 상황으로 경험적인 요소가 크게 작용하고 있다. 최근에는 적절한 POT 매개변수 추정 기법, 적절한 BM 기법의 Block 크기 추정연구 등이 수행되고 있는 상황이다(Ozari et al., 2019).
따라서 본 연구에서는 기존의 AM 기법의 단점으로 인식되는 Annual 크기 조건에서 추출되는 작은 표본 개수 문제를 해결하기 위하여 보다 작은 시간 규모의 Block 크기 조건을 적용하는 방법을 제안한다. Block 크기를 작게 하는 조건에서는 표본으로 추출되는 극치자료는 증가한다. 그러나 이 조건에서 추출되는 극치 자료도 통계적으로 극치분포 적합 과정을 거쳐야 하는 자료로, 독립조건(엄격한 의미로는 IID 가정)을 만족하여야 한다. 본 연구에서는 다양한 Block 크기 조건에서 추출되는 표본에 대하여 다양한 기법, 변수를 대상으로 독립검정을 수행하였으며, 계절적인 변화 양상이 뚜렷한 평균 파고 변화 양상과 추출되는 극치자료의 상관 검정을 통하여 추출되는 극치자료의 통계적인 요구조건 만족 여부를 판단하였다. 이 과정을 통하여 적절한 또는 축소가능한 Block 크기를 결정하여 제안하는 것을 목적으로 한다.
2. 재료 및 방법
2.1 후측(hindcast) 파랑 자료
본 연구에서 사용한 자료는 KMA(Korea Meteorological Administration, 기상청) 울릉도 부이지점, KHOA(Korea Hydrographic and Oceanographic Agency, 해양조사원) 울릉도 북동-북서 부이 설치지점에서 산출된 후측 파랑자료를 이용하였다. 이 자료는 전국파랑관측자료 제공시스템(Wave Information Network of Korea, www.wink.go.kr, 이하 WINK)에서 다운로드 받을 수 있다. 후측 파랑자료의 관측 위치 및 관측 기간은 다음과 같으며, 제공되는 자료의 시간 간격은 30분이다(Table 1 참조). 울릉도 북동 및 북서 해역의 해양관측부이는 대형 해양관측부이로서, 직경 4.3 m, 높이 6.0 m, 중량 약 7톤 규모이며, 파랑 관측에는 MOSE-G1000 센서(Datawell)가 장착되어 있다. 한편, 울릉도 해양기상부이는 6 m급 선박형 부이로 구성되어 있으며, 파랑 및 기상 관측에는 HIPPY 센서를 사용하였다.
후측 자료의 시작시점이 5월, 11월로 일년의 어떤 부분에서 시작하기 때문에, 부분으로 인식되는 후측자료를 제외하고, 완전한 일년자료를 대상으로 연구에 이용하였다. 울릉도 부이자료는 2014–2024년(총 11년), 울릉도 북동-북서 자료는 2013-2024년(총 12년) 자료를 이용하여 연구를 수행하였다. 연구에 사용한 파고 자료의 시계열 도시와 기본적인 통계정보는 다음과 같다(Fig. 1 and Table 2 참조). 평균 유의파고는 각각 1.30m, 1.37m, 1.32m 정도이다. 최대 유의파고는 10.80m, 10.36m, 11.04m로 모두 2020년 9월 3일에 기록되었다. 이는, 태풍 마이삭에 의한 영향으로 간주할 수 있다.
2.2 BM 기법으로 추출된 극치 자료의 독립 검정
BM 기법을 이용한 극치자료 추출은 AM 기법에서 사용되는 1년 기간을 기준으로 분할하고자 하는 Block 개수를 지정하였다. 따라서 Block 개수가 증가하면 Block 크기는 감소하게 된다. 그리고 그 Block 영역에서 최대자료, 최대자료 발생 시점, 영역에 포함된 자료개수, 중간자료(Q2, median)를 추출하고, 추출된 최대자료를 이용하여 독립 검정을 수행하였다. 독립검정은 자료의 독립 검정에 널리 이용되는 Runs 검정, Box 검정, 그리고 자료의 추세 검정에 이용되는 Mann-Kendall(이하 MK) 검정기법을 선택하여 적용하였다. 각각의 검정기법을 지원하는 함수 및 검정 통계량 계산은 R 프로그램에서 제공하는 라이브러리 지원 함수를 이용하였으며, 다음 자료를 참고하였다(Box and Pierce, 1970; Ljung and Box, 1978; Libiseller and Grimvall, 2002; Pohlert, 2023). 독립검정 및 추세검정 기법의 귀무가설(H0)은 “추출된 극치 자료는 독립이다”이기 때문에, p-value 수치만을 이용하여 가설의 기각-채택여부를 결정하였다. 최근 p-value 하나만을 이용한 통계적인 검정기법의 한계가 보고되고 있으나, 보다 정교한 검정기법의 적용을 위해서는 구간추정, 효과크기, Power 검정 등을 지원하는 기법을 이용하여야 한다(Lee, 2016; Wasserstein and Lazar, 2016; Cho and Lee, 2023). 그러나 지원 함수의 한계로 본 연구에서는 p-value 기반 검정에 의존하였다. 각 검정에서 유의확률(p-value)이 0.05보다 큰 경우 귀무가설을 채택하였다. 극치값 관련 검정에서 p-value가 큰 경우, 극치값 자체가 서로 독립적으로 발생함을 의미하며, HO 관련 검정에서 p-value가 큰 경우, 극치의 발생 시점 간격이 무작위적(random)임을 의미했다. Block 개수를 조정해서 생기는 검정 결과의 차이점을 파악해서 적합한 Block 개수를 찾고자 했다.
2.3 Block maxima - Block median 상관분석
파고자료는 평균의 관점에서 보면 뚜렷한 계절변화(연간 변화) 양상을 보이고 있기 때문에, 독립적인 자료가 아니다. 따라서 평균, median 등 대부분의 자료를 대표하는 통계측도에 인접한 영역에서는 시간 상관을 보일 것으로 판단할 수 있다. 그러나 이 상관 정도는 분포의 꼬리 영역으로 갈수록 크게 감소하기 때문에 계절적인 평균 변화 양상이 어떤 Block 영역의 최대 표본과 대표 표본 정보와는 상관을 보이지 않을 수도 있다. 따라서 본 연구에서는 지정한 Block 영역에서의 최대(maxima)와 median 자료와의 상관 검정을 수행하였으며, 지정 Block 영역에서 추출되는 극치 자료의 통계적인 독립 판단을 위한 보조 정보로 활용하였다. 상관계수는 Pearson 상관계수와 더불어 대표적인 순위상관계수에 해당하는 Spearman, Kendall 계수도 있으나, 본 연구에서는 극치크기에 집중하는 Pearson 상관계수를 이용하여 상관검정을 수행하였다.
3. 결과 및 토론
3.1 파고 자료의 연간 변화 양상
뚜렷한 연간 변화 양상을 보이는 파고 자료는 평균, 중위수(median), 백분위수(percentile)에서 제5백분위수, 제95백분위수를 선택하여, ± 5% 변동 범위와 평균, 중위수 변동 양상을 그림으로 제시하였다(Fig. 2 참조).
Monthly variation of the statistical measures of the wave data (mean = black (with dot) solid lines, median = blue solid line, the 5th and 95th percentiles = the lower and upper red solid lines, respectively).
Fig. 2에서 볼 수 있는 바와 같이, 평균 및 중간값은 1~2 m 범위에서 1m 정도의 변동 범위(range)를 보이고 있다. 반면, 제95백분위수는 2~4 m 영역에서 연간 2 m 정도의 변동범위를 보이고 있으며, 제5백분위수는 1 m 이하의 영역에서 0.5 m 정도의 변동 범위를 보이고 있음을 알 수 있다. 고파 영역일수록, 연간 변동 범위가 평균의 변동 범위에 비하여 큰 비율로 나타나고 있으며, 연간 최대유의파고의 경우에는 어떤 Block 크기 영역에서는 평균의 변동 범위와 무관하게 발생하는 것으로 간주할 수 있는 근거가 된다.
3.2 Block 크기 변화에 따른 통계적인 검정
Block 개수가 증가하면, Block 시간 크기가 감소하지만, 감소된 작은 영역에서 최대유의파고를 추출하기 때문에 Annual 기간 기준으로 정의되는 Block 개수는 추출되는 극치자료의 개수가 AM 기법 기준 Block 개수에 비례하여 증가함을 의미한다. 예를 들어 Block 개수 = 4인 경우는, 한 해에 block 개수가 4개 – 3개월 간격으로 block을 설정한 경우이다. Block 개수 = 4 조건에서는, 울릉도지점에서 Annual 최대기준 11~12개 정도로 추출되는 극치자료가 44~48개로 증가함을 의미한다(Fig. 3 참조). 따라서 독립 조건을 만족하는 경우, Block 개수(크기)를 크게하면 더 많은 극치자료를 추출하여 극치해석을 수행하는 경우 추정 오차구간의 절감에 기여할 수 있다. 그러나 극치자료의 독립은 매우 중요한 요구 사항이기 때문에 자료 개수 증가를 위한 Block 개수 조종은 추출 극치자료에 대한 독립 검정이 수반되어야 한다. 다음 표는 Block 개수 변화에 따른 극치자료에 대하여 독립 검정을 수행한 결과이다(Table 3 참조). 또한 Table 3 마지막 컬럼은 주어진 Block 영역에서의 최대(Block maxima, BM)와 중위수(제2사분위수, Q2, median; 이하 BQ2) 변수와의 상관검정에 대한 p-value 수치를 의미한다.
표에서 볼 수 있는 바와 같이, 추출 극치자료에 대한 독립 검정 수행결과는 Block 개수가 10~12개 정도에서도 독립 가설을 “기각”할 수 없는 검정결과를 보여준다. 독립검정 기법과 인접한 지점이라 할지라도 자료에 따라 다소 차이를 보이고 있으나, Block 개수 6개, 시간구간으로 환산하면 격월(bimonthly) 최대 조건에서 극치를 추출하여도 독립조건을 만족하고 있는 것으로 판단된다. 엄밀한 의미로는 “추출된 극치자료가 독립이다”라는 가설을 기각할 수없다. 따라서, 보다 다양한 지점에서 평가를 하여야 하고, 제1종 오류와 더불어 제2종 오류에 대한 평가도 필요하지만, Block 개수 조정을 통하여 기존의 AM 기법이 가지는 적은 극치 자료 개수 제약 조건을 벗어날 수 있음을 보여준다.
한편 극치자료의 독립과 주어진 Block 영역에서 순서대로 추출되는 극치자료의 발생시간 간격은 Block 크기에 직접적인 영향을 받기 때문에 통계적인 독립 검정에 다소 제한이 따를 것으로 판단되나, 보조적인 판단을 위하여 극치 발생시간간격에 대한 독립검정도 수행하였다(Table 3 참조). 검정으로는 Runs, Box, MK 검정을 모두 수행하고 주검정으로는 극치(H), 보조검정으로는 발생간격(HO)에 관해서 수행했다.어느 정도 예상되는 바와 같이, 극치자료의 독립검정과는 달리 Block 개수 이상 조건에서부터 독립조건이 기각되는 통계적인 검정결과를 보이고 있음을 알 수 있다. 본 연구에서는 Block 개수를 점진적으로 증가시키면서, 이에 따른 독립성 검정 결과의 변화를 관측하였다. 이는 곧 극치자료의 개수를 조정함으로써, 독립성 조건을 만족하면서도 충분한 표본수를 확보할 수 있는 최적의 구간을 탐색하는 과정으로 볼 수 있다. 각 검정에서 p-value가 0.05를 초과할수록 귀무가설인 독립성, 무추세성을 유지하게 되므로, 상대적으로 양호한 결과로 해석된다. 극치자료의 발생시간에 대한 독립검정은 일반적인 검정기법을 적용하는 것보다는 재현기간, 연속적으로 발생하는 사건의 간격 등 시간의 관점에서 발생 시간의 분포함수에 대한 평가관점에서 수행할 필요가 있을 것으로 판단된다.
3.3 Block 크기 변화에 따른 BM, BQ2 상관검정
극치자료의 독립 검정과 더불어 평균의 관점에서 뚜렷한 계절 변화 양상을 보이는 평균파고와 그 영역에서 추출되는 최대유의파고에 대한 상관분석을 수행하였다. 가장 바람직한 조건은 추출되는 극치파고의 주기적인 변화 양상과 무관한 수준의 Block 최대 극치가 추출되어야 한다. Block 개수를 크기를 키우면서, 극치자료의 독립성이 깨지지 않는 block 개수를 찾는 과정이 이 연구 과정을 수행했다. 이 조건을 기준으로 상관검정을 수행한 결과 Block 개수가 3~4개를 넘어서는 조건에서는 평균 자료와 최대자료의 상관이 없다는 귀무가설을 기각하는 조건이 만족되고 있음을 알 수 있다. 따라서, 상관검정 결과를 기반으로 하는 경우, AM 기법의 적은 자료개수 극복을 위한 Block 개수 증가는 3~4개 정도가 한계로 판단된다.
4. 결론 및 제언
전통적으로 이용되는 AM 기법의 작은 자료 개수 문제 해결을 위한 대안으로 보다 작은 크기의 Block 영역을 적용하는 기법을 제안하였으며, 기법의 적정 여부 판단을 위하여 통계적인 독립검정, 상관검정을 수행하였다.
본 연구에서는 극치자료의 독립성 및 추세성을 검증하기 위하여 p-value 기반의 통계적 검정기법(Runs, Box-Pierce, Mann-Kendall 검정 등)을 적용하였다. 그러나 검정의 p-value의 단독 사용으로는 한계가 있다(Wasserstein and Lazar, 2016; Cho and Lee, 2023).
지원 함수의 제약으로 본 연구에서는 p-value를 중심으로 한 검정 결과만을 제시하였으나, 검정의 신뢰성을 높이기 위해서는, 효과크기(effect size), 구간추정(confidence interval), 검정력(power analysis) 등을 병행해서, 검정 결과의 실질적 의미를 강화할 예정이다.
동해는 동계에는 계절풍의 영향으로 평균 유의파고가 높고, 하계에는 간헐적으로 태풍의 영향을 받는 특성을 보인다. 이러한 파랑의 계절적 변동성을 고려할 때, Block의 개수 또는 크기에 관한 분석은 극치파고 자료의 계절적 특성과 독립성 평가에 시사점을 제공한다.
본 연구는 울릉도-독도 해역을 대상으로 수행되었으나, 향후 연구에서는 공간적 범위를 확장하여 다양한 해역의 파랑 특성과 극치자료의 지역적 차이를 비교·분석함으로써 연구의 적용성을 높일 수 있을 것이다.
울릉도-독도 해역에 설치된 KMA, KHOA 부이 설치 지점의 후측자료를 이용하여 적용한 결과, Block 크기를 3~4개월 정도로 줄여도 통계적인 독립조건을 만족하고, 계절 변화 양상과 무관하게 극치자료가 추출되는 것으로 파악되었다. 이 경우, 기존의 AM 기법으로 추출되는 극치 파고자료 개수에 비하여 작은 Block 영역을 적용하는 경우 3~4배 정도 증가된 독립적인 극치 파고 자료 추출이 가능한 것으로 파악되었다. 한편 파고자료는 지역적인 특성, 계절적인 변화 양상이 매우 다르게 나타나는 경우가 빈번하기 때문에, 어떤 절대적인 기준의 B loc k 크기보다는 관심 지역에 대하여 서로 다른 Block 크기 조건에서 추출되는 극치자료에 대한 다양한 통계적인 검정을 수행하여 경험적으로 선택하는 방법이 가장 적합할 것으로 판단된다.
Notes
감사의 글
본 연구는 독도의 지속가능한 이용연구 사업(PG54802)의 지원을 받아 수행되었습니다. 연구비 지원에 감사 드립니다.