상담문의

[HEEDS] AI 학습 데이터 생성을 위한 Adaptive Sampling과 SHERPA의 활용

2025-11-24

     


 AI 모델을 학습시키기 위해서는 AI 모델이 정확한 패턴을 학습할 수 있도록 고품질의 데이터를 사용해야 합니다. Simcenter HEEDS의 Adaptive Sampling과 SHERPA를 활용하여 양질의 데이터를 효율적으로 생성하는 과정을 살펴봅니다.


설계 업무에서 AI를 활용하는 이유

 AI는 다양한 영역에서 업무를 보조할 수 있습니다. 이번 내용에서는 많은 양의 데이터를 분석하여 설계 변수와 제품 성능 간의 관계에서 패턴과 트렌드를 식별하고, 데이터 기반 의사 결정을 지원하는 AI 모델을 학습시키는 것과 관련되어 있습니다. 잘 학습된 AI는 설계의 품질과 성능을 높이는 데 기여합니다. 문제에 따라서는 기존 설계 패러다임에 도전하는 비정형적인 설계 솔루션을 발견할 수 있습니다. 전반적으로는 설계 업무의 디지털 전환을 촉진하고, 전통적인 설계 방법의 한계를 극복하는 데 기여합니다. 이는 설계의 효율성을 높이고, 혁신적인 솔루션을 개발하는 데 도움을 줍니다.


AI 모델의 학습을 위한 데이터

 AI 학습을 위해 필요한 데이터의 품질은 AI 모델의 성능과 정확성에 직접적인 영향을 미칩니다. 고품질의 데이터는 AI 모델이 정확한 패턴을 학습하고 신뢰할 수 있는 결정을 내릴 수 있도록 돕습니다. 반대로, 저품질의 데이터는 모델의 성능을 저하시키고 편향된 결과를 초래할 수 있습니다. 고품질의 데이터는 이러한 편향성을 줄여주고, 공정한 결과를 도출하는 데 기여합니다. 데이터의 품질이 높을수록 모델의 훈련 효율성이 높아집니다. 데이터가 일관성 있고 정확하면 모델이 더 빠르게 학습할 수 있습니다. 따라서 정확하고 일관성 있는 데이터는 모델이 올바른 결정을 내리는 데 필수적입니다.


Simulation 데이터 생성의 자동화


 HEEDS는 제품 개발 프로세스에서 사용되는 다양한 솔루션들의 연결과 데이터 처리를 쉽게 진행할 수 있도록 자동화된 워크플로우 구성환경을 제공합니다. 상용 CAD 및 CAE 도구에 대한 광범위한 인터페이스를 사용하므로 스크립 개발이나 수동 조작 없이 많은 기술을 빠르고 쉽게 통합합니다. 자동화된 워크플로우에서는 서로 다른 모델링 및 시뮬레이션 간에 데이터를 자동으로 공유할 수 있습니다. 사용자는 프로세스의 자동화를 통해서 설계 공간 탐색을 보다 쉽고 효율적으로 수행할 수 있습니다. 사용자는 반복적인 업무를 벗어나 설계를 더 깊이 이해하고 성능 개선과 생산 품질 향상에 가장 적합한 조건을 선택하는 더 중요한 업무에 더욱 집중할 수 있습니다.


AI 학습 데이터 생성을 위한 예제

 외팔보의 처짐 문제를 사용하여 데이터를 생성하고 AI 모델을 학습시키는 예제를 통해 기능들을 비교해보겠습니다. 외팔보의 체적을 최소화하는 최적화 문제를 아래와 같이 정의하였습니다. 빠른 계산을 위해 Python으로 계산합니다.



 - 목적함수:

     외팔보 H빔의 체적을 최소화

 - 제약 조건:

     최대 굽힘 응력(σ) ≤ 200 MPa

     최대 끝단 처짐(δ) ≤ 2 mm

 - 설계 변수:

     Length: 5,000 mm

     Load P: 6,500 N

     E: 200 MPa

     H: 50 mm ≤ H ≤ 100 mm

     h1: 5 mm ≤ h1 ≤ 30 mm

     b1: 50 mm ≤ b1 ≤ 100 mm

     b2: 5 mm ≤ b2 ≤ 50 mm


 외팔보의 체적, 응력, 처짐량은 아래의 관계식으로 계산합니다. 

     Volume = [2*h1*b1 + (H – 2*h1)*b2]*L 

     Stress = P*L*H/(2*I) 

     Deflection = P*L3/(3*E*I) 

 - where: I = 1/12*b2*(H-2*h1)^3 + 2*[1/12*b1*h13 + b1*h1*(H-h1) 2/4]


HEEDS 기본 설정

Python portal을 사용하여 예제의 Input/Output file을 등록하였습니다.


전통적인 실험계획법에 의한 데이터 생성 방법

 아래와 같이 4개의 설계변수를 기반으로 전통적인 실험계획법으로 데이터를 생성해보겠습니다. 여기서는 3 Level의 Full factorial을 사용하여 81개의 데이터가 생성됩니다.



 아래와 같이 81개의 DOE를 모두 계산하고 Parallel Data를 보면, 입력변수들은 3 수준으로 sampling 되었고 응답변수의 결과 분포가 확인됩니다.



 아래와 같이 Kriging 모델을 사용하여 설계 변수 H, h1에 대한 응력을 표현한 반응표면을 보면 H와 h1의 설계영역에 sampling point들이 균일하게 배치되지 못한 것을 볼 수 있습니다. 이것은 AI 모델 학습에서도 설계 변수와 결과 간의 관계와 패턴을 표현하는 것에 충분하지 않을 수 있습니다. 전통적인 실험계획법은 본연의 사용 목적에 맞게 변수 간의 교호작용과 상관성 분석으로 사용되는 것에 더 강점을 가집니다.



 아래와 같이 81개 데이터를 기반으로 HEEDS에서 AI 모델을 학습 후 확인된 RMSE는 0.0510899 입니다. 전통적인 실험계획법은 sampling 개수를 사용자가 결정하기 어렵기 때문에 AI 학습을 위해 필요한 충분한 양의 데이터 생성이 어렵습니다. 그러므로 AI 모델 학습용 데이터 생성 방법으로는 적합하지 않다고 볼 수 있습니다.



Random Sampling에 의한 데이터 생성 방법

 다음은 Latin Hypercube Sampling (LHS)으로 데이터를 생성하였습니다. LHS는 각 변수의 범위를 동일한 간격으로 나누고, 각 간격에서 무작위로 샘플링합니다. 이는 샘플이 전체 입력 공간에 균일하게 분포하도록 합니다. LHS는 사용자가 원하는 만큼 데이터를 생성시킬 수 있습니다. 예제에서는 150개의 데이터를 생성하였습니다.



 아래와 같이 150개를 모두 계산하고 Parallel Data를 보면, 입력변수 범위 안에서 균일하게 sampling 되었습니다.



 Kriging 모델로 설계 변수 H, h1에 대한 응력을 표현한 반응표면을 보면 H와 h1의 설계영역에 sampling point들이 균일하게 배치된 것을 볼 수 있습니다. 균일한 간격으로 생성된 데이터는 신뢰할 수 있는 Surrogate 모델을 생성하거나 AI 모델 학습에도 적절한 선택이 됩니다. 하지만 응답 특성이 비선형성이 크거나 매개변수가 매우 많은 경우 충분히 많은 데이터를 활용하는 것이 필요합니다.



 LHS 150개 데이터를 기반으로 HEEDS에서 AI 모델을 학습 후 확인된 RMSE는 0.0236847 입니다. 전통적인 실험계획법 81개 데이터의 기반의 RMSE는 0.0510899 였습니다. LHS를 사용하여 상대적으로 더 나은 데이터가 생성되었다고 볼 수 있습니다.



Adaptive Sampling을 활용한 데이터 생성 방법

 Simcenter HEEDS의 Adaptive Sampling은 설계 공간 탐색을 위한 고급 기능입니다. 아래 그림과 같이 응답의 변화가 큰 곳은 더 많이, 변화가 적은 곳은 더 적게 sampling하는 전략을 동적으로 조정하여 설계 성능에 가장 큰 영향을 미치는 영역에 집중할 수 있도록 합니다. 이 기능은 Design of Experiments (DoE)의 한 부분으로 시작되었으나, 현재는 독립적인 연구 유형으로 발전하여 Reduced Order Modeling (ROM) 및 다수의 매개변수를 가진 설계 공간의 특성화에 활용됩니다.



 Adaptive Sampling의 특징은 다음과 같습니다.

     Adaptive Sampling은 설계 공간 내에서 샘플링 전략을 실시간으로 조정하여, 관심 영역에 대한 효율적인 탐색을 가능하게 합니다.

     초기 디자인 세트가 제공되지 않으면, Latin Hypercube 방법을 사용하여 초기 디자인 세트를 생성합니다. 이후 탐색 주기는 여러 알고리즘의 조합을 통해 진행됩니다.

     Adaptive Sampling은 지역적 특성, 전역적 탐색, 그리고 대리 모델을 통한 오차 감소를 위한 알고리즘을 조합하여 사용합니다. 각 알고리즘의 비중은 탐색 주기에 따라 조정됩니다.

     Adaptive Sampling은 전통적인 DOE 방법보다 더 빠르게 수렴하며, 설계 공간의 정밀한 대리 모델 생성을 지원합니다. 이는 특정 영역에서의 복잡한 반응을 효과적으로 다루는 데 유용합니다.

 Adaptive Sampling과 기존의 Design of Experiments (DOE) 방법 간의 차이점은 다음과 같습니다.

 - 샘플링 전략의 유연성

     Adaptive Sampling: 샘플링 전략을 동적으로 조정하여 설계 공간의 특정 영역에 집중할 수 있습니다. 이는 초기 샘플링 결과에 따라 다음 샘플링 포인트를 선택합니다.

     Traditional DOE: 고정된 샘플링 계획을 사용하여 설계 공간을 균일하게 커버합니다. 

 - 효율성과 수렴 속도

     Adaptive Sampling: 적은 수의 평가로도 설계 공간을 효율적으로 탐색할 수 있으며, 빠르게 수렴합니다. 이는 특히 복잡한 시스템에서 유용합니다.

     Traditional DOE: 고정된 샘플링 계획을 사용하므로, 더 많은 평가가 필요할 수 있으며, 수렴 속도가 느릴 수 있습니다.

 - 대리 모델 생성

     Adaptive Sampling: 대리 모델의 정확성을 높이기 위해 샘플링 포인트를 최적화합니다. 이는 설계 공간의 특정 영역에서 높은 정확도의 모델을 생성하는 데 유리합니다.

     Traditional DOE: 대리 모델 생성 시에도 고정된 샘플링 계획을 따르며, 특정 영역에 대한 집중적인 모델링이 어려울 수 있습니다.

 - 응용 분야

     Adaptive Sampling: 복잡한 시스템, 비선형 반응, 또는 특정 영역에 대한 집중적인 분석이 필요한 경우에 유리합니다.

     Traditional DOE: 상대적으로 단순한 시스템이나 고정된 실험 계획이 필요한 경우에 적합합니다.

 이러한 차이점은 Adaptive Sampling이 복잡한 시스템에서 효율적이고 정확한 설계 공간 탐색을 가능하게 하며, Traditional DOE는 더 단순하고 예측 가능한 실험 계획이 필요한 경우에 적합하다는 것을 보여줍니다.

 아래의 그림은 Adaptive Sampling에서 150개의 sampling을 순차적으로 진행하면서 응답의 변화가 크거나 예측 오차가 높은 곳에서 동적인 sampling을 진행하여 반응표면이 정확하게 생성되는 과정을 단계적으로 표현한 것입니다. 



 Study type을 Adaptive Sampling으로 설정하고 Sampling Strategy는 Balance local and global accuracy를 선택하였습니다. 예제에서는 150개의 데이터를 생성하였습니다.


 Response에서는 제약조건을 설정할 수 있습니다. 제약조건에 의해 sampling이 달라지는 것은 아니지만 결과 데이터에서 제약조건을 벗어난 데이터를 분류할 수 있습니다.


 아래와 같이 150개를 모두 계산하고 Parallel Data를 보면, 입력변수 범위 안에서 균일하게 sampling 되었습니다. 이전의 LHS와 조금 다른 패턴을 확인할 수 있으며 그 이유는 응답의 변화가 크거나 예측 오차가 높은 곳에서 동적인 sampling을 추가적으로 진행한 것 때문에 parallel line의 밀도가 더 높게 나타난 것입니다.


 아래는 제약조건을 충족하는 데이터만 선택하여 표시한 것입니다. 총 150개 데이터 중에 제약조건을 충족하는 것은 28개입니다.


 Kriging 모델로 설계 변수 H, h1에 대한 응력을 표현한 반응표면을 보면 H와 h1의 설계영역에 sampling point들이 균일하게 배치되었습니다. 경사 기울기가 큰 곳에는 상대적으로 더 많은 point들이 위치한 것을 볼 수 있습니다. 이렇게 응답 특성이 더 정확히 반영된 데이터는 신뢰할 수 있는 Surrogate 모델을 생성하거나 AI 모델 학습에도 적절한 선택이 됩니다. 


 Adaptive Sampling 150개 데이터를 기반으로 HEEDS에서 AI 모델을 학습 후 확인된 RMSE는 0.0211659 입니다. LHS의 RMSE는 0.0236847 입니다. 전통적인 실험계획법 81개 데이터의 기반의 RMSE는 0.0510899 였습니다. 상대적으로 더 나은 데이터가 생성되었다고 볼 수 있습니다.


SHERPA를 활용하여 목적함수 및 제약조건을 충족하는 데이터 생성 방법

 AI 학습 데이터를 준비하는 과정은 어려운 점들이 많습니다. 설계의 제약조건을 충족하는 데이터를 수집/생성하고 정제하는 과정은 시간이 걸리고 복잡할 수 있습니다. 무분별하게 많은 데이터가 아니라 설계 목적에 맞는 데이터의 일관성과 정확성을 보장하는 것이 중요합니다.

 HEEDS의 SHERPA는 직접 검색 최적화법을 기반으로 하기 때문에 150회 계산을 진행하면서 목적함수와 제약조건을 반영하며 데이터를 생성하는 것이 가능합니다.


 아래와 같이 150개를 모두 계산하고 Parallel Data를 보면, 제약조건이 설정된 빨강색 영역을 최대한 벗어나도록 탐색하면서 계산된 패턴을 확인할 수 있습니다. 


 제약조건을 충족하는 데이터만 선택하여 표시한 것입니다. 총 150개 데이터 중에 제약조건을 충족하는 것은 80개입니다.


 Kriging 모델로 설계 변수 H, h1에 대한 응력을 표현한 반응표면을 보면 H와 h1의 설계영역에 목적함수가 존재하는 영역에 국부적으로 sampling point들이 더 많이 배치되었습니다. 반응표면 왼쪽은 150개 데이터로 설계영역 전체를 표현한 것이며, 오른쪽은 제약조건을 충족하는 Feasible design point들만 사용하여 국부적인 설계영역을 표현한 것입니다.


 SHERPA 150개 데이터를 기반으로 Adaptive Sampling 150개 데이터를 기반으로 HEEDS에서 AI 모델을 학습 후 확인된 RMSE는 0.01512368 입니다. Adaptive Sampling의 RMSE는 0.0211659, LHS의 RMSE는 0.0236847, 전통적인 실험계획법 81개 데이터의 기반의 RMSE는 0.0510899 였습니다. 상대적으로 가장 나은 데이터가 생성되었다고 볼 수 있습니다.


 지금까지 Simcenter HEEDS의 기능들을 활용하여 AI 학습 데이터 생성을 위한 과정들을 비교하여 살펴 보았습니다. 더 자세한 내용과 활용 방법에 대한 문의사항은 언제든 연락 주시기 바랍니다. 감사합니다.

댓글 없음

댓글 쓰기

이런자료는 어때요?
캐디언스 시스템
(주) 캐디언스시스템

서울본사 : 서울시 금천구 가산디지털 1로 212, 코오롱디지털타워애스턴 1006호