UI와 AI의 만남: 이미지 구현을 통해 배운 교훈 | 하이난 프레쉬 스타트 그룹 유한회사

Playkot 2D 아티스트 Tatiana Mironova는 스튜디오가 Spring Valley용 UI 요소를 생성하기 위해 파이프라인에 이미지 생성 도구를 구현한 방법을 자세히 설명했습니다. 다음은 이 과정에서 팀이 배운 내용과 자체 모델 교육의 분명한 장점과 단점은 무엇입니까?

타티아나 미로노바

이 모든 것은 전사적인 질문에서 시작되었습니다. 품질을 저하시키지 않으면서 현재 작업에 소요되는 시간을 어떻게 줄일 수 있을까요?

우리 중 많은 사람들이 이전에 순수한 열정으로 딥 러닝 모델과 genAI 도구를 탐색했지만 AI를 프로세스에 통합할 수 있는지 이해하려면 보다 체계적인 접근 방식이 필요했습니다. 이제 Playkot의 거의 모든 팀은 작업을 위해 신경망을 실험하고 있습니다. 우리는 Slack의 AI 테마 채팅에서 경험을 공유하고 누군가 작은 돌파구를 찾았을 때 그들의 솔루션을 채택합니다.

그럼 우리 UI팀이 Spring Valley를 작업하면서 시도한 것에 대해 이야기해보겠습니다.

저는 올해 초부터 신경망을 적극적으로 탐구하기 시작했습니다. 기술과 접근 방식을 이해하고 기술적인 측면을 파악하는 등 도구를 익히는 데 3~4일이 걸렸습니다.

가장 접근하기 쉬운 옵션인 것처럼 보였기 때문에 먼저 Midjourney를 사용해 보았습니다. 우리는 이미 실험을 위한 기업 계정을 가지고 있었습니다. 나는 이것이 아이콘 생성 시간을 절약하는 데 도움이 되지 않는다는 것을 금방 깨달았습니다. 제가 테스트했던 네 번째 버전에서는 이미지 품질이 많이 떨어졌습니다. 새로운 다섯 번째 버전에서는 품질이 크게 향상되었지만 우리 작업의 결과에는 여전히 상당한 수정이 필요했습니다.

가장 큰 걸림돌은 Midjourney가 우리가 요구하는 스타일에 맞지 않는다는 점이었습니다. 간단히 말해서, 인터넷 전체가 업로드되어 있어서 매우 예측할 수 없는 결과를 낳고, 자신의 스타일에 맞게 훈련시킬 수 없습니다.

그럼에도 불구하고 Midjourney는 개념이나 개별 요소 생성을 위한 적절한 보조 도구임이 밝혀졌습니다. 아이디어를 전달해야 하거나 이에 대한 형식을 찾아야 하는 경우 이를 잘 처리합니다.

예를 들어 카메오 장식을 만들어야 했습니다. 생성하는 데 시간을 좀 보냈지만 어떤 결과도 나에게 적합하지 않다는 것을 깨달았습니다. 모든 것을 3D로 만드는 것이 더 쉬울 것입니다. 하지만 카메오 초상화 자체는 괜찮아 보였습니다. 스타일에서 눈에 띄지 않았고, 코가 두 개도 아니고 입이 비뚤어지지도 않았는데 왜 사용하지 않겠습니까?

3D 프로그램에는 변위 맵이라는 도구가 있습니다. 개체의 밝은 영역에 높이를 추가하고 어두운 영역에 들여쓰기합니다. Midjourney의 카메오를 Photoshop에서 빠르게 오려내고 여기에 나만의 소재를 적용하여 손으로 초상화를 그릴 필요가 없었습니다. 처음에 계획했던 대로 아이콘 제작에 같은 시간을 투자했는데, 카메오 이미지가 더 흥미롭고 자연스러워졌습니다.

또 다른 예가 있습니다. 수정으로 가지를 만들어야 했습니다. 각각이 어떻게 보일지 생각하는 데는 꽤 시간이 걸립니다. 나는 Midjourney에 예를 들었습니다. 그리고 그것은 이러한 결정체를 과다하게 생성했습니다. 그 후 나에게 가장 적합한 세대를 선택하고 필요한 시드(즉, 해당 세대의 변수)를 프롬프트에 추가한 후 충분한 그래픽 자료를 빠르게 확보하여 최종적으로 아이콘에 사용했습니다.

그런 다음 Stable Diffusion을 실험하기 시작했습니다. 이를 통해 이미 생성된 모델을 기반으로 이미지를 추가하고 이 데이터 세트에서 학습할 수 있습니다. 그때까지 우리 프로젝트에는 데이터세트에 사용할 수 있는 필요한 스타일의 좋은 아이콘이 많이 축적되어 있었습니다.

Stable Diffusion에는 Dreambooth 확장, Hypernetwork, LoRA 등 여러 가지 훈련 방법이 있습니다. 아이디어는 각각을 테스트하고 무엇이 효과가 있는지 확인하는 것이 었습니다. 우리는 LoRA가 얼굴과 인물 사진에 더 적합하다는 이유로 즉시 무시했습니다. 그러나 Dreambooth 확장은 잘 작동했습니다.

모델을 훈련시키는 것은 위험한 모험입니다. 처음에는 한 번만 훈련하면 효과를 거둘 것이라는 기만적인 느낌을 받을 수도 있습니다. 하지만 얼마나 많은 세부 사항을 고려해야 하는지 깨닫기 시작하면... 결과가 좋지 않다는 것을 알게 되면 다시 시작해야 합니다. 거의 모든 AI 모델은 비디오 카드에 대한 요구 사항이 매우 높으며, 컴퓨터의 비디오 메모리가 제한된 경우 재교육에 3시간이 더 소요됩니다. 결과적으로 사소한 오류로 인해 프로세스가 확장되고 결과가 사용하기에 충분할 것이라는 보장이 없습니다.