정규 표현식(RegEx)을 구글 시트에서! REGEXMATCH, REPLACE 함수 정복으로 텍스트 데이터 정제

정규 표현식(RegEx)을 구글 시트에서! REGEXMATCH, REPLACE 함수 정복으로 텍스트 데이터 정제

 

SEO 최적화는 단순히 키워드와 숫자 데이터만 다루는 것이 아닙니다. URL, 제목, 메타 설명, 검색 쿼리 등 방대한 텍스트 데이터를 얼마나 정확하고 효율적으로 처리하는가가 SEO 성패를 가릅니다. 구글 시트(Google Sheets)에서 기본 제공되는 FIND나 REPLACE 함수만으로는 복잡한 텍스트 패턴을 처리하는 데 한계가 있습니다. 이때 필요한 것이 바로 **정규 표현식(Regular Expression, RegEx)**을 활용하는 함수들입니다.

REGEXMATCH, REGEXEXTRACT, REGEXREPLACE 함수는 정규 표현식이라는 강력한 언어를 구글 시트에 이식하여, 수천 개의 텍스트 데이터에서 원하는 패턴을 검색, 추출, 치환하는 작업을 자동화하고 SEO 분석의 정확도를 혁신적으로 높여줍니다.

지금부터 정규 표현식을 이해하고, 구글 시트의 RegEx 함수들을 활용하여 SEO 텍스트 데이터를 완벽하게 정제하는 비법을 안내합니다.

1. 정규 표현식(RegEx)의 기본 개념 이해

 

정규 표현식은 특정 규칙(패턴)을 가진 문자열을 검색하고 처리하기 위해 사용하는 표준화된 형식 언어입니다. 구글 시트의 RegEx 함수를 사용하기 위해서는 최소한의 패턴 기호를 이해해야 합니다.

기호 역할 예시 설명
. 임의의 한 문자 (줄 바꿈 제외) a.c ‘abc’, ‘acc’, ‘a1c’ 등
\d 모든 숫자 [0-9] \d\d\d ‘123’, ‘456’ 등 3자리 숫자
\w 모든 알파벳, 숫자, 언더바 [a-zA-Z0-9_] \w+ 모든 단어
* + ? 수량자: 0회 이상, 1회 이상, 0회 또는 1회 a* ‘a’, ‘aa’, ‘aaa’, ”(빈 문자열)
^ $ 앵커: 문자열의 시작, 끝 ^A ‘A’로 시작하는 문자열
[ ] 대괄호: 괄호 안의 문자 중 하나 [abc] ‘a’, ‘b’, 또는 ‘c’
( ) 캡처 그룹: 추출할 패턴을 묶음 `(월 년)`

2. REGEXMATCH: SEO 핵심 키워드 유무 판별 및 데이터 필터링

 

REGEXMATCH 함수는 텍스트가 정규 표현식 패턴과 일치하는지(포함하는지) 여부를 확인하여 TRUE 또는 FALSE를 반환합니다. 복잡한 다중 키워드 검색에 매우 강력합니다.

  • 기본 구조: =REGEXMATCH(텍스트, 정규_표현식)

2.1. 다중 키워드 포함 콘텐츠 식별

 

애드센스 승인 심사 시 위험하거나, SEO 전략상 중요한 ‘핵심 키워드’가 제목이나 본문에 포함되었는지 빠르게 확인합니다.

  • 활용 목표: A열의 제목에 ‘구매’, ‘가격’, ‘비교’ 중 하나라도 포함된 콘텐츠를 찾습니다.

  • 수식 예시: =REGEXMATCH(A2, "구매|가격|비교")

    • 파이프(|): OR 연산자로 작동하여, 나열된 패턴 중 하나라도 일치하면 TRUE를 반환합니다.

2.2. 특정 URL 구조 확인 (기술 SEO)

 

페이지 목록에서 블로그 포스팅(blog/)인지, 상품 페이지(product/)인지 등 특정 URL 구조를 따르는지 확인하여 SEO 분류 오류를 점검합니다.

  • 활용 목표: B열의 URL이 ‘blog/’로 시작하는지 확인합니다.

  • 수식 예시: =REGEXMATCH(B2, "^/blog/")

    • 캐럿(^): 문자열의 시작을 의미합니다.

3. REGEXREPLACE: 데이터 정제 및 URL 클리닝 자동화

 

REGEXREPLACE 함수는 텍스트 내에서 정규 표현식 패턴에 일치하는 부분을 찾아, 새로운 텍스트로 치환(대체)합니다. SEO 분석을 위해 데이터셋을 ‘깨끗하게’ 만드는 데 필수적입니다.

  • 기본 구조: =REGEXREPLACE(텍스트, 정규_표현식, 치환_텍스트)

3.1. URL에서 트래킹 파라미터 일괄 제거

 

구글 애널리틱스(GA)나 서치 콘솔(GSC) 데이터에는 ?utm_source=...와 같은 트래킹 파라미터가 붙어 있어 URL 분석을 방해합니다.

  • 활용 목표: C열의 URL에서 물음표(?) 이후의 모든 파라미터를 제거하고 깨끗한 URL만 남깁니다.

  • 수식 예시: =REGEXREPLACE(C2, "\?.*", "")

    • \?: 물음표 자체를 의미합니다. (RegEx에서 ?는 특수문자이므로 \로 이스케이프해야 함)

    • .*: 물음표 뒤에 오는 모든 문자(.)가 0회 이상(*) 반복됨을 의미합니다.

    • 치환 텍스트: 빈 문자열("")로 치환하여 파라미터를 삭제합니다.

3.2. 제목에서 불필요한 특수 기호 제거

 

SEO 분석이나 A/B 테스트를 위해 제목을 정제할 때, 괄호나 꺾쇠 등 불필요한 기호를 일괄적으로 제거합니다.

  • 활용 목표: 제목에서 [최신], (필수)와 같은 괄호 안의 모든 문구를 제거합니다.

  • 수식 예시: =REGEXREPLACE(D2, "\[.*?\]|\(.*?\)", "")

    • \[.*?\]: 꺾쇠 괄호 안의 모든 내용(최소 일치)을 찾습니다.

4. REGEXEXTRACT: 원하는 패턴만 정확하게 추출

 

REGEXEXTRACT 함수는 패턴과 일치하는 부분, 또는 패턴 내의 괄호 그룹(캡처 그룹)에 해당하는 부분만 추출합니다. SEO 분석에서 핵심 정보를 발췌할 때 매우 유용합니다.

  • 기본 구조: =REGEXEXTRACT(텍스트, 캡처_패턴)

4.1. URL에서 도메인 이름 또는 슬러그 추출

 

전체 URL 목록에서 메인 도메인 이름만 추출하거나, 페이지의 고유 식별자(슬러그)만 추출하여 분석의 용이성을 높입니다.

  • 활용 목표: E열의 URL에서 ‘http://’, ‘https://’ 및 ‘www.’를 제외한 도메인 이름만 추출합니다.

  • 수식 예시: =REGEXEXTRACT(E2, "https?:\/\/(?:www\.)?([^/]+)")

    • https?:\/\/(?:www\.)?: http://, https://, http://www., https://www. 모두를 매칭하되, 이 부분은 캡처하지 않습니다.

    • ([^/]+): 첫 번째 /가 나오기 전까지의 문자열을 캡처 그룹(괄호)으로 묶어 추출합니다. 이 부분이 도메인 이름이 됩니다.

4.2. 검색 쿼리에서 핵심 의도 추출 (애드센스/SEO)

 

구글 서치 콘솔에서 가져온 검색 쿼리 목록에서 사용자의 핵심 검색 의도(구매, 정보 등)를 나타내는 키워드만 추출하여 분석합니다.

  • 활용 목표: F열의 쿼리에서 ‘방법’, ‘가이드’, ‘강의’ 중 하나를 추출합니다.

  • 수식 예시: =REGEXEXTRACT(F2, "(방법|가이드|강의)")

5. RegEx 함수 활용 시 주의사항 및 팁

 

  • 배열 함수와의 결합: REGEXMATCH 등의 함수를 ARRAYFORMULA와 결합하면 전체 열의 텍스트 데이터에 대해 한 번의 수식으로 패턴 검사를 자동 적용할 수 있습니다.

  • 이스케이프(Escaping): 정규 표현식에서 특수 문자(. * + ? ( ) [ ] \ ^ $ |) 자체를 검색하고 싶을 때는 반드시 앞에 백슬래시(\)를 붙여야 합니다 (예: .를 검색하려면 \.).

  • 탐욕적/게으른 매칭: 수량자(*, +)는 기본적으로 가장 긴 문자열을 매칭하는 **탐욕적(Greedy)**입니다. 가장 짧은 문자열을 매칭하고 싶다면 수량자 뒤에 ?를 붙여 게으른(Lazy) 매칭으로 바꿉니다 (예: .*?).

결론: 텍스트 데이터 마스터로 거듭나기

 

구글 시트의 REGEXMATCH, REGEXEXTRACT, REGEXREPLACE 함수는 정규 표현식이라는 강력한 무기를 제공하여, 수동으로는 불가능했던 대규모 텍스트 데이터 정제와 패턴 추출을 자동화합니다. SEO 키워드 관리, URL 오류 검증, 애드센스 정책 관련 텍스트 분석에 이 함수들을 활용함으로써, 데이터의 정확성을 높이고 업무 효율성을 극대화하여 웹사이트 성장을 위한 중요한 전략적 결정을 내리시길 바랍니다.

Similar Posts

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다