python 정규표현식으로 필요없는 문자, 특수문자, 공백 제거하기



정규표현식이란 ?  ( 출처 : 위키백과 ) 

정규 표현식(正規表現式, 영어: regular expression, 간단히 regexp 또는 regex) 또는 정규식(正規式)은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어이다. 정규 표현식은 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원하고 있으며, 특히 과 Tcl은 언어 자체에 강력한 정규 표현식을 구현하고 있다.

컴퓨터 과학의 정규 언어로부터 유래하였으나 구현체에 따라서 정규 언어보다 더 넓은 언어를 표현할 수 있는 경우도 있으며, 심지어 정규 표현식 자체의 문법도 여러 가지 존재하고 있다. 수많은 프로그래밍 언어가 정규 표현식 기능을 제공하고 있으며, 일부는 자바스크립트루비Tcl처럼 기본 내장되어 있는 반면 닷넷 언어자바파이썬POSIX CC++ (C++11 이후)에서는 표준 라이브러리를 이용하여 구현한다. 그 밖의 대부분의 언어들은 라이브러리를 통해 정규식을 제공한다. 

정규표현식은 언어에 구속되지 않고 어떤 규칙을 가지고 문자열을 바꾸거나 검색할 때 사용합니다.


1
2
3
4
import re
text = u'010-1566#7152'
parse = re.sub('[-=.#/?:$}]''', text)
print parse
cs

python 은 re 라는 패키지를 import 해서 사용하면 됩니다 문법은 위와 같습니다. 
[] 안에 원하는 특수문자를 넣어주면 제거가 됩니다. 





그러면 위와 같은 결과가 나오게 됩니다.