์ฌ์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- pandas
- googletrans
๋ชจ๋ฐ์ผ ํ๋ฉด์์ ์ฌ์ฉํ๋ ํ๊ตญ์ด ๋ฉ์ธ์ง๋ฅผ ์์ด๋ก ๋ฒ์ญํ์ฌ ๋ฑ๋กํด์ผํ๋ ์ ๋ฌด๋ฅผ ๋งก๊ฒ ๋์๋ค.
๋ฉ์ธ์ง๋ ์ฝ 300๊ฐ ์ ๋๋ก ํ๋์ฉ ๋ฒ์ญํ๊ธฐ์๋ ์๊ฐ๋ ์ค๋ ๊ฑธ๋ฆด๊ฒ ๊ฐ๊ณ ๋ฒ๊ฑฐ๋ก์ด ์์ ์ด๋ผ๋ ์๊ฐ์ด ๋ค์๋ค.
pandas์ googletrans ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ csv ํ์ผ์ ์ฝ๊ณ
ํ๊ตญ์ด๋ฅผ ์๋ฌธ์ผ๋ก ๋ฒ์ญํ์ฌ ๋ค์ csv๋ก ์ ์ฅํ๋ ํ๋ก๊ทธ๋จ์ ๋ง๋ค์ด ๋ณด์๋ค.
01. googletrans๋?
googletrans๋ Google ๋ฒ์ญ API๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์ธ์ด ๊ฐ์ ๋ฒ์ญ์ ์ ๊ณตํ๋ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค. ์ด๋ฅผ ํตํด ์ฝ๊ฒ ํ ์คํธ๋ฅผ ๋ค์ํ ์ธ์ด๋ก ๋ฒ์ญํ ์ ์๋ค. googletrans๋ ๊ฐ๋จํ ๋ฒ์ญ ์์ ์ ์ ์ฉํ๋ฉฐ, ๋ค์ํ ํ๋ก์ ํธ์์ ์์ฝ๊ฒ ๋ค๊ตญ์ด ์ง์์ ๊ตฌํํ ์ ์๊ฒ ๋๋๋ค.
์ฃผ์๊ธฐ๋ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ธ์ด ๊ฐ์ง: ์ ๋ ฅ๋ ํ ์คํธ์ ์ธ์ด๋ฅผ ์๋์ผ๋ก ๊ฐ์งํ๋ค.
- ๋ฒ์ญ: ํ ์คํธ๋ฅผ ์ํ๋ ์ธ์ด๋ก ๋ฒ์ญํ๋ค.
- ์ง์ ์ธ์ด ๋ชฉ๋ก: Google ๋ฒ์ญ์์ ์ง์ํ๋ ์ธ์ด ๋ชฉ๋ก์ ์ ๊ณตํ๋ค.
์ฃผ์ ์ฌํญ
- Google ๋ฒ์ญ API์ ๋ณ๊ฒฝ ์ฌํญ์ ๋ฐ๋ผ googletrans์ ๋์์ด ์ํฅ์ ๋ฐ์ ์ ์๋ค.
- ๋ฌด๋ฃ๋ก ์ฌ์ฉํ ์ ์์ง๋ง, API ์์ฒญ์ ๋ํ ์ ํ์ด ์์ ์ ์๋ค.
02. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ค์น
๋จผ์ , pandas์ googletrans ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ค์นํด์ผ ํ๋ค.
pip install pandas googletrans==4.0.0-rc1
03. CSV ํ์ผ ์ฝ๊ธฐ, ๋ฒ์ญ, ์ ์ฅํ๊ธฐ
DBeaver์ ์กฐํํ ๋ฉ์ธ์ง๋ฅผ ์ถ์ถํ .csv ํ์ผ์ ์ฝ๊ณ ํ๊ตญ์ด ๋ฉ์์ง๋ฅผ ์์ด๋ก ๋ฒ์ญํ ํ .csv ํ์ผ๋ก ์ ์ฅํ๋ค.
import pandas as pd
from googletrans import Translator
# CSV ํ์ผ ์ฝ๊ธฐ
df = pd.read_csv('ko.csv', encoding='euc-kr')
print(df.head())
# ๋ฒ์ญ๊ธฐ ์ด๊ธฐํ
translator = Translator()
# ๋ฒ์ญ ํจ์
def translate_text(text):
try:
translated = translator.translate(text, src='ko', dest='en')
return translated.text
except Exception as e:
print(f"Error translating {text}: {e}")
return text
# MSG ์ปฌ๋ผ์ ๋ฒ์ญ
df['MSG_EN'] = df['MSG'].apply(translate_text)
print(df.head())
# ๊ฒฐ๊ณผ๋ฅผ ์๋ก์ด CSV ํ์ผ๋ก ์ ์ฅ
df.to_csv('en.csv', index=False)
print("Translation complete. Saved to en.csv")
- CSV ํ์ผ ์ฝ๊ธฐ: pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ko.csv ํ์ผ์ ๋ฐ์ดํฐํ๋ ์์ผ๋ก ์ฝ๋๋ค.
- ๋ฒ์ญ๊ธฐ ์ด๊ธฐํ: googletrans ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ Translator ๊ฐ์ฒด๋ฅผ ์์ฑํ๋ค.
- ๋ฒ์ญ ํจ์ ์ ์: ํ ์คํธ๋ฅผ ๋ฒ์ญํ๋ ํจ์๋ฅผ ์ ์ํ๋ค. ์ด ํจ์๋ ์ฃผ์ด์ง ํ๊ตญ์ด ํ ์คํธ๋ฅผ ์์ด๋ก ๋ฒ์ญํ๋ค. ๋ฒ์ญ ์ค ์ค๋ฅ๊ฐ ๋ฐ์ํ ๊ฒฝ์ฐ, ์๋ ํ ์คํธ๋ฅผ ๋ฐํํ๋ค.
- MSG ์ปฌ๋ผ ๋ฒ์ญ: apply ๋ฉ์๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐํ๋ ์์ MSG ์ปฌ๋ผ์ ๊ฐ ํ ์คํธ๋ฅผ ๋ฒ์ญํ๋ค.
- ๊ฒฐ๊ณผ๋ฅผ ์๋ก์ด CSV ํ์ผ๋ก ์ ์ฅ: ๋ฒ์ญ๋ ๋ฐ์ดํฐํ๋ ์์ en.csv ํ์ผ๋ก ์ ์ฅํ๋ค.
ํ๊ตญ์ด ๋ฉ์์ง๋ฅผ ์์ด๋ก ๋ฒ์ญํ๊ณ , ๋ฒ์ญ๋ ๊ฒฐ๊ณผ๋ฅผ en.csv ํ์ผ๋ก ์ ์ฅํ๋ค.
try-except ๊ตฌ๋ฏ์ผ๋ก ๋ฒ์ญ ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ์์ธ๋ฅผ ์ฒ๋ฆฌํ์ฌ ์์ ์ฑ์ ๋์๋ค.
04. crt_dt, updt_dt ์ ํ์ฌ yyyymmddHHmmss ํ์์ผ๋ก ํ์ฌ ์ผ์ ๋ฃ๊ธฐ
๋ฒ์ญ๋ ์์ ์ ๊ธฐ๋กํ๊ธฐ ์ํด crt_dt, updt_dt ์ปฌ๋ผ์ ์ถ๊ฐํ์ฌ ํ์ฌ ๋ ์ง ๋ฐ ์๊ฐ์ YYYYMMDDHHMMSS ํ์์ผ๋ก ์ฝ์ ํด๋ณด์.
datetime ๋ชจ๋์ ์ฌ์ฉํ์ฌ ํ์ฌ ๋ ์ง ๋ฐ ์๊ฐ์ ์ป๊ณ , ์ด๋ฅผ ์ํ๋ ํ์์ผ๋ก ๋ณํํด์ผ ํ๋ค.
์ ๋ฐ์ดํธ๋ ์ฝ๋
import pandas as pd
from googletrans import Translator
from datetime import datetime
# CSV ํ์ผ ์ฝ๊ธฐ
df = pd.read_csv('ko.csv')
# ๋ฒ์ญ๊ธฐ ์ด๊ธฐํ
translator = Translator()
# ํ์ฌ ๋ ์ง์ ์๊ฐ ์ป๊ธฐ (YYYYMMDDHHMMSS ํ์)
def get_current_datetime():
return datetime.now().strftime('%Y%m%d%H%M%S')
# ๋ฒ์ญ ํจ์
def translate_text(text):
try:
translated = translator.translate(text, src='ko', dest='en')
return translated.text
except Exception as e:
print(f"Error translating {text}: {e}")
return text
# MSG ์ปฌ๋ผ์ ๋ฒ์ญ
df['MSG'] = df['MSG'].apply(translate_text)
# crt_dt์ updt_dt ์ปฌ๋ผ์ ํ์ฌ ๋ ์ง์ ์๊ฐ ์ค์
current_datetime = get_current_datetime()
df['crt_dt'] = current_datetime
df['updt_dt'] = current_datetime
# ๊ฒฐ๊ณผ๋ฅผ ์๋ก์ด CSV ํ์ผ๋ก ์ ์ฅ
df.to_csv('en.csv', index=False)
print("Translation complete. Saved to en.csv")
- ํ์ฌ ๋ ์ง์ ์๊ฐ ํจ์ ์ ์: ํ์ฌ ๋ ์ง์ ์๊ฐ์ YYYYMMDDHHMMSS ํ์์ผ๋ก ์ป๊ธฐ ์ํด get_current_datetime ํจ์๋ฅผ ์ ์ํ๋ค.
- ํ์ฌ ๋ ์ง์ ์๊ฐ ๋ณ์ ์์ฑ: get_current_datetime ํจ์๋ฅผ ํธ์ถํ์ฌ ํ์ฌ ๋ ์ง์ ์๊ฐ์ ๊ฐ์ ธ์จ๋ค.
- crt_dt์ updt_dt ์ปฌ๋ผ ์ค์ : ๋ฒ์ญ๋ ๋ฐ์ดํฐํ๋ ์์ crt_dt์ updt_dt ์ปฌ๋ผ์ ์ถ๊ฐํ๊ณ , ํ์ฌ ๋ ์ง์ ์๊ฐ์ผ๋ก ์ค์ ํ๋ค.
- CSV ํ์ผ๋ก ์ ์ฅ: ๋ณํ๋ ๋ฐ์ดํฐํ๋ ์์ en.csv ํ์ผ๋ก ์ ์ฅํ๋ค.
๊ฐ ํ์ ํ์ฌ ๋ ์ง์ ์๊ฐ์ crt_dt์ updt_dt ์ปฌ๋ผ์ ์ถ๊ฐํ์ฌ YYYYMMDDHHMMSS ํ์์ผ๋ก ์ฝ์ ํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ์์ฑ ๋ฐ ์ ๋ฐ์ดํธ ์์ ์ ๊ธฐ๋กํ ์ ์๋ค.
'๐ป Programming > Python' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python] ๋ค์ด๋ฒ Geocoding API๋ฅผ ์ฌ์ฉํ์ฌ ์ฃผ์๋ฅผ ์ขํ๋ก ๋ณํํ๊ธฐ (1) | 2024.08.07 |
---|---|
[Python] Python๊ณผ CSV ํ์ผ์ ํ์ฉํ MySQL INSERT ์ฟผ๋ฆฌ ์์ฑ ๋ฐฉ๋ฒ (0) | 2024.07.16 |