استخراج و جایگزینی متن
استخراج و جایگزینی متن با عبارات منظم
در پردازش متن، استخراج و جایگزینی از پرکاربردترین عملیاتها محسوب میشوند. این تکنیکها به ویژه در پاکسازی دادهها، تغییر فرمت متون و تحلیل محتوا کاربرد فراوانی دارند.
توجه: عبارات منظم (Regular Expressions) قدرتمندترین ابزار برای انجام عملیات استخراج و جایگزینی متن هستند.
روشهای پایهای جایگزینی متن
برای انجام عملیات جایگزینی در پایتون، میتوانید از ماژول re استفاده کنید. این ماژول توابع مختلفی ارائه میدهد که مهمترین آنها عبارتند از:
- re.sub(): برای جایگزینی همه موارد تطابق یافته
- re.subn(): مشابه sub() اما تعداد جایگزینیها را نیز برمیگرداند
- re.split(): برای تقسیم رشته بر اساس الگوی مشخص
تابع | کاربرد | مثال |
---|---|---|
sub | جایگزینی تمام موارد | re.sub(r'\d+', 'X', 'عدد 123') |
subn | جایگزینی با شمارش | re.subn(r'\w+', '***', 'متن تست') |
تکنیکهای پیشرفته
برای جایگزینیهای پیچیدهتر میتوانید از گروهبندی و ارجاع به عقب استفاده کنید:
- استفاده از گروههای نامگذاری شده با (?P
...) - ارجاع به گروهها در رشته جایگزین با \g
- استفاده از توابع به عنوان آرگومان جایگزین
مثال کاربردی برای فرمتدهی تاریخ:
import re text = "تاریخ 1402-05-15" result = re.sub(r'(?P\d+)-(?P \d+)-(?P \d+)', '\g /\g /\g ', text) # نتیجه: تاریخ 15/05/1402
برای یادگیری عمیقتر درباره عبارات منظم در پایتون، میتوانید مشاهده کنید.
موارد استفاده عملی
برخی از کاربردهای رایج استخراج و جایگزینی متن شامل موارد زیر است:
- پاکسازی و نرمالسازی دادههای متنی
- استخراج اطلاعات خاص از لاگها یا مستندات
- تغییر فرمت تاریخها و اعداد
- حذف یا جایگزینی کاراکترهای خاص
- مخفیسازی اطلاعات حساس
با تسلط بر این تکنیکها میتوانید پردازش متن را به صورت خودکار انجام دهید و در زمان خود صرفهجویی قابل توجهی داشته باشید.