استخراج و جایگزینی متن

استخراج و جایگزینی متن با عبارات منظم

در پردازش متن، استخراج و جایگزینی از پرکاربردترین عملیات‌ها محسوب می‌شوند. این تکنیک‌ها به ویژه در پاکسازی داده‌ها، تغییر فرمت متون و تحلیل محتوا کاربرد فراوانی دارند.

توجه: عبارات منظم (Regular Expressions) قدرتمندترین ابزار برای انجام عملیات استخراج و جایگزینی متن هستند.

روش‌های پایه‌ای جایگزینی متن

برای انجام عملیات جایگزینی در پایتون، می‌توانید از ماژول re استفاده کنید. این ماژول توابع مختلفی ارائه می‌دهد که مهم‌ترین آن‌ها عبارتند از:

  • re.sub(): برای جایگزینی همه موارد تطابق یافته
  • re.subn(): مشابه sub() اما تعداد جایگزینی‌ها را نیز برمی‌گرداند
  • re.split(): برای تقسیم رشته بر اساس الگوی مشخص
تابع کاربرد مثال
sub جایگزینی تمام موارد re.sub(r'\d+', 'X', 'عدد 123')
subn جایگزینی با شمارش re.subn(r'\w+', '***', 'متن تست')

تکنیک‌های پیشرفته

برای جایگزینی‌های پیچیده‌تر می‌توانید از گروه‌بندی و ارجاع به عقب استفاده کنید:

  1. استفاده از گروه‌های نام‌گذاری شده با (?P...)
  2. ارجاع به گروه‌ها در رشته جایگزین با \g
  3. استفاده از توابع به عنوان آرگومان جایگزین

مثال کاربردی برای فرمت‌دهی تاریخ:

import re
text = "تاریخ 1402-05-15"
result = re.sub(r'(?P\d+)-(?P\d+)-(?P\d+)', 
                '\g/\g/\g', text)
# نتیجه: تاریخ 15/05/1402

برای یادگیری عمیق‌تر درباره عبارات منظم در پایتون، می‌توانید مشاهده کنید.


موارد استفاده عملی

برخی از کاربردهای رایج استخراج و جایگزینی متن شامل موارد زیر است:

  • پاکسازی و نرمال‌سازی داده‌های متنی
  • استخراج اطلاعات خاص از لاگ‌ها یا مستندات
  • تغییر فرمت تاریخ‌ها و اعداد
  • حذف یا جایگزینی کاراکترهای خاص
  • مخفی‌سازی اطلاعات حساس

با تسلط بر این تکنیک‌ها می‌توانید پردازش متن را به صورت خودکار انجام دهید و در زمان خود صرفه‌جویی قابل توجهی داشته باشید.