اندازهی قلم متن
تخمین مدت زمان مطالعهی مطلب:
شش دقیقه
اگر پیشتر با SQL Server کار کرده باشید، حالت پیشفرض حساس بودن جستجوی SQLite به بزرگی و کوچکی حروف را انتظار نخواهید داشت؛ تا زمانیکه هنگام لاگین، اکانت Admin بتواند وارد سیستم شود و اکانت admin خیر. در این مطلب نحوهی انجام تنظیمات مرتبط با جستجوی غیرحساس به بزرگی و کوچکی حروف را در SQLite و EF-Core، بررسی خواهیم کرد.
Collations و حساسیت به بزرگی و کوچکی حروف
پردازش متون در بانکهای اطلاعاتی پیچیدهاست و عموما فراتر است از انتظارات سادهی اولیه، خصوصا اینکه بانکهای اطلاعاتی متفاوت، روشهای متفاوتی را هم در این زمینه بکار میگیرند. برای مثال بانکهای اطلاعاتی مانند SQLite و PostgreSQL به صورت پیشفرض به بزرگی و کوچکی حروف حساس هستند، اما بانکهایی مانند SQL Server و MySQL خیر. همچنین این حساسیت، بر روی کارآیی جستجو نیز بسیار تاثیر گذار است. برای مثال میتوان از متدهایی مانند string.ToLower برای انجام جستجوهای غیرحساس به بزرگی و کوچکی حروف استفاده کرد، اما بکارگیری آنها بلافاصله استفادهی از ایندکسها را غیرفعال میکنند و سبب انجام جستجوهایی بسیار کند خواهند شد.
برای مواجه شدن با یک چنین حالتهایی بدون افت کارآیی برنامه، مفهوم پایهای به نام collation در بانکهای اطلاعاتی ارائه شدهاست که مشخص میکند مقادیر رشتهای چگونه باید مرتب شده یا مقایسه شوند. برای مثال یک collation غیرحساس به بزرگی و کوچکی حروف، در حین مقایسهی رشتهها، به بزرگی و کوچکی حروف بکار گرفته شدهی در عبارت اهمیتی نمیدهد. همچنین باید دقت داشت که یک چنین مقایسهای بسته به فرهنگ بکار گرفته شده، میتوان متفاوت باشد؛ برای مثال در زبان ترکی، i و I حروف متفاوتی هستند و نباید در حین مقایسهی غیرحساس به بزرگی و کوچکی حروف، یکی در نظر گرفته شوند. به همین جهت تعداد قابل ملاحظهای case-insensitive collations از پیش تعریف شده، بسته به فرهنگهای مختلف وجود دارند؛ نمونهی دیگر آن فرهنگ آلمانی است که در آن عموما ä و ae را یکسان درنظر میگیرند. به علاوه collation بر روی نحوهی مرتب سازی حروف نیز تاثیر دارد؛ برای مثال در فرهنگ آلمانی، ä پس از a قرار میگیرد، اما در فرهنگ سوئدی در انتهای حروف الفباء واقع شدهاست.
تمام پردازشهای متنی در بانکهای اطلاعاتی (چه به صورت صریح و یا ضمنی) از collations استفاده میکنند و نام آنها از هر بانک اطلاعاتی به بانک اطلاعاتی دیگری متفاوت است. عموما میتوان این collations را در سطح کل بانک اطلاعاتی و یا در سطح یک ستون مشخص از آن و یا حتی در سطح یک کوئری مشخص، تعیین کرد.
روش تعیین collation در سطح بانک اطلاعاتی
در اغلب بانکهای اطلاعاتی، یک collation پیشفرض، در سطح کل آنها تعریف شدهاست و بر روی تمام پردازشهای متنی و تمام ستونهای جداول تاثیرگذار است. برای مثال حالت پیشفرض collation در SQL Server (اگر هیچ تنظیم پیشفرض دیگری در حین تعریف بانک اطلاعاتی وجود نداشته باشد) مقدار SQL_Latin1_General_CP1_CI_AS است. این مقدار یک collation غیرحساس به بزرگی و کوچکی حروف است. مقدار CI آن به معنای case-insensitive و AS آن مخفف accent-sensitive (حساس به لهجه) است.
از زمان EF-Core 5x، امکان کار با collations و تعیین آنها نیز میسر شدهاست. برای مثال برای تعیین یک چنین collation ای در سطح بانک اطلاعاتی میتوان به صورت زیر در متد OnModelCreating عمل کرد:
البته بهتر است یک چنین تنظیماتی را از ابتدای کار و پیش از تعریف و ایجاد بانک اطلاعاتی درنظر داشت؛ چون تغییر collation پس از ایجاد بانک اطلاعاتی، تداخلات زیادی را ایجاد میکند. برای مثال SQL Server حتی اجازهی join دو جدول با collation متفاوت را نمیدهد؛ هرچند راهحلهایی برای آن وجود دارد اما بهتر است این مقدار یکبار و آن هم در ابتدای کار تعیین شود.
روش تعیین collation در سطح جداول بانک اطلاعاتی
Collations را همچنین میتوان در سطح جداول نیز مشخص کرد تا بتوان در صورت نیاز، collation پیشفرض بانک اطلاعاتی را بازنویسی نمود. برای مثال شاید نیاز داشته باشید جداولی case-insensitive و تعدادی دیگر case-sensitive باشند.
در EF-Core 5x به بعد، روش انجام اینکار به صورت زیر است:
در اینجا collation ستون Name جدول Customer، به صورت صریحی مشخص شدهاست.
روش تعیین پویای collation در سطح کوئریهای بانک اطلاعاتی
یک جدول میتواند collation پیشفرضی داشته باشد، اما در حین کوئری گرفتن، collation آنرا به صورت موقت و پویا تغییر داد. برای مثال بجای استفاده از متد ToLower که سبب میشود از ایندکسها استفاده نشود، میتوان از collation خاصی در حین کوئری گرفتن استفاده کرد:
البته باید دقت داشت که تعیین collation در این حالت نیز سبب میشود تا از ایندکسها استفاده نشود. از این جهت که ایندکسها به صورت پیشفرض بر اساس collation یک ستون یا جدول تهیه میشوند. هرچند بانک اطلاعاتیهایی مانند PostgreSQL, Sqlite امکان تعیین collation را در حین تهیهی ایندکسها نیز میسر میکنند. برای مثال میتوان ایندکسهای حساس و غیر حساس به بزرگی و کوچکی حروف را در این بانکهای اطلاعاتی، به صورت جداگانهای تعریف کرد تا در صورت نیاز، از آنها استفاده شود.
تعیین collation غیرحساس به بزرگی و کوچکی حروف در SQLite، توسط EF-Core
با توجه به توضیحات فوق، متد زیر، collation ویژهی nocase را که در SQLite به معنای collation غیرحساس به بزرگی و کوچکی حروف است، به کل بانک اطلاعاتی و همچنین تمام ستونهای رشتهای آن به صورت خودکار اعمال میکند:
سپس روش استفادهی از آن به صورت زیر خواهد بود:
Collations و حساسیت به بزرگی و کوچکی حروف
پردازش متون در بانکهای اطلاعاتی پیچیدهاست و عموما فراتر است از انتظارات سادهی اولیه، خصوصا اینکه بانکهای اطلاعاتی متفاوت، روشهای متفاوتی را هم در این زمینه بکار میگیرند. برای مثال بانکهای اطلاعاتی مانند SQLite و PostgreSQL به صورت پیشفرض به بزرگی و کوچکی حروف حساس هستند، اما بانکهایی مانند SQL Server و MySQL خیر. همچنین این حساسیت، بر روی کارآیی جستجو نیز بسیار تاثیر گذار است. برای مثال میتوان از متدهایی مانند string.ToLower برای انجام جستجوهای غیرحساس به بزرگی و کوچکی حروف استفاده کرد، اما بکارگیری آنها بلافاصله استفادهی از ایندکسها را غیرفعال میکنند و سبب انجام جستجوهایی بسیار کند خواهند شد.
برای مواجه شدن با یک چنین حالتهایی بدون افت کارآیی برنامه، مفهوم پایهای به نام collation در بانکهای اطلاعاتی ارائه شدهاست که مشخص میکند مقادیر رشتهای چگونه باید مرتب شده یا مقایسه شوند. برای مثال یک collation غیرحساس به بزرگی و کوچکی حروف، در حین مقایسهی رشتهها، به بزرگی و کوچکی حروف بکار گرفته شدهی در عبارت اهمیتی نمیدهد. همچنین باید دقت داشت که یک چنین مقایسهای بسته به فرهنگ بکار گرفته شده، میتوان متفاوت باشد؛ برای مثال در زبان ترکی، i و I حروف متفاوتی هستند و نباید در حین مقایسهی غیرحساس به بزرگی و کوچکی حروف، یکی در نظر گرفته شوند. به همین جهت تعداد قابل ملاحظهای case-insensitive collations از پیش تعریف شده، بسته به فرهنگهای مختلف وجود دارند؛ نمونهی دیگر آن فرهنگ آلمانی است که در آن عموما ä و ae را یکسان درنظر میگیرند. به علاوه collation بر روی نحوهی مرتب سازی حروف نیز تاثیر دارد؛ برای مثال در فرهنگ آلمانی، ä پس از a قرار میگیرد، اما در فرهنگ سوئدی در انتهای حروف الفباء واقع شدهاست.
تمام پردازشهای متنی در بانکهای اطلاعاتی (چه به صورت صریح و یا ضمنی) از collations استفاده میکنند و نام آنها از هر بانک اطلاعاتی به بانک اطلاعاتی دیگری متفاوت است. عموما میتوان این collations را در سطح کل بانک اطلاعاتی و یا در سطح یک ستون مشخص از آن و یا حتی در سطح یک کوئری مشخص، تعیین کرد.
روش تعیین collation در سطح بانک اطلاعاتی
در اغلب بانکهای اطلاعاتی، یک collation پیشفرض، در سطح کل آنها تعریف شدهاست و بر روی تمام پردازشهای متنی و تمام ستونهای جداول تاثیرگذار است. برای مثال حالت پیشفرض collation در SQL Server (اگر هیچ تنظیم پیشفرض دیگری در حین تعریف بانک اطلاعاتی وجود نداشته باشد) مقدار SQL_Latin1_General_CP1_CI_AS است. این مقدار یک collation غیرحساس به بزرگی و کوچکی حروف است. مقدار CI آن به معنای case-insensitive و AS آن مخفف accent-sensitive (حساس به لهجه) است.
از زمان EF-Core 5x، امکان کار با collations و تعیین آنها نیز میسر شدهاست. برای مثال برای تعیین یک چنین collation ای در سطح بانک اطلاعاتی میتوان به صورت زیر در متد OnModelCreating عمل کرد:
modelBuilder.UseCollation("SQL_Latin1_General_CP1_CS_AS");
روش تعیین collation در سطح جداول بانک اطلاعاتی
Collations را همچنین میتوان در سطح جداول نیز مشخص کرد تا بتوان در صورت نیاز، collation پیشفرض بانک اطلاعاتی را بازنویسی نمود. برای مثال شاید نیاز داشته باشید جداولی case-insensitive و تعدادی دیگر case-sensitive باشند.
در EF-Core 5x به بعد، روش انجام اینکار به صورت زیر است:
modelBuilder.Entity<Customer>().Property(c => c.Name) .UseCollation("SQL_Latin1_General_CP1_CI_AS");
روش تعیین پویای collation در سطح کوئریهای بانک اطلاعاتی
یک جدول میتواند collation پیشفرضی داشته باشد، اما در حین کوئری گرفتن، collation آنرا به صورت موقت و پویا تغییر داد. برای مثال بجای استفاده از متد ToLower که سبب میشود از ایندکسها استفاده نشود، میتوان از collation خاصی در حین کوئری گرفتن استفاده کرد:
var customers = context.Customers .Where(c => EF.Functions.Collate(c.Name, "SQL_Latin1_General_CP1_CS_AS") == "John").ToList();
یک نکته: هر چند کوئریهای سمت دات نت به صورت پیشفرض حساس به بزرگی و کوچکی حروف هستند (مانند s1 == s2)، اما EF-Core هیچ تلاشی را برای انجام یک کوئری case-sensitive در سمت بانک اطلاعاتی انجام نخواهد داد و == سی شارپ به صورت مستقیمی به تساوی SQL ترجمه میشود که بسته به collation جاری، میتواند یا حتی نمیتواند حساس به بزرگی و کوچکی حروف باشد. بنابراین حالت پیشفرض کوئریهای EF-Core استفاده از collation پیشفرض ستونها است. هرچند متدهایی مانند string.Equals امکان مقایسهی غیرحساس به بزرگی و کوچکی حروف را در دات نت میسر میکنند (چون به همراه پارامتر StringComparison هستند)، اما EF-Core سعی در ترجمهی آنها به SQL نخواهد کرد و تعیین صریح collation توسط متد EF.Functions.Collate به شما واگذار شدهاست.
تعیین collation غیرحساس به بزرگی و کوچکی حروف در SQLite، توسط EF-Core
با توجه به توضیحات فوق، متد زیر، collation ویژهی nocase را که در SQLite به معنای collation غیرحساس به بزرگی و کوچکی حروف است، به کل بانک اطلاعاتی و همچنین تمام ستونهای رشتهای آن به صورت خودکار اعمال میکند:
public static void SetCaseInsensitiveSearchesForSQLite(this ModelBuilder modelBuilder) { if (modelBuilder == null) { throw new ArgumentNullException(nameof(modelBuilder)); } modelBuilder.UseCollation("NOCASE"); foreach (var property in modelBuilder.Model.GetEntityTypes() .SelectMany(t => t.GetProperties()) .Where(p => p.ClrType == typeof(string))) { property.SetCollation("NOCASE"); } }
protected override void OnModelCreating(ModelBuilder modelBuilder) { if (modelBuilder == null) { throw new ArgumentNullException(nameof(modelBuilder)); } modelBuilder.SetCaseInsensitiveSearchesForSQLite(); }