>>> from __future__ import unicode_literals
>>> from hazm import *
>>> normalizer = Normalizer()
>>> normalizer.normalize('اصلاح نویسه ها و استفاده از نیمفاصله پردازش را آسان می کند')
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
>>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟')
['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟']
>>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟')
['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟']
>>> stemmer = Stemmer()
>>> stemmer.stem('کتابها')
'کتاب'
>>> lemmatizer = Lemmatizer()
>>> lemmatizer.lemmatize('میروم')
'رفت#رو'
>>> tagger = POSTagger(model='resources/postagger.model')
>>> tagger.tag(word_tokenize('ما بسیار کتاب میخوانیم'))
[('ما', 'PRO'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('میخوانیم', 'V')]
>>> chunker = Chunker(model='resources/chunker.model')
>>> tagged = tagger.tag(word_tokenize('کتاب خواندن را دوست داریم'))
>>> tree2brackets(chunker.parse(tagged))
'[کتاب خواندن NP] [را POSTP] [دوست داریم VP]'
>>> parser = DependencyParser(tagger=tagger, lemmatizer=lemmatizer)
>>> parser.parse(word_tokenize('زنگها برای که به صدا درمیآید؟'))
<DependencyGraph with 8 nodes>
pip install hazm
توجه کنید که برچسبزن صرفی و تجزیهگر نحوی نیاز به مدلهای آموزشدیده دارند. ما این مدلها را هم آماده کردهایم، میتوانید آنها را دریافت کنید و در پوشهای با عنوان resources در پروژه خود قرار دهید. البته رویههای آموزش و ارزیابی مدلها هم جزئی از کد هستند.
برای نصب روی ویندوز، لازم است ویژگی WSL را فعال کرده و با اجرای دستور زیر، پایتون را برای نصب هضم آماده کنید:
sudo apt install python-pip
1396/8/19 00000 هضم ، برای پردازش زبان فارسی در پایتون فناوری ، تکنولوژی ، IT و.. , هوش مصنوعی
اولین مرکز تخصصی غربالگری اتیسم شهر تهران در مرکز اختلال طیف اُتیسم فریحا www.AutismFariha.ir
مرکز اختلال طیف اُتیسم فریحا
پایگاه اطلاع رسانی مسعود حیدرنیا
پایگاه اطلاع رسانی مسعود حیدرنیا
وبلاگ پرهاست
چهل تکه دوزی با شادی در شادی دوز
7Agahi.ir سامانه آگهی رایگان هفت آگهی
چرکنویس ها و یاداشت های من
گروه فنی مهندسی پرهاست