Сообщество - Life-Hack [Жизнь-Взлом]/Хакинг
Добавить пост

Life-Hack [Жизнь-Взлом]/Хакинг

244 поста 2 670 подписчиков

Популярные теги в сообществе:

Популярно о кибербезопасности. Что такое эксплойт нулевого дня?

Популярно о кибербезопасности. Что такое эксплойт нулевого дня? Информационная безопасность, Эксплойт, Уязвимость, Атака, Хакеры, Взлом

Простым языком и общими фразами!

Одной из опаснейших современных вредоносных программ является эксплойт нулевого дня. Это особая форма вредоносного кода, использующая уязвимости, о которых разработчик программного обеспечения не знает. Такие «дыры» в программном коде называются уязвимостями нулевого дня.

Для чего разрабатывается эксплойт?

Такие программы создаются для заражения ПО крупной компании вирусами, троянами, червями, руткитами, а также для шантажа и вымогательства денег. Хакеры, обнаружившие уязвимость, как правило, не сообщают об этом производителю программного кода. После обнаружения уязвимости они могут:

  • Разработать вредоносный код, который использует незадокументированную уязвимость, и шантажировать компанию.

  • Предлагать эксплойт производителям уязвимого программного обеспечения. Приобретая эксплойт нулевого дня разработчики защищают репутацию компании и свои продукты до атаки.

  • Продавать информацию об уязвимости спецслужбам, другим заинтересованным лицам. Спецслужбы и военные могут использовать эксплойт для подготовки к кибервойне или активно использовать такое ПО для атак или шпионажа.

В чем заключается особая опасность эксплойта?

Такое вредоносное ПО может быть использовано для незаметных, а значит очень опасных атак. Они опасны тем, что у производителя ПО нет патча, который может исправить скрытую в программном коде уязвимость. Злоумышленник, использующий эксплойт нулевого дня, имеет преимущество во времени перед производителями и пользователями уязвимого ПО, что позволяет наносить значительный ущерб или манипулировать множеством уязвимых систем, оставаясь незамеченным. Эксплойт нулевого дня может быть обнаружен только после первой атаки на систему. Однако такие киберпреступления часто остаются незамеченными длительное время.

Как происходит атака нулевого дня?

Атака начинается с активного использования эксплойта. То есть с его помощью в атакуемую систему внедряются другие вредоносные программы. Если изменения остаются незамеченными, то система переходит под управление злоумышленников. Если атака обнаруживается, то эффективно и быстро защитить систему чаще всего не удается. Атака может быть эффективно отражена только в том случае, если разработчики ПО оперативно закроют уязвимость. Но исправление уязвимости системы требует времени, поэтому эксплойт способен наносить ущерб в течение длительного периода.

Рынок эксплойтов нулевого дня

Для такого вредоносного ПО существует отдельный, нелегальный рынок, на котором эксплойты продаются и покупаются. Единой цены на вредоносный код не существует. Она формируется в зависимости от типа уязвимости, масштаба угрозы и количества потенциально уязвимых систем. Обычно такие сделки сторонами не афишируются.

Как защититься от эксплойта?

Поскольку уязвимость, эксплуатируемая вредоносным кодом, неизвестна, то защитить потенциально уязвимые системы очень трудно. Тем не менее, некоторые профилактические меры могут минимизировать риск возникновения атаки нулевого дня.

Передача данных в сети должна быть безопасной и зашифрованной. Обеспечить дополнительную защиту поможет система обнаружения вторжений и система предотвращения вторжений. Они реагируют на необычные изменения в системе, информируют администраторов или автоматически защищают систему.

Любое программное обеспечение является шлюзом для атак нулевого дня, поэтому сотрудники компании должны использовать минимальный набор программ. Программное обеспечение, которое не используется, должно быть удалено из системы. Также важно регулярно контролировать обновление всех программ и операционных систем, которые используют в компании.

Наш телеграм канал по кибербезопасности, подписывайся!

Показать полностью

Получаем ip-адрес из requests (python)

Когда мы получаем какую-либо информацию о домене, в числе прочих параметров мы узнаем его ip-адрес. И получить его с помощью python не составляет большого труда. Однако давайте рассмотрим, как, не используя прямое обращение к сокету получить ip-адрес непосредственно из запроса.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Зачастую, чтобы получить ip-адрес мы используем socket. И в случае, когда нам требуется выполнение только данной операции этого вполне достаточно.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Но можно поступить несколько иначе, особенно если мы уже получаем какие-либо данные с сервера. Хотя бы те же заголовки. Давайте на примере посмотрим, как реализовать получение доступа к необработанному объекту сокета.

Установка необходимых библиотек

В данном случае нам понадобиться библиотека requests. Для ее установки пишем в терминале:

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Импорт библиотек в скрипт. Создание заголовков для запроса

После того, как установлены необходимые библиотеки, нам их нужно импортировать в скрипт. В данном случае, так как мы установили библиотеку requests, импортируем ее.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

После этого создадим словарь с заголовками содержащими «User-Agent» и «Accept». Их мы будем передавать в запрос в качестве параметра, чтобы изменить стандартные заголовки отправляемые python.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Получаем заголовки и ip-адрес

Создадим функцию get_domain_info(domain: str) -> (dict, bool), которая на входе будет получать домен, а возвращать заголовки отправленные сервером, а также ip-адрес домена.
Выполним запрос на получение заголовков, куда передадим адрес домена, заголовки. Укажем свойство allow_redirects = True. Это сделано для того, чтобы производилась переадресация. То есть, в данном случае мы делаем следующее: так как мы не знаем точного адреса сайта, доменное имя которого передано в функцию, поступим как браузер. Для начала пойдем по протоколу http. Если на сервере включена переадресация, то мы будем автоматически переадресованы на нужный адрес. Также, stream=True. Это необходимо для получения ip-адреса из запроса.

Обработаем исключение raise_for_status(), чтобы отсекать ненужные статус-коды. В случае же, когда код 200, получим ip и порт, которые возвращаются в кортеже при выполнении следующего кода: res.raw._connection.sock.getpeername(). Важно то, что эти данные необходимо получить в самом начале, до обработки остальных данных запроса, то есть в первую очередь. И уже после получим частично содержимое из заголовков отправленных сервером. Вернем пользователю словарь из полученных данных. В случае же неудачи или неверного статус-кода, вернем из функции False.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Ну и создадим функцию main, где и будем запрашивать у пользователя домен, отправлять его в функцию для получения информации и выводить на печать полученные в виде словаря данные.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Здесь я не проверяю полученную информацию, так как данный код служит примером. Если вы попробуете получить ip-адрес с помощью socket, результат, зачастую, будет одинаковым. Однако, если вы увидите, что адреса различаются, то не считайте это ошибкой. Я проверял специально данные, получая информацию от DNS. Тут дело в том, что на одном домене может быть несколько NS-серверов. И в этом случае возвращается значение ближайшего. Ну или свободного. В данном случае механизм для меня пока еще не совсем понятен. Главное, что и тот, и тот адреса являются правильными.

Полный код скрипта

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост
Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Протестируем написанный код и получим заголовки и ip-адрес для домена python.org.

Получаем ip-адрес из requests (python) Python, IT, Программист, Разработка, Разработчики, Программирование, Рекомендации, Гайд, Домен, Код, Длиннопост

Результат работы скрипта

Как видим, скрипт отработал правильно и вернул ip-адрес, а также информацию из полученных заголовков.

А на этом, пожалуй, все.

Спасибо за внимание. Надеюсь, данная информация будет вам полезна!

Подписывайся на наши телеграм каналы! У нас много полезного!

Код скрипта можно забрать тут!

Показать полностью 9

Очистка текста с помощью Python. Часть 02

В предыдущей части статьи мы поговорили о том, как очистить текст от цифр и символов. Продолжим очищать данные и поговорим о том, как очистить цифры от букв и символов, а также выполнить проверку email. Также мы подсчитаем количество не пустых строк. В данном случае, строка будет пустой, если она содержит одно или менее значений. Ну и в завершении протестируем то, что у нас получилось.

Очистка текста с помощью Python. Часть 02 Гайд, IT, Python, Разработка, Программирование, Рекомендации, Длиннопост

Очистка строк от букв и символов

Если в предыдущей функции мы удаляли числа и символы, то сейчас нам нужно выполнить противоположную задачу. Например, нужно очистить номер телефона. И привести к какому-то одному виду для облегчения поиска. Чтобы информация не была неструктурированном и сыром виде. Создадим функцию phone_normalize(phone: str) -> str, которая на вход получает строку с номером телефона, очищает ее, приводит к требуемому виду и возвращает из функции. Для начала очистим строку с номером от скобок, кавычек и прочего. После проверим, не является ли строка пустой. Так как она может содержать не только номер телефона и потому будет просто очищена. Если номер есть, проверяем количество символов в нем. Для себя я определил, что если номер телефона, а речь идет о российских номерах, больше 11 символов, то такие номера учитывать не буду. Потому, проверяю, если больше, возвращаю пустую строку. Если количество символов в диапазоне от 6 до 10, проверяю, с какой цифры начинается номер. Если это девять, добавляю 7. Если нет, просто возвращаю номер. Если цифр 11, проверяю первую цифру. Если она 8, меняю на 7. Также здесь нужно учесть то, что не все 8 надо заменять. Потому, проверяем также вторую цифру. И если она девять, только тогда проводим замену. Ну и если номер начинается с 7, возвращаем его из функции как есть.

def phone_normalize(phone: str) -> str:
phone = "".join(x for x in phone if x.isdecimal())
if phone:
if len(phone) > 11:
return ""
elif 6 <= len(phone) < 10:
return phone
elif len(phone) == 10:
if phone.startswith("9"):
return f"7{phone}"
else:
return phone
elif len(phone) == 11:
if phone.startswith("8") and phone[1] == "9":
return f"7{phone[1:]}"
elif phone.startswith("7"):
return phone
else:
return ""
return ""
return ""

Очистка и проверка email

Данная функция не нуждается в особых комментариях. Здесь мы просто проверяем наличие собаки. Если есть, будем считать мылом. Нет, тогда нет. Ну и бывают опечатки вместо точки. Потому, меняем их на нее.

def email_normalize(mail: str) -> str:
return mail.strip().replace("/", ".") if "@" in mail else ""

Подсчет количества не пустых строк

В принципе, данная функция вовсе не обязательна и нужна только в примере, который я вам хочу здесь показать. Тем не менее, для полноты картины ее нужно создать. Здесь все просто. Перебираем объекты в списке. И если они не пустые, увеличиваем счетчик. Затем, если счетчик больше 1, возвращаем True, меньше False.

def count_get(items: list) -> bool:
cnt = 0
for item in items:
if item.strip():
cnt += 1
return True if cnt > 1 else False

Проверка функций очистки на примере файла «csv»

Давайте проверим, как работают созданные функции. Загрузим файл «.csv» и обчистим его с помощью них. Ну и запишем результат в отдельный файл.

Для этого нужно написать обработчик строк, который бы открывал файл, считывал его построчно и очищал.

Создадим функцию read_files(file: str, name: str, ascii_l=True) -> None. На входе она получает путь к «.csv» файлу, имя файла очищенное от расширения и параметр ascii_l со значением по умолчанию. Он нужен для того, чтобы сказать функции, стоит ли обрабатывать английские символы или нет. Ведь не всегда имена написаны по-русски.

Для начала откроем файл «.csv». В цикле будем итерироваться по строкам. В моем файле разделителем является «|». Если у вас что-то другое, запятая или точка с запятой, следует указать их. Проверяем первую строку. У меня она содержит заголовки. Потому их я сразу же добавляю в глобальный, предварительно объявленный, список.

Обратите внимание на то, что в данном случае структура файла нам известна заранее, а следовательно мы можем определить переменные.

Если нам нужно обработать файл, в котором структура столбцов бывает различно, то файл следует предварительно подготовить вручную. Так, скажем, привести к виду для обработки. Это касается однотипных наборов данных с различным количеством столбцов. Как обрабатывать их, здесь мы обсуждать не будем, но я сделал небольшой алгоритм. И если нужно, поделюсь им с вами в следующей статье. Потому, пишите в комментариях.

Распаковываем строку. Нормализуем Ф.И.О., email, телефон и имя пользователя. Также проверяем длину имени пользователя. Затем проверяем количество не пустых переменных. И если оно больше 1, то добавляем список в глобальный список rows_list. Выводим на печать полученные значения, чтобы не было скучно.

def read_files(file: str, name: str, ascii_l=True) -> None:
global rows_list
with open(file, "r", encoding="utf-8") as cs:
for nm, row in enumerate(csv.reader(cs, delimiter="|")):
if nm == 0:
rows_list.append(row)
continue
phone, email, fio, uname = row
fio = fio_normalize(fio, ascii_l)
email = email_normalize(email)
phone = phone_normalize(phone)
uname = uname.encode().decode()
if len(uname) > 50:
uname = ""
if count_get([phone, email, fio, uname]):
rows_list.append([phone, email, fio, uname])
else:
continue
print(f"\r{nm+1} | {fio} | {phone} | {email} | {uname}", end="")
if len(rows_list) == 100000:
with open(f"{name}_clean.csv", mode="a", encoding='utf-8', newline='') as csv_f:
file_writer = csv.writer(csv_f, delimiter=";")
file_writer.writerows(rows_list)
rows_list.clear()

Записывать большие файлы лучше по частям. Потому, проверяем количество списков в глобальном списке. И если оно равно 100 000, записываем в файл. После чего глобальный список очищаем для новой порции.

Запрос пути к файлу. Функция main

Итак, мы приближаемся к финалу данной статьи. Создадим функцию main. Запрашиваем у пользователя путь к файлу. Также запрашиваем выполнять транслитерацию или нет. В данном случае я опустил уточняющие запросы вроде да или нет. Так как в данном случае да уже по умолчанию. А нет равно вводу «n». Проверяем существует ли файл, и что это вообще файл. Следовало бы проверить, является ли он «.csv» хотя бы по расширению. Если файла не существует, выходим из скрипта. Если же все в порядке – двигаемся дальше. Замерим также время выполнения скрипта.

Получаем имя файла без расширения. Подсчитываем кол-во строк в файле и выводим его имя и кол-во в сообщении для пользователя. Проверяем нужно ли выполнять транслитерацию. Ну и передаем путь к файлу в функцию очистки. После отработки скрипта проверяем, не пуст ли глобальный список. Если нет, сохраняем остатки данных в новый файл «.csv». Выводим в терминал время выполнения скрипта.

def main() -> None:
global rows_list
path = input("path file: >>> ")
ascii_l = input("ascii_l: >>> ")
if not Path(path).exists() or not path or not Path(path).is_file():
exit(0)
tm = time.monotonic()
name = Path(path).name.removesuffix(Path(path).suffix)
cnt_line = sum(1 for _ in open(path, "rb"))
print(f"\n{Path(path).name} | Lines: {cnt_line}\n{'*' * 35}")
if ascii_l == "n":
read_files(path, name, ascii_l=False)
else:
read_files(path, name, ascii_l=True)

if 0 < len(rows_list) < 100000:
with open(f"{name}_clean.csv", mode="a", encoding='utf-8', newline='') as csv_f:
file_writer = csv.writer(csv_f, delimiter=";")
file_writer.writerows(rows_list)
rows_list.clear()

ch_time = (f'All complete | {(int(time.monotonic() - tm) // 3600) % 24:d} h. '
f'{(int(time.monotonic() - tm) // 60) % 60:02d} m. {int(time.monotonic() - tm) % 60:02d} s.')
lnt = len(ch_time)
print(f'\n{"-" * lnt}\n{ch_time}\n{"-" * lnt}')


if __name__ == "__main__":
main()

Вот в принципе и все. Ниже я приведу полный код скрипта для очистки. То есть, то, что мы написали для тестирования функций.

Полный код скрипта:

"""
pip install transliterate
"""
import csv
import string
import time
from pathlib import Path

from transliterate import translit

csv.field_size_limit(2147483647)

rows_list = []


def replacer(txt: str) -> str:
symbols = ("ahkbtmxcepAHKBTMXCEP",
"анквтмхсерАНКВТМХСЕР")
tr = {ord(a): ord(b) for a, b in zip(*symbols)}
return txt.translate(tr)


def fio_normalize(fio: str, ascii_l=True) -> str:
if "http" in fio or "https" in fio or "Http" in fio or "Https" in fio:
return ""
if fio.startswith("-") or fio.endswith("-"):
fio = fio.strip("-").strip()
if "-" in fio:
fio = fio.replace("-", "тирре")
fio = "".join(x for x in fio if x.isalpha() or x == " ").strip().replace("тирре", "-")
ascii_count = 0
for xz in fio:
if xz == " ":
ascii_count += 1
ascii_count += sum(1 for x in xz if x in string.ascii_letters)
if ascii_l and ascii_count == len(fio):
fio = translit(fio, "ru")
elif ascii_l:
temp = []
for x in fio:
temp.append(replacer(x)) if x in string.ascii_letters else temp.append(x)
fio = "".join(temp)
fio = " ".join(x.strip().capitalize() for x in fio.split())
lst = []
for x in fio.split():
if "-" in x:
lst.append("-".join(z.capitalize() for z in x.split("-")))
else:
lst.append(x)
fio = " ".join(lst)
if len(fio.split()) > 3:
fio = " ".join(fio.split()[0:3])
if len(fio) > 50:
fio = fio[:51]
return fio if fio else ""


def email_normalize(mail: str) -> str:
return mail.strip().replace("/", ".") if "@" in mail else ""


def phone_normalize(phone: str) -> str:
phone = "".join(x for x in phone if x.isdecimal())
if phone:
if len(phone) > 11:
return ""
elif 6 <= len(phone) < 10:
return phone
elif len(phone) == 10:
if phone.startswith("9"):
return f"7{phone}"
else:
return phone
elif len(phone) == 11:
if phone.startswith("8") and phone[1] == "9":
return f"7{phone[1:]}"
elif phone.startswith("7"):
return phone
else:
return ""
return ""
return ""


def count_get(items: list) -> bool:
cnt = 0
for item in items:
if item.strip():
cnt += 1
return True if cnt > 1 else False


def read_files(file: str, name: str, ascii_l=True) -> None:
global rows_list
with open(file, "r", encoding="utf-8") as cs:
for nm, row in enumerate(csv.reader(cs, delimiter="|")):
if nm == 0:
rows_list.append(row)
continue
phone, email, fio, uname = row
fio = fio_normalize(fio, ascii_l)
email = email_normalize(email)
phone = phone_normalize(phone)
uname = uname.encode().decode()
if len(uname) > 50:
uname = ""
if count_get([phone, email, fio, uname]):
rows_list.append([phone, email, fio, uname])
else:
continue
print(f"\r{nm+1} | {fio} | {phone} | {email} | {uname}", end="")
if len(rows_list) == 100000:
with open(f"{name}_clean.csv", mode="a", encoding='utf-8', newline='') as csv_f:
file_writer = csv.writer(csv_f, delimiter=";")
file_writer.writerows(rows_list)
rows_list.clear()


def main() -> None:
global rows_list
path = input("path file: >>> ")
ascii_l = input("ascii_l: >>> ")
if not Path(path).exists() or not path or not Path(path).is_file():
exit(0)
tm = time.monotonic()
name = Path(path).name.removesuffix(Path(path).suffix)
cnt_line = sum(1 for _ in open(path, "rb"))
print(f"\n{Path(path).name} | Lines: {cnt_line}\n{'*' * 35}")
if ascii_l == "n":
read_files(path, name, ascii_l=False)
else:
read_files(path, name, ascii_l=True)

if 0 < len(rows_list) < 100000:
with open(f"{name}_clean.csv", mode="a", encoding='utf-8', newline='') as csv_f:
file_writer = csv.writer(csv_f, delimiter=";")
file_writer.writerows(rows_list)
rows_list.clear()

ch_time = (f'All complete | {(int(time.monotonic() - tm) // 3600) % 24:d} h. '
f'{(int(time.monotonic() - tm) // 60) % 60:02d} m. {int(time.monotonic() - tm) % 60:02d} s.')
lnt = len(ch_time)
print(f'\n{"-" * lnt}\n{ch_time}\n{"-" * lnt}')


if __name__ == "__main__":
main()

Тестирование

Запустим скрипт и укажем путь к тестовому «csv». В нем содержаться случайно сгенерированные данные. Очистим их с помощью скрипта. Чтобы вы понимали, вот кусочек изображения с номерами телефонов.

Очистка текста с помощью Python. Часть 02 Гайд, IT, Python, Разработка, Программирование, Рекомендации, Длиннопост

Номера телефонов

Как видите – сборная солянка. Ну и то, что было до обработки и что стало после, на примере одной строки.

Очистка текста с помощью Python. Часть 02 Гайд, IT, Python, Разработка, Программирование, Рекомендации, Длиннопост

Строка до обработки

Обработали и получили:

Очистка текста с помощью Python. Часть 02 Гайд, IT, Python, Разработка, Программирование, Рекомендации, Длиннопост

Строка после обработки

Таким образом, мы узнали, что очистить строку вовсе не так сложно. Особенно с помощью методов самого python, без изобретения дополнительного велосипеда.

А на этом, пожалуй, все.
Спасибо за внимание. Надеюсь, данная информация будет вам полезна!

Подписывайся на наши телеграм каналы!

Показать полностью 4

Очистка текста с помощью Python. Часть 1

Возьмем простейшую ситуацию, когда вы спарсили некоторые данные с Ф.И.О., номерами телефонов, email и именем пользователя с какого-либо сайта. Однако пользователи не особо любят соблюдать правила заполнения полей. Потому, иногда в Ф.И.О. присутствуют числа и различные символы, которые в дальнейшем затруднят поиск по таким данным. Да и номера телефонов могут быть записаны вразнобой. А потому, необходимо привести их к какому-то общему знаменателю. Следовательно, напрашивается логический вывод – данные необходимо очистить. Вот этим мы и займемся в данной статье.

Очистка текста с помощью Python. Часть 1 Python, IT, Программирование, Программист, Рекомендации, Разработка, Длиннопост

Я долгое время не обращал внимания на встроенные функции для фильтрации символов и пользовался простым «replace». Однако, при таком методе всех символов, которые необходимо заменить, учесть просто невозможно, так как их может быть не одна сотня. Тем не менее, в python уже есть встроенное средство, которое позволит нам оставить только буквы, убрав все остальные символы - isalpha(). Он возвращает True, если символ является алфавитным. Если же нет, возвращается False. Также, с помощью метода isdecimal() можно убрать все буквы и символы, кроме цифр. Ну, а если наличие цифр и букв критично, а вот символы желательно убрать, можно воспользоваться методом isalnum().

Очистка строк от символов и цифр

Давайте же перейдем от слов к делу и напишем небольшую функцию, которая будет производить необходимые операции. Предположим, что у нас есть строка с Ф.И.О., которую необходимо очистить. Возьмем что-то вымышленное и добавим в него цифры и символы.

Например: Дьяченко-Волобуев))#90= Олег владиmирович52415

Как видим, здесь всего хватает. Это не предел. Встречается еще и похуже. Итак, начнем с того, что создадим функцию fio_normalize(fio: str, ascii_l: bool) -> str, которая будет принимать на вход текст, и возвращать его в очищенном виде.

Иногда вместо Ф.И.О. встречаются строки, которые содержат спам. То есть, в них содержится ссылка. Потому, для начала проверим, есть ли «http» в строке. Если есть, чистить дальше не имеет смысла и нужно просто возвратить пустое значение.

if "http" in fio or "https" in fio or "Http" in fio or "Https" in fio:

return ""

Также, в строке может содержаться тире. Ведь фамилия может быть составной, что-то вроде: Петров-Водкин. Потому, нужно проверить, есть ли тире в строке. Если в начале и конце, удалить. Затем проверить, есть ли в самой строке и если есть, заменить на слово. Это нужно для того, чтобы не удалить символ методом isalpha().

if fio.startswith("-") or fio.endswith("-"):

fio = fio.strip("-").strip()

if "-" in fio:

fio = fio.replace("-", "тирре")

Теперь, собственно, строка подготовлена для удаления символов и цифр. Поэтому, выполняем данную операцию и заменяем слово, на которое мы заменили «-».

fio = "".join(x for x in fio if x.isalpha() or x == " ").strip().replace("тирре", "-")

Еще, в строке может присутствовать транслитерация. Это когда русские буквы заменены на английские. Например: Petrov. В данном случае может помочь библиотека «transliterate». Однако, сильно надеяться на нее не стоит, так как разные люди пишут разные окончания по разному. И потому, слово может быть просто искажено. Слегка. И для человека не существенно. Но вот для поиска уже проблема. Тем не менее, попытаться выполнить транслитерацию стоит. Ведь может и повезти. Потому устанавливаем модуль «transliterate» с помощью команды в терминале:

pip install transliterate

и импортируем в наш скрипт:

from transliterate import translit

Однако, прежде чем проводить транслитерацию, следует понять, является ли слово из английских букв. Для этого мы будем использовать счетчик и библиотеку string, а точнее ее метод ascii_letters. После чего сравним полученное число в количеством символов в строке. И если оно совпадает, значит данное слово нуждается в транслитерации.

Однако, это еще не все. Иногда попадается такая веселая штука, когда на первый взгляд строка написана по-русски. Но, когда приглядишься, понимаешь, что некоторые символы в ней заменены на английский буквы. Вот их тоже надо вычистить. Например: «н» может быть заменено на «h».

Для этого нужно составить таблицу замены и производить ее с помощью дополнительной функции, которую нужно написать. Однако, о ней чуть позже. А пока, примем за факт, что функция есть, и с помощью ее мы делаем замену букв в словах.

if ascii_l and ascii_count == len(fio):

fio = translit(fio, "ru")

elif ascii_l:

temp = []

for x in fio:

temp.append(replacer(x)) if x in string.ascii_letters else temp.append(x)

fio = "".join(temp)

Следующее, что нужно сделать, это написать каждое слово в Ф.И.О. с заглавной буквы. А также учесть наличие тире в составной фамилии. Потому, напишем еще небольшой кусочек кода.

fio = " ".join(x.strip().capitalize() for x in fio.split())

lst = []

for x in fio.split():

if "-" in x:

lst.append("-".join(z.capitalize() for z in x.split("-")))

else:

lst.append(x)

fio = " ".join(lst)

Так как у нас Ф.И.О., то оно должно содержать только три слова. Сейчас не берем в расчет не совсем традиционные написания. Поэтому нужно сделать проверку на количество слов в строке. И если их больше трех, обрезать до нужного количества.

Еще нужно проверить, чтобы строка была не длиннее 50 символов. Конечно для Ф.И.О. это редкость. Но бывает и такое. Потому, оставляем его для заполненности, но обрежем до 50 символов. Почему? Дело в том, что если вы добавляете данные в БД SQLite, то это не имеет значения. А вот уже при добавлении в MongoDB и последующее создание индексов, мы получим ошибку на количество символов в индексируемом поле.

if len(fio.split()) > 3:

fio = " ".join(fio.split()[0:3])

if len(fio) > 50:

fio = fio[:51]

Ну и возвращаем обработанную строку из функции. Или пустоту, если строка пуста.

return fio if fio else ""

Полный код функции очистки строки

def fio_normalize(fio: str, ascii_l=True) -> str:

if "http" in fio or "https" in fio or "Http" in fio or "Https" in fio:

return ""

if fio.startswith("-") or fio.endswith("-"):

fio = fio.strip("-").strip()

if "-" in fio:

fio = fio.replace("-", "тирре")

fio = "".join(x for x in fio if x.isalpha() or x == " ").strip().replace("тирре", "-")

ascii_count = 0

for xz in fio:

if xz == " ":

ascii_count += 1

ascii_count += sum(1 for x in xz if x in string.ascii_letters)

if ascii_l and ascii_count == len(fio):

fio = translit(fio, "ru")

elif ascii_l:

temp = []

for x in fio:

temp.append(replacer(x)) if x in string.ascii_letters else temp.append(x)

fio = "".join(temp)

fio = " ".join(x.strip().capitalize() for x in fio.split())

lst = []

for x in fio.split():

if "-" in x:

lst.append("-".join(z.capitalize() for z in x.split("-")))

else:

lst.append(x)

fio = " ".join(lst)

if len(fio.split()) > 3:

fio = " ".join(fio.split()[0:3])

if len(fio) > 50:

fio = fio[:51]

return fio if fio else ""

Теперь нужно еще поговорить о функции, с помощью которой мы будем заменять те самые вхождения английских букв в русские слова. Создадим функцию def replacer(txt: str) -> str, которая на вход получаем символ и возвращает уже замененный, если он есть в таблице замены.

def replacer(txt: str) -> str:

symbols = ("ahkbtmxcepAHKBTMXCEP",

"анквтмхсерАНКВТМХСЕР")

tr = {ord(a): ord(b) for a, b in zip(*symbols)}

return txt.translate(tr)

Что же, думаю, что первая часть статьи на этом закончена. В следующей части статьи поговорим о том, как очистить цифры от букв и символов, а также нормализовать номер телефона. Напишем код для тестирования функций, которые мы написали для очистки текста и протестируем на примере.

А на этом, пожалуй, все.

Спасибо за внимание. Надеюсь, данная информация будет вам полезна

Подписывайся на наши телеграм каналы!

Показать полностью 1

10 блогов/сайтов по кибербезопасности для специалистов по кибербезопасности/хакеров

10 блогов/сайтов по кибербезопасности для специалистов по кибербезопасности/хакеров IT, Хакеры, Информационная безопасность, Подборка, Рекомендации, Ссылка, Интересные сайты, Полезные сайты

1. Даниэль Мисслер

https://danielmiessler.com

2. Грэм Кьюли

https://grahamcluley.com/about-this-site/

3. Security Weekly

https://scmagazine.com/security-weekly-blog

4. Журналы Infosecurity

https://infosecurity-magazine.com

5. Новости хакеров

https://thehackernews.com

6. Intigriti

https://medium.com/intigriti

7. Hakluke

https://hakluke.com

8. Хакер 1

https://hackerone.com/hacktivity

9. BugCrowd

https://bugcrowd.com/crowdstream?filter=disclosures

10. Гуру ИТ-безопасности

https://itsecurityguru.org

Показать полностью

Определяем контент, созданный нейросетями

Определяем контент, созданный нейросетями IT, Нейронные сети, Искусственный интеллект, Подборка, Рекомендации, Инновации, Тренд

Само собой с помощью нейросетей!

1. AI or Not — определит картинку, видео или запись голоса;

2. Content at Scale — определит картинку, сгенерированную ИИ;

3. Illuminarty — определяет картинку или текст посредством сравнительного анализа;

4. V7 Deepfake Detector — определяет дипфейки, можно запросить демо версию;

5. GPTZero — определяет текст, написанный любыми популярными моделями;

6. AI Content Detector — сайт с говорящим названием, тоже определяет текст.

Мы стараемся для вас делать полезный и нужный контент, поддержите лайком и подпиской, хорошего дня!

Показать полностью 1

Три признака что ваш телефон взломан

Мы в телеграме!

Вы хотите головоломок?

Их есть у нас! Красивая карта, целых три уровня и много жителей, которых надо осчастливить быстрым интернетом. Для этого придется немножко подумать, но оно того стоит: ведь тем, кто дойдет до конца, выдадим красивую награду в профиль!

РАЗМЯТЬ МОЗГ

Топ три гаджета хакера

Мы в телеграме!

Отличная работа, все прочитано!